본문 바로가기
Security_/Web

[web] 웹 크롤러란?

by 낭람_ 2018. 8. 18.
반응형

[웹 크롤러란?]


웹 크롤러(web crawler) : 인터넷 상에 있는 자료들을 가져와 분석하기 쉬운 형태로 가공하는 컴퓨터 프로그램


크롤링(crawling) : 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위


크롤링을 해서 데이터를 개인 하드에 소장하는 것 까지는 합법이다. 하지만, 배포를 한다면 그때부턴 합법과 불법이 갈린다고 한다.


사용하는 곳

- 구글 : 수 많은 웹 사이트를 클롤링하여 검색서비스를 제공

- 쿠차 : 각종 소셜커머스 사이트를 크롤링 하여 최저가 정보 제공

- 지진희 알림 : 각종 커뮤니티에서 지진에 관련된 글을 수집하여 지진 발생시 텔레그램으로 알림


사용하는 이유

- 현대 사회는 정보 경쟁이 일상화 되었다

- 많은 정보의 양만큼 양질의 자료를 찾기 어렵다

- 정보를 찾는데 많은 시간이 소요 된다


- 즉, 원하는 정보를 자동적으로 수집하기 위해서 웹 크롤러를 사용한다.


pyhton을 이용한 웹 크롤러 


[beautifulsoup 사용]

daum 에서 a태그 검색

daum 에서 이미지 다운로드


[정규표현식 사용]

- daum 에서 a태그 검색

- daum 에서 이미지 다운로드




반응형

'Security_ > Web' 카테고리의 다른 글

[web] APM 연동과정  (0) 2018.08.07
[web] GET, POST 차이  (0) 2018.08.07
[web] SQL injection  (0) 2018.08.03

댓글