반응형
[웹 크롤러란?]
웹 크롤러(web crawler) : 인터넷 상에 있는 자료들을 가져와 분석하기 쉬운 형태로 가공하는 컴퓨터 프로그램
크롤링(crawling) : 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위
크롤링을 해서 데이터를 개인 하드에 소장하는 것 까지는 합법이다. 하지만, 배포를 한다면 그때부턴 합법과 불법이 갈린다고 한다.
사용하는 곳
- 구글 : 수 많은 웹 사이트를 클롤링하여 검색서비스를 제공
- 쿠차 : 각종 소셜커머스 사이트를 크롤링 하여 최저가 정보 제공
- 지진희 알림 : 각종 커뮤니티에서 지진에 관련된 글을 수집하여 지진 발생시 텔레그램으로 알림
사용하는 이유
- 현대 사회는 정보 경쟁이 일상화 되었다
- 많은 정보의 양만큼 양질의 자료를 찾기 어렵다
- 정보를 찾는데 많은 시간이 소요 된다
- 즉, 원하는 정보를 자동적으로 수집하기 위해서 웹 크롤러를 사용한다.
pyhton을 이용한 웹 크롤러
[beautifulsoup 사용]
[정규표현식 사용]
반응형
'Security_ > Web' 카테고리의 다른 글
[web] APM 연동과정 (0) | 2018.08.07 |
---|---|
[web] GET, POST 차이 (0) | 2018.08.07 |
[web] SQL injection (0) | 2018.08.03 |
댓글