본문 바로가기

웹 크롤러3

[pyhon] 웹 크롤러[정규표현식] #이미지다운 [웹 크롤러 만들기] import requests import urllib.request import re # [img 태그] URL = 'https://www.daum.net/' headers = {'Content-Type': 'application/json; charset=utf-8'} res = requests.get(URL, headers=headers) html = res.text re_img = re.compile("]+>", re.MULTILINE) img_tag = re_img.findall(html) # [src 속성] re_src = re.compile("[Ss][Rr][Cc][^\s]+", re.MULTILINE) img_src = re_src.findall('\n'.join(img_.. 2018. 8. 24.
[pyhon] 웹 크롤러[정규표현식] #a태그 [웹 크롤러 만들기] import requests import re # [a 태그] URL='https://www.daum.net/' headers = {'Content-Type': 'application/json; charset=utf-8'} res=requests.get(URL,headers=headers) html=res.text re_a = re.compile("]+>", re.MULTILINE) a_tag = re_a.findall(html) print('\n'.join(a_tag)) [python] requests 모듈 정리 2018. 8. 24.
[web] 웹 크롤러란? [웹 크롤러란?] 웹 크롤러(web crawler) : 인터넷 상에 있는 자료들을 가져와 분석하기 쉬운 형태로 가공하는 컴퓨터 프로그램 크롤링(crawling) : 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위 크롤링을 해서 데이터를 개인 하드에 소장하는 것 까지는 합법이다. 하지만, 배포를 한다면 그때부턴 합법과 불법이 갈린다고 한다. 사용하는 곳- 구글 : 수 많은 웹 사이트를 클롤링하여 검색서비스를 제공- 쿠차 : 각종 소셜커머스 사이트를 크롤링 하여 최저가 정보 제공- 지진희 알림 : 각종 커뮤니티에서 지진에 관련된 글을 수집하여 지진 발생시 텔레그램으로 알림 사용하는 이유- 현대 사회는 정보 경쟁이 일상화 되었다- 많은 정보의 양만큼 양질의 자료를 찾기 어렵다- 정보를 찾는데 많.. 2018. 8. 18.