반응형
안녕하세요. 언제나휴일입니다.
2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의
2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의
2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의
2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 4. WebPageSql 클래스 정의
2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 5. CandidateSql 클래스 정의
2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 6. WebRobot 클래스 정의
1. 사용할 라이브러리 포함
수집 후보 페이지 주소를 얻기 위해 CandidateSql을 사용합니다.
웹 로봇을 테스트하기 위해 WebRobot을 사용합니다.
2. DoIt - 웹 페이지 수집하였을 때 수행할 함수
주기적으로 수집한 웹 페이지 정보를 출력할 함수를 정의할게요.
cnt=0
def DoIt(url,depth,wp):
global cnt
print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth))
3. 웹 수집 로봇 사용
seed 사이트를 입력받은 후에 수집 후보 테이블에 등록합니다.
그리고 웹 수집 로봇을 가동합니다.
여기에서는 5초 주기로 가동하기로 할게요.
seed_url = input("Seed 사이트 주소(ex:http://sample.co.kr):")
CandidateSql.AddCandidate(seed_url,0)
WebRobot.CollectTM(5,DoIt)
4. 전체 코드
from CandidateSql import CandidateSql
from WebRobot import WebRobot
cnt=0
def DoIt(url,depth,wp):
global cnt
print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth))
seed_url = input("Seed 사이트 주소(ex:http://sample.co.kr):")
CandidateSql.AddCandidate(seed_url,0)
WebRobot.CollectTM(5,DoIt)
반응형
'빅데이터 > 빅데이터 with python' 카테고리의 다른 글
[빅데이터 python] 형태소 분석기 만들기 - 2. MorphemeParser 클래스 정의 (0) | 2020.11.16 |
---|---|
[빅데이터 python] 형태소 분석기 만들기 - 1. Morpheme 클래스 정의 (0) | 2020.11.16 |
[빅데이터 python] 웹 수집 로봇 만들기 - 6. WebRobot 클래스 정의 (0) | 2020.11.16 |
[빅데이터 python] 웹 수집 로봇 만들기 - 5. CandidateSql 클래스 정의 (0) | 2020.11.16 |
[빅데이터 python] 웹 수집 로봇 만들기 - 4. WebPageSql 클래스 정의 (0) | 2020.11.16 |