빅데이터/빅데이터 with python

[빅데이터 python] 웹 수집 로봇 만들기 - 7. WebRobot 가동 예

언제나휴일 2020. 11. 16. 16:03
반응형

안녕하세요. 언제나휴일입니다.

 

2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의

2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의

2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의

2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 4. WebPageSql 클래스 정의

2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 5. CandidateSql 클래스 정의

2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 6. WebRobot 클래스 정의

 

1. 사용할 라이브러리 포함

수집 후보 페이지 주소를 얻기 위해 CandidateSql을 사용합니다.

웹 로봇을 테스트하기 위해 WebRobot을 사용합니다.

 

2. DoIt - 웹 페이지 수집하였을 때 수행할 함수

주기적으로 수집한 웹 페이지 정보를 출력할 함수를 정의할게요.

cnt=0
def DoIt(url,depth,wp):
    global cnt
    print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth))

 

3. 웹 수집 로봇 사용

seed 사이트를 입력받은 후에 수집 후보 테이블에 등록합니다.

그리고 웹 수집 로봇을 가동합니다.

여기에서는 5초 주기로 가동하기로 할게요.

seed_url = input("Seed 사이트 주소(ex:http://sample.co.kr):")
CandidateSql.AddCandidate(seed_url,0)
WebRobot.CollectTM(5,DoIt)

4. 전체 코드

from CandidateSql import CandidateSql
from WebRobot import WebRobot

cnt=0
def DoIt(url,depth,wp):
    global cnt
    print("{0}번째 페이지 {1},{2} 수집".format(cnt,url,depth))


seed_url = input("Seed 사이트 주소(ex:http://sample.co.kr):")
CandidateSql.AddCandidate(seed_url,0)
WebRobot.CollectTM(5,DoIt)
반응형