반응형

빅데이터/빅데이터 with python 18

[빅데이터 python] 웹 수집 로봇 만들기 - 7. WebRobot 가동 예

안녕하세요. 언제나휴일입니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 4. WebPageSql 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 ..

[빅데이터 python] 웹 수집 로봇 만들기 - 6. WebRobot 클래스 정의

안녕하세요. 언제나휴일입니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 4. WebPageSql 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 ..

[빅데이터 python] 웹 수집 로봇 만들기 - 5. CandidateSql 클래스 정의

안녕하세요. 언제나휴일입니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 4. WebPageSql 클래스 정의 이번에는 수집해야 할 웹 페이지 주소를 관리하는 Candidate테이블과 연동하는..

[빅데이터 python] 웹 수집 로봇 만들기 - 4. WebPageSql 클래스 정의

안녕하세요. 언제나휴일입니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의 이번에는 수집한 웹 페이지를 데이터베이스와 연동하는 클래스를 정의합시다. 1. SqlCon 클래스 정의 SqlCon 클래스는 Database에 연결을 담당하는 클래스입니다. DBMS는 MSSQL이며 로컬 호스트("127.0.0.1")에 1..

[빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의

안녕하세요. 언제나휴일입니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의 이번에는 수집한 웹 페이지를 표현할 클래스를 정의합시다. 1. __init__ WebPage 개체는 웹 페이지 주소(url), 제목(title), 내용(description), 및 페이지 내 링크 컬렉션(links)을 입력 인자로 받아 멤버 필드를 설정합니다. 그리고 입력 인자로 전달받는 것 외에 페이지 내에 전체 단어 개수인 mcnt를 0으로 초기 설정합니다. 웹 페이지 제목과 내용은 ..

[빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의

안녕하세요. 언제나휴일입니다. 이전 게시글에서는 웹 수집 로봇에 필요한 테이블을 정의하였습니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 이번 게시글에서는 웹 수집 로봇 및 웹 검색 엔진 서비스 등에서 필요한 도우미 클래스(EHHelper)를 정의할게요. 1. 해야 할 일 문자열 내에 태그를 제거하기 문자열 내에 특수문자 제거하기 문자열 내에 HTML 특수문자 제거하기 MSSQL에 한글 문자열을 파이썬의 한글 문자열로 변환 2. EHHelper 클래스 정의하기 웹 페이지 혹은 Open API 등으로 웹 서비스를 통해 얻어온 결과를 그대로 사용하는 것이 불편할 때가 있습니다. 예를 들어 Open API를 이용하..

[빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의

안녕하세요. 언제나휴일입니다. 이전 게시글에서는 웹 페이지를 수집하는 방법을 알아보았습니다. 1. 웹 수집 로봇 다음이나 네이버, 구글 등의 포탈 사이트에서 제공하는 웹 검색 서비스를 제공하려면 방대한 양의 웹 페이지를 수집해야 합니다. 이러한 작업은 수집할 사이트 주소를 사람이 일일이 전달하는 것은 불가능에 가까운 작업입니다. 초기에 수집할 Seed 사이트는 전달하지만 이 후에 수집할 웹 페이지는 전달할 필요가 없습니다. 웹 수집 로봇은 Seed 사이트를 수집하면 수집한 웹 페이지 내에 있는 링크를 다시 수집할 대상 사이트로 지정하기 때문이죠. 이러한 웹 페이지를 수집하는 로봇을 만들어 봅시다. 2. 테이블 정의 제일 먼저 테이블을 정의하기로 할게요. (여기에서는 MSSQL로 작업할게요. WebSear..

[빅데이터 python] 웹 페이지 수집하기

안녕하세요. 언제나휴일입니다. 빅데이터의 주요 작업에는 수집, 저장, 처리, 분석 등이 있어요. 이 중에서 웹 페이지 수집하는 방법을 알아봅시다. 1. 사용할 라이브러리 웹 페이지를 요청하여 얻어올 때 urllib.request를 사용합니다. urllib.request를 축약하여 ureq로 부를게요. 수집한 웹 페이지를 분석할 때 BeautifulSoup을 사용합니다. import urllib.request as ureq from bs4 import BeautifulSoup 2. 요청한 주소의 웹 페이지 수집하는 함수 작성하기 def Collect(url): 요청한 주소의 웹 페이지 수집하여 반환 def Collect(url): ureq(urllib.request)에 있는 Request 개체를 생성합니다..

반응형