반응형

웹 페이지 수집 2

[빅데이터 python] 웹 검색 엔진 만들기 - 5. 수집한 웹 페이지 형태소 분석 및 역파일 생성하기

안녕하세요. 언제나휴일입니다. [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 검색 엔진 만들기 - 1. 웹 검색 엔진 소개 [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 검색 엔진 만들기 - 2. 형태소 및 Inverse 테이블 정의 [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 검색 엔진 만들기 - 3. MorphemeSql 클래스 정의 [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 검색 엔진 만들기 - 4. InverseSql 클래스 정의 이번에는 웹 수집 로봇이 수집한 웹 페이지를 형태소 분석하고 이를 형태소 테이블 및 역파일 테이블에 추가하는 부분을 구현합시다. 1. 사용할 라이브러리..

[빅데이터 python] 웹 페이지 수집하기

안녕하세요. 언제나휴일입니다. 빅데이터의 주요 작업에는 수집, 저장, 처리, 분석 등이 있어요. 이 중에서 웹 페이지 수집하는 방법을 알아봅시다. 1. 사용할 라이브러리 웹 페이지를 요청하여 얻어올 때 urllib.request를 사용합니다. urllib.request를 축약하여 ureq로 부를게요. 수집한 웹 페이지를 분석할 때 BeautifulSoup을 사용합니다. import urllib.request as ureq from bs4 import BeautifulSoup 2. 요청한 주소의 웹 페이지 수집하는 함수 작성하기 def Collect(url): 요청한 주소의 웹 페이지 수집하여 반환 def Collect(url): ureq(urllib.request)에 있는 Request 개체를 생성합니다..

반응형