반응형

Python 38

[빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의

안녕하세요. 언제나휴일입니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의 이번에는 수집한 웹 페이지를 표현할 클래스를 정의합시다. 1. __init__ WebPage 개체는 웹 페이지 주소(url), 제목(title), 내용(description), 및 페이지 내 링크 컬렉션(links)을 입력 인자로 받아 멤버 필드를 설정합니다. 그리고 입력 인자로 전달받는 것 외에 페이지 내에 전체 단어 개수인 mcnt를 0으로 초기 설정합니다. 웹 페이지 제목과 내용은 ..

[빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의

안녕하세요. 언제나휴일입니다. 이전 게시글에서는 웹 수집 로봇에 필요한 테이블을 정의하였습니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 이번 게시글에서는 웹 수집 로봇 및 웹 검색 엔진 서비스 등에서 필요한 도우미 클래스(EHHelper)를 정의할게요. 1. 해야 할 일 문자열 내에 태그를 제거하기 문자열 내에 특수문자 제거하기 문자열 내에 HTML 특수문자 제거하기 MSSQL에 한글 문자열을 파이썬의 한글 문자열로 변환 2. EHHelper 클래스 정의하기 웹 페이지 혹은 Open API 등으로 웹 서비스를 통해 얻어온 결과를 그대로 사용하는 것이 불편할 때가 있습니다. 예를 들어 Open API를 이용하..

[빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의

안녕하세요. 언제나휴일입니다. 이전 게시글에서는 웹 페이지를 수집하는 방법을 알아보았습니다. 1. 웹 수집 로봇 다음이나 네이버, 구글 등의 포탈 사이트에서 제공하는 웹 검색 서비스를 제공하려면 방대한 양의 웹 페이지를 수집해야 합니다. 이러한 작업은 수집할 사이트 주소를 사람이 일일이 전달하는 것은 불가능에 가까운 작업입니다. 초기에 수집할 Seed 사이트는 전달하지만 이 후에 수집할 웹 페이지는 전달할 필요가 없습니다. 웹 수집 로봇은 Seed 사이트를 수집하면 수집한 웹 페이지 내에 있는 링크를 다시 수집할 대상 사이트로 지정하기 때문이죠. 이러한 웹 페이지를 수집하는 로봇을 만들어 봅시다. 2. 테이블 정의 제일 먼저 테이블을 정의하기로 할게요. (여기에서는 MSSQL로 작업할게요. WebSear..

[빅데이터 python] 웹 페이지 수집하기

안녕하세요. 언제나휴일입니다. 빅데이터의 주요 작업에는 수집, 저장, 처리, 분석 등이 있어요. 이 중에서 웹 페이지 수집하는 방법을 알아봅시다. 1. 사용할 라이브러리 웹 페이지를 요청하여 얻어올 때 urllib.request를 사용합니다. urllib.request를 축약하여 ureq로 부를게요. 수집한 웹 페이지를 분석할 때 BeautifulSoup을 사용합니다. import urllib.request as ureq from bs4 import BeautifulSoup 2. 요청한 주소의 웹 페이지 수집하는 함수 작성하기 def Collect(url): 요청한 주소의 웹 페이지 수집하여 반환 def Collect(url): ureq(urllib.request)에 있는 Request 개체를 생성합니다..

Scikit-Learn을 이용한 KMean 군집화(Clustering)

import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt import seaborn as sns df = pd.DataFrame(columns=['x','y']) df.loc[0] = [1,4] df.loc[1] = [1,3] df.loc[2] = [2,5] df.loc[3] = [2,2] df.loc[4] = [1,12] df.loc[5] = [2,13] df.loc[6] = [3,12] df.loc[7] = [4,6] df.loc[8] = [4,8] df.loc[9] = [5,7] print(df) sns.lmplot('x','y',data=df,fit_reg=False,scatter_kws={"s":2..

나의 손글씨 데이터로 머신 러닝시킨 후 나의 손글씨로 테스트하기 with 사이킷 런 svm.SVC

소스 코드 #손글씨 파일 위치: https://k.kakaocdn.net/dn/8iBYV/btqEn8soGlt/EqRKeRjvBIbPyxXenOEWVk/Handwriting.zip?attach=1&knm=tfile.zip import pandas as pd from sklearn import svm, metrics def read_data(fname): mr = pd.read_csv(fname,header=None) label=[] data=[] for row_index,row in mr.iterrows(): label.append(row.loc[400]) other_data=[] for v in row.loc[0:399]: other_data.append(v) data.append(other_data)..

사이킷 런의 svm.SVC 사용 및 흉내내어 만들어보기 [ML with pYTHON]

사이킷 런의 svm.SVC 사용 및 흉내내어 만들어보기 안녕하세요. 기계 학습을 시작할 때 많은 개발자들 사이킷 런(scikit-learn) 라이브러리를 사용하죠. 그리고 사이킷 런을 사용하는 출발점인 svm.SVC 객체의 fit 메서드와 predict 메서드를 사용합니다. 그런데 우리가 사용하는 svm.SVC 클래스 내부에서는 어떠한 일들을 할까요? 내부를 좀 더 이해하기 위해 비슷하게 동작하는 클래스를 만들어 보았습니다. 기계학습하는 알고리즘은 극악한 품질 수준을 갖습니다. 알고리즘을 기대하시는 분들은 Pass~ = 다루는 내용 = 사이킷 런의 svm.SVC 사용 흉내내기 - TinySVC 클래스 외형 정의 초기화 메서드 정의 가중치와 임계치 설정 메서드 정의 판별 메서드 정의 특정 가중치와 임계치 ..

퍼셉트론 구하기, 라이브러리 의존도 0% [ML with Python]

소스 코드를 만든 이유를 이해하기 위한 Intro 동영상 강의입니다. 소스 코드 # http://ehpub.co.kr # 머신 러닝 with pYTHON # 선형 퍼셉트론 구하기 - 라이브러리 의존도 0% w1,w2,b=0,0,0 #가중치1,2와 임계치 def setwb(wt1,wt2,bt): #가중치, 임계치 설정 함수 global w1,w2,b w1,w2,b = wt1,wt2,bt def discriminate(x1,x2): #판별 함수 if(w1*x1+w2*x2+b

반응형