반응형

전체 글 678

[빅데이터 python] 웹 수집 로봇 만들기 - 3. WebPage 클래스 정의

안녕하세요. 언제나휴일입니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의 이번에는 수집한 웹 페이지를 표현할 클래스를 정의합시다. 1. __init__ WebPage 개체는 웹 페이지 주소(url), 제목(title), 내용(description), 및 페이지 내 링크 컬렉션(links)을 입력 인자로 받아 멤버 필드를 설정합니다. 그리고 입력 인자로 전달받는 것 외에 페이지 내에 전체 단어 개수인 mcnt를 0으로 초기 설정합니다. 웹 페이지 제목과 내용은 ..

[빅데이터 python] 웹 수집 로봇 만들기 - 2. EHHelper 클래스 정의

안녕하세요. 언제나휴일입니다. 이전 게시글에서는 웹 수집 로봇에 필요한 테이블을 정의하였습니다. 2020/11/16 - [빅데이터/빅데이터 with python] - [빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의 이번 게시글에서는 웹 수집 로봇 및 웹 검색 엔진 서비스 등에서 필요한 도우미 클래스(EHHelper)를 정의할게요. 1. 해야 할 일 문자열 내에 태그를 제거하기 문자열 내에 특수문자 제거하기 문자열 내에 HTML 특수문자 제거하기 MSSQL에 한글 문자열을 파이썬의 한글 문자열로 변환 2. EHHelper 클래스 정의하기 웹 페이지 혹은 Open API 등으로 웹 서비스를 통해 얻어온 결과를 그대로 사용하는 것이 불편할 때가 있습니다. 예를 들어 Open API를 이용하..

[빅데이터 python] 웹 수집 로봇 만들기 - 1. 테이블 정의

안녕하세요. 언제나휴일입니다. 이전 게시글에서는 웹 페이지를 수집하는 방법을 알아보았습니다. 1. 웹 수집 로봇 다음이나 네이버, 구글 등의 포탈 사이트에서 제공하는 웹 검색 서비스를 제공하려면 방대한 양의 웹 페이지를 수집해야 합니다. 이러한 작업은 수집할 사이트 주소를 사람이 일일이 전달하는 것은 불가능에 가까운 작업입니다. 초기에 수집할 Seed 사이트는 전달하지만 이 후에 수집할 웹 페이지는 전달할 필요가 없습니다. 웹 수집 로봇은 Seed 사이트를 수집하면 수집한 웹 페이지 내에 있는 링크를 다시 수집할 대상 사이트로 지정하기 때문이죠. 이러한 웹 페이지를 수집하는 로봇을 만들어 봅시다. 2. 테이블 정의 제일 먼저 테이블을 정의하기로 할게요. (여기에서는 MSSQL로 작업할게요. WebSear..

[빅데이터 python] 웹 페이지 수집하기

안녕하세요. 언제나휴일입니다. 빅데이터의 주요 작업에는 수집, 저장, 처리, 분석 등이 있어요. 이 중에서 웹 페이지 수집하는 방법을 알아봅시다. 1. 사용할 라이브러리 웹 페이지를 요청하여 얻어올 때 urllib.request를 사용합니다. urllib.request를 축약하여 ureq로 부를게요. 수집한 웹 페이지를 분석할 때 BeautifulSoup을 사용합니다. import urllib.request as ureq from bs4 import BeautifulSoup 2. 요청한 주소의 웹 페이지 수집하는 함수 작성하기 def Collect(url): 요청한 주소의 웹 페이지 수집하여 반환 def Collect(url): ureq(urllib.request)에 있는 Request 개체를 생성합니다..

Keras를 이용한 RNN - 인터넷 영화 리뷰로 감정 분류 학습

인터넷 영화 리뷰 데이터(IMDB) 구조 파악 코드 from keras.datasets import imdb (x_train, y_train), (x_test, y_test) = imdb.load_data() print("결과 종류:",max(y_train)+1) #0은 부정, 1은 긍정 len_result = [len(s) for s in x_train] print(len_result) word_to_index = imdb.get_word_index() index_to_word={} for key, value in word_to_index.items(): index_to_word[value] = key cnt=0 for iv in X_train[0]: print(index_to_word[iv],end=..

Keras를 이용한 CNN, 손글씨 인식 소스 코드

import keras from keras import models, layers from keras import backend from keras import datasets batch_size = 128 epochs = 10 num_classes = 10 #데이터 로딩 (x_train, y_train), (x_test, y_test) = datasets.mnist.load_data() img_rows, img_cols = x_train.shape[1:] if backend.image_data_format() == 'channels_first': x_train = x_train.reshape(x_train.shape[0], 1, img_rows, img_cols) x_test = x_test.resha..

Keras를 이용한 딥러닝 시작, ANN-DNN, 손글씨 인식시키기

#데이터 로딩 import numpy as np from keras import datasets data_train,data_test = datasets.mnist.load_data() image_train, label_train = data_train image_test, label_test = data_test #데이터 정제화 from keras.utils import np_utils label_train2 = np_utils.to_categorical(label_train) print(label_test[0]) label_test2 = np_utils.to_categorical(label_test) print(label_test2[0]) length,weight,height = image_train..

머신러닝 및 딥러닝에 사용하는 손글씨 데이터 mnist 다운로드 및 구조 분석하기

#mnist 다운로드 및 분석 import numpy as np from keras import datasets data_train,data_test = datasets.mnist.load_data() image_train, label_train = data_train image_test, label_test = data_test print("image_train의 구조:",image_train.shape) print("label_train의 구조:",label_train.shape) print("image_test의 구조:",image_test.shape) print("label_test의 구조:",label_test.shape) colcnt = len(image_train[0]) rowcnt = le..

Scikit-Learn을 이용한 KMean 군집화(Clustering)

import pandas as pd from sklearn.cluster import KMeans import matplotlib.pyplot as plt import seaborn as sns df = pd.DataFrame(columns=['x','y']) df.loc[0] = [1,4] df.loc[1] = [1,3] df.loc[2] = [2,5] df.loc[3] = [2,2] df.loc[4] = [1,12] df.loc[5] = [2,13] df.loc[6] = [3,12] df.loc[7] = [4,6] df.loc[8] = [4,8] df.loc[9] = [5,7] print(df) sns.lmplot('x','y',data=df,fit_reg=False,scatter_kws={"s":2..

Scikit-Learn을 이용한 분류와 회귀

소스 코드 #분류와 (선형)회귀 import pandas as pd from sklearn import svm from sklearn.linear_model import LinearRegression #y = 2x+1 data = [[0],[2],[5],[7]] label = [1,5,11,15] example = [[1],[4]] print("원하는 결과: 3, 9") clf = svm.SVC() clf.fit(data,label) result = clf.predict(example) print(result) lr = LinearRegression() lr.fit(data,label) result = lr.predict(example) print(result) csv = pd.read_csv('iris..

반응형