반응형

빅데이터 56

머신러닝 with python - 3 회귀

회귀는 연속형 변수 값 중에 어떠한 값으로 결정(예측)하는 작업입니다. 독립 변수에 따라 결정(예측)할 종속 변수가 연속형 변수일 때 회귀 모델을 선택합니다. 파이썬의 머신 러닝 모듈인 사이킷 런에서는 다양한 회귀 모델을 제공하고 있습니다. 사이킷 런의 지도 학습 모델은 대부분 회귀와 분류 작업을 위한 모델을 제공합니다. https://scikit-learn.org/stable/supervised_learning.html#supervised-learning 1. Supervised learning Linear Models- Ordinary Least Squares, Ridge regression and classification, Lasso, Multi-task Lasso, Elastic-Net, Mul..

머신러닝 with python - 002 첫 만남

사용할 모듈 포함문 from sklearn import datasets #머신 러닝 학습에 사용할 수 있는 데이터들 from sklearn.preprocessing import MinMaxScaler #전처리 공정 중에 MinMaxScaler from sklearn.model_selection import train_test_split #데이터를 학습 및 테스트 용으로 분리 from sklearn import neighbors,linear_model #이웃 및 선형 모델 from sklearn.metrics import accuracy_score #평가 방법 중에 적합도 import numpy as np import pandas as pd import matplotlib.pyplot as plt 테스트에..

머신러닝 with python - 001 들어가기에 앞서

머신러닝 기본 절차 - 데이터 수집 - 데이터 전처리 - 모델링(데이터 학습) - 평가 머신러닝 알고리즘에 따른 모델 종류 - 선형 회귀 - K 최근접 이웃 - 로지스틱 회귀 - 결정 트리 - 서포트 벡터 머신 - K 평균 - 앙상블 머신러닝 작업에 따른 모델 종류 - 회귀 - 분류 - 군집화 - 강화 (다루지 않음) - 생성 (다루지 않음) 이러한 주제를 다룰 예정입니다. 2023년 8월 8일 집필을 시작합니다.

[빅데이터 분석 기획] 데이터 품질 검증

1. 데이터 품질 기준 빅데이터 유형 품질 기준 정형 데이터 완전성, 유일성, 유효성, 일관성, 정확성 비정형 데이터 기능성, 신뢰성, 사용성, 이식성, 효율성 2. 정규 표현식 기호 설명 ^ 시작 문자 예) ^aA1 → aA1로 시작 $ 종료 문자 예) $aA1 → aA1로 종료 | or 예) a|A → a혹은 A [] 대괄호에 있는 문자열 중 1개와 매칭 예)[a-z] → a에서 z 중에 1개 이상 등장 () 소괄호에 있는 표현을 그룹화 예) a(A1)+ → a뒤에 A1을 1번 이상 반복 {n} n번 반복 예)a{2,4} → a문자가 2번 이상 4번 이하 등장 * 0번 이상 반복 a(b)* → a뒤에 b가 0번 이상 반복 + 1번 이상 반복 a(b)+ → a뒤에 b가 1번 이상 반복 *보다 많은 정규..

[빅데이터 분석 기획] 데이터 비식별화

1. 데이터 비식별화 처리 기법 가명처리 개인정보를 직접 식별할 수 없는 다른 값으로 대체하는 기법 예) 임석정 → 임꺽정, 장문석 → 장영실 총계처리 특정 데이터의 값을 판단할 수 없도록 평균값 등으로 처리하는 기법 예)임석정 183cm, 장문석 175cm,... → 빅데이터 분석학과 학생 키 평균: 177cm 범주화 대푯값이나 구간값으로 변환 임석정 43세 → 임꺽정 40대 데이터 마스킹 개인정보의 전체 혹은 부분을 공백이나 * 등의 대체값으로 변환하는 기법 예) 임석정, 한국 대학교 재학 → 임OO, OO대학교 재학 데이터값 삭제 개인정보의 식별 가능한 값을 삭제하는 기법 장문석, 721212-1234567 → 장OO, 72년생 남자 2. 개인정보 익명 처리 기법 가명처리(Pseudoym) 개인정보..

[빅데이터 분석 기획] 데이터 유형 및 속성 파악

1.데이터 유형 저장 형태에 따른 분류 형태 설명 파일 데이터 (File) 로그 파일이나 엑셀, CSV 파일 등의 파일 형태로 저장된 데이터 데이터베이스 데이터 (DataBase) 데이터베이스의 컬럼 또는 테이블 등의 형태로 데이터베이스 형태로 저장된 데이터 콘텐츠 데이터 (Content) 이미지, 오디오, 비디오 등과 같은 미디어 데이터 스트림 데이터 (Stream) 네트워크를 통해서 실시간으로 전송하는 데이터 구조 형태에 따른 분류 형태 설명 정형 데이터 정형화 구조를 갖는 데이터 데이터 베이스에 저장된 테이블 데이터, CSV나 엑셀, 스프레드 시트 등에 정형 구조를 갖는 데이터 반정형 데이터 메타데이터를 포함하며 일정 형태의 구조를 갖고 있지만 값이나 형식에 일관성이 부족한 데이터 웹과 웹서비스에 ..

[빅데이터 분석 기획] 데이터 수집

1. Apache Kafka 실시간 데이터 피드를 관리하고 스트리밍 데이터를 처리하기 위한 대용량 분산 플랫폼이다. 2. CDC(Change Data Capture) 데이터베이스에 데이터가 변경되면 이를 백업이나 추적하기 위해 상요하는 처리 기술입니다. 데이터 웨어하우스 환경에서 주로 발생합니다. 그 이유는 시간에 걸쳐 데이터 상태를 포착하고 보존하는 일이 데이터 웨어하우스의 핵심 기능 가운데 하나이기 때문이다. 그러나 CDC는 모든 데이터베이스, 데이터 저장소 시스템에서 활용이 가능하다. [위키백과 발췌] Push: 소스 프로세스는 자체 프로세스 내에서 변경 스냅샷을 만들고 다운스트림으로 로우를 전달한다. 이 다운스트림 프로세스는 스냅샷을 사용하고 자체 서브셋을 만든 다음에 이를 다음 프로세스에 전달한..

[빅데이터 분석 기획] 데이터 확보 계획

데이터 확보 계획 수립 절차 단계 설명 목표 정의 구체적인 성과 목표를 정의한다. 성과 측정을 위한 지표를 설정한다. 요구사항 도출 필요한 데이터 확보할 계획을 수립힌다. 데이터 정제 수준과 저장 형태를 결정한다. 기존 시스템과 도구 활용 여부를 결정한다. 예산안 수립 자원 및 예산을 수립한다. 계획 수립 인력 투입 방안, 일정 관리, 위험 및 품질 관리

[빅데이터 분석 기획] 데이터 분석 방안

1. 빅데이터 분석 방법론의 분석 절차 단계 분석 기획 (Planning) 비지니스를 이해하고 범위를 설정 프로젝트를 정의하고 계획을 수립 프로젝트 위험을 발굴하여 사전 대응 방안을 수립 데이터 준비 (Preparing) 필요한 데이터를 정의 전사차원의 데이터 스토어 설계 데이터 수집 데이터 분석 (Analyzing) 분석 데이터 준비 텍스트 분석 탐색적 분석 모델링, 모델 평가 및 검증,모델 적용 및 운영 방안 수립 시스템 구현 (Developing) 설계 및 구현, 테스트 및 운영 평가 및 전개 (Deploying) 프로젝트 평가 보고, 모델 발전 계획 수립 2. CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론 데이터 마이닝 전문가가..

반응형