반응형

빅데이터 - 언제나 휴일 741

[빅데이터 분석 기획] 데이터 품질 검증

1. 데이터 품질 기준 빅데이터 유형 품질 기준 정형 데이터 완전성, 유일성, 유효성, 일관성, 정확성 비정형 데이터 기능성, 신뢰성, 사용성, 이식성, 효율성 2. 정규 표현식 기호 설명 ^ 시작 문자 예) ^aA1 → aA1로 시작 $ 종료 문자 예) $aA1 → aA1로 종료 | or 예) a|A → a혹은 A [] 대괄호에 있는 문자열 중 1개와 매칭 예)[a-z] → a에서 z 중에 1개 이상 등장 () 소괄호에 있는 표현을 그룹화 예) a(A1)+ → a뒤에 A1을 1번 이상 반복 {n} n번 반복 예)a{2,4} → a문자가 2번 이상 4번 이하 등장 * 0번 이상 반복 a(b)* → a뒤에 b가 0번 이상 반복 + 1번 이상 반복 a(b)+ → a뒤에 b가 1번 이상 반복 *보다 많은 정규..

[빅데이터 분석 기획] 데이터 비식별화

1. 데이터 비식별화 처리 기법 가명처리 개인정보를 직접 식별할 수 없는 다른 값으로 대체하는 기법 예) 임석정 → 임꺽정, 장문석 → 장영실 총계처리 특정 데이터의 값을 판단할 수 없도록 평균값 등으로 처리하는 기법 예)임석정 183cm, 장문석 175cm,... → 빅데이터 분석학과 학생 키 평균: 177cm 범주화 대푯값이나 구간값으로 변환 임석정 43세 → 임꺽정 40대 데이터 마스킹 개인정보의 전체 혹은 부분을 공백이나 * 등의 대체값으로 변환하는 기법 예) 임석정, 한국 대학교 재학 → 임OO, OO대학교 재학 데이터값 삭제 개인정보의 식별 가능한 값을 삭제하는 기법 장문석, 721212-1234567 → 장OO, 72년생 남자 2. 개인정보 익명 처리 기법 가명처리(Pseudoym) 개인정보..

[빅데이터 분석 기획] 데이터 유형 및 속성 파악

1.데이터 유형 저장 형태에 따른 분류 형태 설명 파일 데이터 (File) 로그 파일이나 엑셀, CSV 파일 등의 파일 형태로 저장된 데이터 데이터베이스 데이터 (DataBase) 데이터베이스의 컬럼 또는 테이블 등의 형태로 데이터베이스 형태로 저장된 데이터 콘텐츠 데이터 (Content) 이미지, 오디오, 비디오 등과 같은 미디어 데이터 스트림 데이터 (Stream) 네트워크를 통해서 실시간으로 전송하는 데이터 구조 형태에 따른 분류 형태 설명 정형 데이터 정형화 구조를 갖는 데이터 데이터 베이스에 저장된 테이블 데이터, CSV나 엑셀, 스프레드 시트 등에 정형 구조를 갖는 데이터 반정형 데이터 메타데이터를 포함하며 일정 형태의 구조를 갖고 있지만 값이나 형식에 일관성이 부족한 데이터 웹과 웹서비스에 ..

[빅데이터 분석 기획] 데이터 수집

1. Apache Kafka 실시간 데이터 피드를 관리하고 스트리밍 데이터를 처리하기 위한 대용량 분산 플랫폼이다. 2. CDC(Change Data Capture) 데이터베이스에 데이터가 변경되면 이를 백업이나 추적하기 위해 상요하는 처리 기술입니다. 데이터 웨어하우스 환경에서 주로 발생합니다. 그 이유는 시간에 걸쳐 데이터 상태를 포착하고 보존하는 일이 데이터 웨어하우스의 핵심 기능 가운데 하나이기 때문이다. 그러나 CDC는 모든 데이터베이스, 데이터 저장소 시스템에서 활용이 가능하다. [위키백과 발췌] Push: 소스 프로세스는 자체 프로세스 내에서 변경 스냅샷을 만들고 다운스트림으로 로우를 전달한다. 이 다운스트림 프로세스는 스냅샷을 사용하고 자체 서브셋을 만든 다음에 이를 다음 프로세스에 전달한..

[빅데이터 분석 기획] 데이터 확보 계획

데이터 확보 계획 수립 절차 단계 설명 목표 정의 구체적인 성과 목표를 정의한다. 성과 측정을 위한 지표를 설정한다. 요구사항 도출 필요한 데이터 확보할 계획을 수립힌다. 데이터 정제 수준과 저장 형태를 결정한다. 기존 시스템과 도구 활용 여부를 결정한다. 예산안 수립 자원 및 예산을 수립한다. 계획 수립 인력 투입 방안, 일정 관리, 위험 및 품질 관리

[빅데이터 분석 기획] 데이터 분석 방안

1. 빅데이터 분석 방법론의 분석 절차 단계 분석 기획 (Planning) 비지니스를 이해하고 범위를 설정 프로젝트를 정의하고 계획을 수립 프로젝트 위험을 발굴하여 사전 대응 방안을 수립 데이터 준비 (Preparing) 필요한 데이터를 정의 전사차원의 데이터 스토어 설계 데이터 수집 데이터 분석 (Analyzing) 분석 데이터 준비 텍스트 분석 탐색적 분석 모델링, 모델 평가 및 검증,모델 적용 및 운영 방안 수립 시스템 구현 (Developing) 설계 및 구현, 테스트 및 운영 평가 및 전개 (Deploying) 프로젝트 평가 보고, 모델 발전 계획 수립 2. CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론 데이터 마이닝 전문가가..

[빅데이터 분석 기획] 분석 문제 정의

1. 분석 문제 분석은 과제 관련 현상이나 원인 및 해결 방안에 대한 자료를 수집한 후 분석하여 의사 결정에 활용하는 활동입니다. 문제는 기대 상태와 현재 상태를 같은 수준으로 맞추는 과정입니다. 2. 분석 방식 하향식 접근 방식과 상향식 접근 방식이 있으며 상호 보완해 나가면서 분석합니다. 하향식 접근 방식 분석 과제는 정해져 있고 해법을 찾기 위해 체계적으로 분석하는 방법으로 비지니스 모델 캔버스가 있습니다. 단계 설명 문제 탐색 동종 사례를 벤치마킹하여 문제를 탐색하고 분석 유즈케이스를 정의 문제 정의 필요한 데이터와 기법을 정의 해결방안 탐색 기존 시스템 + 역량 보유: 기존 시스템을 개선하여 활용 기존 시스템 + 역량 미보유: 교육이나 채용을 통해 역량 확보 신규 도입 + 역량 확보: 시스템 고..

반응형