반응형

빅데이터/빅데이터 분석 기사 - 빅데이터 분석 기획 18

[빅데이터 분석 기획] 데이터 품질 검증

1. 데이터 품질 기준 빅데이터 유형 품질 기준 정형 데이터 완전성, 유일성, 유효성, 일관성, 정확성 비정형 데이터 기능성, 신뢰성, 사용성, 이식성, 효율성 2. 정규 표현식 기호 설명 ^ 시작 문자 예) ^aA1 → aA1로 시작 $ 종료 문자 예) $aA1 → aA1로 종료 | or 예) a|A → a혹은 A [] 대괄호에 있는 문자열 중 1개와 매칭 예)[a-z] → a에서 z 중에 1개 이상 등장 () 소괄호에 있는 표현을 그룹화 예) a(A1)+ → a뒤에 A1을 1번 이상 반복 {n} n번 반복 예)a{2,4} → a문자가 2번 이상 4번 이하 등장 * 0번 이상 반복 a(b)* → a뒤에 b가 0번 이상 반복 + 1번 이상 반복 a(b)+ → a뒤에 b가 1번 이상 반복 *보다 많은 정규..

[빅데이터 분석 기획] 데이터 비식별화

1. 데이터 비식별화 처리 기법 가명처리 개인정보를 직접 식별할 수 없는 다른 값으로 대체하는 기법 예) 임석정 → 임꺽정, 장문석 → 장영실 총계처리 특정 데이터의 값을 판단할 수 없도록 평균값 등으로 처리하는 기법 예)임석정 183cm, 장문석 175cm,... → 빅데이터 분석학과 학생 키 평균: 177cm 범주화 대푯값이나 구간값으로 변환 임석정 43세 → 임꺽정 40대 데이터 마스킹 개인정보의 전체 혹은 부분을 공백이나 * 등의 대체값으로 변환하는 기법 예) 임석정, 한국 대학교 재학 → 임OO, OO대학교 재학 데이터값 삭제 개인정보의 식별 가능한 값을 삭제하는 기법 장문석, 721212-1234567 → 장OO, 72년생 남자 2. 개인정보 익명 처리 기법 가명처리(Pseudoym) 개인정보..

[빅데이터 분석 기획] 데이터 유형 및 속성 파악

1.데이터 유형 저장 형태에 따른 분류 형태 설명 파일 데이터 (File) 로그 파일이나 엑셀, CSV 파일 등의 파일 형태로 저장된 데이터 데이터베이스 데이터 (DataBase) 데이터베이스의 컬럼 또는 테이블 등의 형태로 데이터베이스 형태로 저장된 데이터 콘텐츠 데이터 (Content) 이미지, 오디오, 비디오 등과 같은 미디어 데이터 스트림 데이터 (Stream) 네트워크를 통해서 실시간으로 전송하는 데이터 구조 형태에 따른 분류 형태 설명 정형 데이터 정형화 구조를 갖는 데이터 데이터 베이스에 저장된 테이블 데이터, CSV나 엑셀, 스프레드 시트 등에 정형 구조를 갖는 데이터 반정형 데이터 메타데이터를 포함하며 일정 형태의 구조를 갖고 있지만 값이나 형식에 일관성이 부족한 데이터 웹과 웹서비스에 ..

[빅데이터 분석 기획] 데이터 수집

1. Apache Kafka 실시간 데이터 피드를 관리하고 스트리밍 데이터를 처리하기 위한 대용량 분산 플랫폼이다. 2. CDC(Change Data Capture) 데이터베이스에 데이터가 변경되면 이를 백업이나 추적하기 위해 상요하는 처리 기술입니다. 데이터 웨어하우스 환경에서 주로 발생합니다. 그 이유는 시간에 걸쳐 데이터 상태를 포착하고 보존하는 일이 데이터 웨어하우스의 핵심 기능 가운데 하나이기 때문이다. 그러나 CDC는 모든 데이터베이스, 데이터 저장소 시스템에서 활용이 가능하다. [위키백과 발췌] Push: 소스 프로세스는 자체 프로세스 내에서 변경 스냅샷을 만들고 다운스트림으로 로우를 전달한다. 이 다운스트림 프로세스는 스냅샷을 사용하고 자체 서브셋을 만든 다음에 이를 다음 프로세스에 전달한..

[빅데이터 분석 기획] 데이터 확보 계획

데이터 확보 계획 수립 절차 단계 설명 목표 정의 구체적인 성과 목표를 정의한다. 성과 측정을 위한 지표를 설정한다. 요구사항 도출 필요한 데이터 확보할 계획을 수립힌다. 데이터 정제 수준과 저장 형태를 결정한다. 기존 시스템과 도구 활용 여부를 결정한다. 예산안 수립 자원 및 예산을 수립한다. 계획 수립 인력 투입 방안, 일정 관리, 위험 및 품질 관리

[빅데이터 분석 기획] 데이터 분석 방안

1. 빅데이터 분석 방법론의 분석 절차 단계 분석 기획 (Planning) 비지니스를 이해하고 범위를 설정 프로젝트를 정의하고 계획을 수립 프로젝트 위험을 발굴하여 사전 대응 방안을 수립 데이터 준비 (Preparing) 필요한 데이터를 정의 전사차원의 데이터 스토어 설계 데이터 수집 데이터 분석 (Analyzing) 분석 데이터 준비 텍스트 분석 탐색적 분석 모델링, 모델 평가 및 검증,모델 적용 및 운영 방안 수립 시스템 구현 (Developing) 설계 및 구현, 테스트 및 운영 평가 및 전개 (Deploying) 프로젝트 평가 보고, 모델 발전 계획 수립 2. CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론 데이터 마이닝 전문가가..

[빅데이터 분석 기획] 분석 문제 정의

1. 분석 문제 분석은 과제 관련 현상이나 원인 및 해결 방안에 대한 자료를 수집한 후 분석하여 의사 결정에 활용하는 활동입니다. 문제는 기대 상태와 현재 상태를 같은 수준으로 맞추는 과정입니다. 2. 분석 방식 하향식 접근 방식과 상향식 접근 방식이 있으며 상호 보완해 나가면서 분석합니다. 하향식 접근 방식 분석 과제는 정해져 있고 해법을 찾기 위해 체계적으로 분석하는 방법으로 비지니스 모델 캔버스가 있습니다. 단계 설명 문제 탐색 동종 사례를 벤치마킹하여 문제를 탐색하고 분석 유즈케이스를 정의 문제 정의 필요한 데이터와 기법을 정의 해결방안 탐색 기존 시스템 + 역량 보유: 기존 시스템을 개선하여 활용 기존 시스템 + 역량 미보유: 교육이나 채용을 통해 역량 확보 신규 도입 + 역량 확보: 시스템 고..

[빅데이터 분석 기획] 분석 로드맵 설정

1. 분석 로드맵 분석 로드맵은 단계별로 추진할 목표를 정의하고 분석 과제를 수행하기 위해 필요한 기준을 설정하는 종합 계획입니다. 데이터 분석체계 도입: 분석 과제를 정의하고 로드맵을 수립합니다. 데이터 분석 유효성 검증: 분석 알고리즘과 아키텍쳐를 설계하고 분석 과제 파일럿을 수행합니다. 데이터 분석 확산 및 고도화: 시스템을 구축하고 시스템을 고도화시킵니다. 2. 분석 마스터 플랜 분석 마스터 플랜은 분석 기획의 특성을 고려하여 기업에 필요한 데이터 분석 과제를 빠짐없이 도출하여 과제의 우선 순위를 결정하고 기간별로 계획을 수립하는 것입니다. 분석 과제 우선 순위 평가 기준 시급성과 난이도에 따라 결정합니다. 난이도 어려움 1 2 1. 현재 시급하게 추진해야 하지만 난이도가 높아 바로 적용하기 어려..

[빅데이터 분석 기획] 개인정보 활용

1. 프라이버시 보호 모델 k-익명성(k-anonymity) 특정인임을 추론할 수 있는지 여부를 검토하여 일정 확률수준 이상 비식별되도록 하는 것을 말합니다. 같은 값이 K 개 이상 존재하도록 하면 특정 개인을 식별할 확률은 1/k입니다. 공개 데이터에 대한 연결공격 취약점을 방어하기 위해 사용합니다. k-익명성의 취약점으로 동질성 공격과 배경지식에 의한 공격을 들 수 있습니다. 동질성 공격: 레코드를 범주화하더라도 일부 정보들이 모두 같은 값을 가질 수 있어서 이를 이용하는 공격입니다. 배경 지식에 의한 공격: 주어진 데이터 이외의 배경 지식을 통해 공격 대상의 민감한 정보를 알아내는 공격입니다. l-다양성(l-diversity) 특정이 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 ..

반응형