반응형

ETL 2

[빅데이터 분석 기획] 데이터 수집

1. Apache Kafka 실시간 데이터 피드를 관리하고 스트리밍 데이터를 처리하기 위한 대용량 분산 플랫폼이다. 2. CDC(Change Data Capture) 데이터베이스에 데이터가 변경되면 이를 백업이나 추적하기 위해 상요하는 처리 기술입니다. 데이터 웨어하우스 환경에서 주로 발생합니다. 그 이유는 시간에 걸쳐 데이터 상태를 포착하고 보존하는 일이 데이터 웨어하우스의 핵심 기능 가운데 하나이기 때문이다. 그러나 CDC는 모든 데이터베이스, 데이터 저장소 시스템에서 활용이 가능하다. [위키백과 발췌] Push: 소스 프로세스는 자체 프로세스 내에서 변경 스냅샷을 만들고 다운스트림으로 로우를 전달한다. 이 다운스트림 프로세스는 스냅샷을 사용하고 자체 서브셋을 만든 다음에 이를 다음 프로세스에 전달한..

[빅데이터 분석 기획] 빅데이터 플랫폼

1. 빅데이터 플랫폼 개념 빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필요한 필수 인프라이다. 빅데이터 플랫폼은 빅데이터 기술의 집약체이며 사용할 수 있는 환경이다. 빅데이터 플랫폼을 사용하여 수집, 저장, 분석, 활용할 수 있다. 2. 빅데이터 플랫폼 구성 요소 요소 설명 수집 원천 데이터의 정형/반정형/비정형 데이터를 수집 ETL,웹 크롤러, EAI 등을 사용 ETL: 추출(Extract), 변환(Transform), 적재(Load)하는 도구이다. 웹 크롤러(Web Crawler): 조직적이고 자동화 방법으로 웹 문서를 수집하여 내용을 추출하고 포함하는 하이퍼링크를 통해 재귀적으로 웹 콘텐츠 수집을 반복하는 기술 EAI(Enterprise Architecture Integration): 전사..

반응형