빅데이터/빅데이터 분석 기사 - 빅데이터 분석 기획

[빅데이터 분석 기획] 데이터 수집

언제나휴일 2022. 3. 28. 10:00
반응형

1. Apache Kafka

실시간 데이터 피드를 관리하고 스트리밍 데이터를 처리하기 위한 대용량 분산 플랫폼이다.

 

2. CDC(Change Data Capture)

데이터베이스에 데이터가 변경되면 이를 백업이나 추적하기 위해 상요하는 처리 기술입니다.

데이터 웨어하우스 환경에서 주로 발생합니다. 그 이유는 시간에 걸쳐 데이터 상태를 포착하고 보존하는 일이 데이터 웨어하우스의 핵심 기능 가운데 하나이기 때문이다. 그러나 CDC는 모든 데이터베이스, 데이터 저장소 시스템에서 활용이 가능하다. [위키백과 발췌]

 Push: 소스 프로세스는 자체 프로세스 내에서 변경 스냅샷을 만들고 다운스트림으로 로우를 전달한다. 이 다운스트림 프로세스는 스냅샷을 사용하고 자체 서브셋을 만든 다음에 이를 다음 프로세스에 전달한다. [위키백과 발췌]

Pull:소스로부터 즉시 다운스트림을 받은 타겟은 소스로부터의 데이터 요청을 준비한다. 다운스트림 타겟은 푸시 모델에서처럼 스냅샷을 다음 타겟으로 전달한다. [위키백과 발췌]

 

3. 척와(Chukwa)

하둡을 사용하여 대규모의 안정적인 로그 수집 및 처리를 위한 시스템입니다.

척와 구조 [척와 사이트(https://chukwa.apache.org/docs/r0.6.0/Quick_Start_Guide.html) 참조]

4. Web Crawling

조직적이고 자동화 방법으로 웹을 탐색하여 데이터를 수집하는 기술입니다.

파이썬으로 작성한 오픈소스 웹 크롤링 프레임워크로 스크래피(Scrapy)가 있습니다.

5. ETL(Extract Transform Load)

컴퓨팅에서 데이터베이스를 이용하는 과정으로 추출(Extract), 변화(Transform), 적재(Load)하는 작업 및 기술입니다.

동일 기종 혹은 타기종의 데이터 소스로부터 데이터를 추출합니다.

조회 또는 분석을 목적으로 적절한 포멧이나 구조로 데이터를 저장하기 위해 데이터를 변환합니다.

변환한 데이터는 최종 대상(데이터베이스, 데이터 마트, 데이터 웨어하우스)로 적재합니다.

[위키백과 발췌]

 

6. Flume

많은 양의 로그 데이터를 효과적으로 수집, 집계, 이동하기 위한 분산형 소프트웨어입니다.

 

7. Open API

누구나 사용할 수 있게 공개한 API를 말합니다. 응용 프로그램에서는 Open API 기술을 사용하여 실시간으로 데이터를  수신할 수 있습니다.

공공 데이터, 포털 사이트에서 제공하는 데이터, 센서 데이터 등의 정보를 수신할 수 있습니다.

 

8. RSS

뉴스나 블로그에서 주로 사용하는 콘텐츠 표현 방식입니다. 새로 게시한 글을 공유하기 위해 XML 기반으로 정보를 배포하는 기술입니다.

 

9. Scribe

수 많은 서버로부터 실시간으로 스트리밍되는 로그 데이터를 집약시키기 위한 서버입니다.

페이스 북에서 개발되었으며 Open 소스로 출시되었습니다.

 

10. Sqoop

RDBMS와 아파치 하둡간의 대용량 데이터들을 효율적으로 변환해 주는 명령 줄 인터페이스(Command Line Interface) 응용입니다.

 

 

11. Streaming

소리(음악)나 동영상 등의 멀티미디어 파일을 전송하고 재생하는 방식의 하나입니다.

반응형