빅데이터/빅데이터 분석 기사 - 빅데이터 분석 기획

[빅데이터 분석 기획] 빅데이터 플랫폼

언제나휴일 2022. 3. 23. 18:26
반응형

1. 빅데이터 플랫폼 개념

빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필요한 필수 인프라이다.

빅데이터 플랫폼은 빅데이터 기술의 집약체이며 사용할 수 있는 환경이다.

빅데이터 플랫폼을 사용하여 수집, 저장, 분석, 활용할 수 있다.

 

2. 빅데이터 플랫폼 구성 요소

요소 설명
수집 원천 데이터의 정형/반정형/비정형 데이터를 수집

ETL,웹 크롤러, EAI 등을 사용

ETL: 추출(Extract), 변환(Transform), 적재(Load)하는 도구이다.
웹 크롤러(Web Crawler): 조직적이고 자동화 방법으로 웹 문서를 수집하여 내용을 추출하고 포함하는 하이퍼링크를 통해 재귀적으로 웹 콘텐츠 수집을 반복하는 기술
EAI(Enterprise Architecture Integration): 전사적 응용 프로그램 통합
저장 정형 데이터, 반정형 데이터, 비정형 데이터 저장

RDBMS, NoSQL 등을 사용
분석 통계, 데이터 마이닝, 텍스트 마이닝, 머신러닝

SNS 분석, 예측 분석 등을 사용
활용 데이터 시각화, BI(Business Intelligence)

히스토그램, 인포그래픽 등

3. 하둡

  • 데이터 수집
데이터 유형 기술 설명
비정형 데이터 척와(Chukwa) 분산 서버에서 에이전트를 실행하고 에이전트는 컬렉터에게 데이터를 전송하고 컬렉터는 HDFS에 저장
스크라이브(Scribe) 수많은 서버로부터 실시간 스트리밍되는 로그 데이터를집약시키기 위한 기술
플럼(Flume) 로그 데이터 수집 기술
정형 데이터 스쿱(Sqoop) 대용양 데이터 전송 솔루션
구조화된 관계형 데이터베이스와 하둡간의 대용량 데이터들을 효과적으로 변환하는 명령줄 인터페이스
히호(Hiho) 대용양 데이터 전송 솔루션
  • 분산 데이터 저장
HDFS
(Hadoop Distibuted File System) 
하둡 분산 파일 시스템, Namenode와 Datganode로 구성
Namenode: 파일 및 디렉토리 열기, 닫기, 이름 바꾸기와 같은 파일 시스템 네임스페이스 작업을 실행, 데이터 노드의 위치 파악
Datanode: 파일 시스템 클라이언트의 읽기 및 쓰기 요청을 처리, 일정 크기의 블록 형태로 저장

 

  • 데이터 가공
피그(Pig) 대용량 데이터 집합을 다루기 위한 스크립트 언어
하이브(Hive) 하둡 기반의 DW(Data Warehouse) 인프라 구조
  • 실시간 SQL 질의
임팔라(Impala) 컴퓨터 클러스터에 저장된 데이터를 위한 오픈 소스 대규모 병렬 처리(MPP) SQL 쿼리 엔진이다.
타조(Tajo) 하둡 기반의 ETL 기술을 이용해서 DW에 적재하는 시스템
  • 분산 데이터베이스
HBase 비관계형 분산 데이터베이스
  • 분산 데이터 처리
맵리듀스
(Map Reduce)
구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위해 제작한 S/W 프레임워크
모든 데이터는  Key-Value 쌍으로 구성
  • 리소스 관리
얀(YARN) 분산 자원 관리 플랫폼
리소스 매니저, 노드 매니저, 애플리케이션 마스터, 컨테이너로 구성
  • 데이터 마이닝
머하웃
(Mahout)
분산처리가 가능하고 확장성을 가진 ML(기계학습)용 라이브러리
데이터 분류하고 정의하는 작업 및 협업 필터링을 수행한다.
패턴 마이닝, 회귀분석, 진화 알고리즘 등을 지원
  • 워크플로우 관리
우지
(Oozie)
하둡의 Job을 관리하기 위한 서버 기반의 워크플로우 스케쥴링 시스템
  • 분산 코디네이션
주키퍼
(Zookeeper)
구성 정보를 유지 관리, 분산 동기화를 제공, 그룹 서비스를 제공하기 위한 중앙 집중식 서비스
반응형