반응형
1. 빅데이터 플랫폼 개념
빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필요한 필수 인프라이다.
빅데이터 플랫폼은 빅데이터 기술의 집약체이며 사용할 수 있는 환경이다.
빅데이터 플랫폼을 사용하여 수집, 저장, 분석, 활용할 수 있다.
2. 빅데이터 플랫폼 구성 요소
요소 | 설명 |
수집 | 원천 데이터의 정형/반정형/비정형 데이터를 수집 ETL,웹 크롤러, EAI 등을 사용 ETL: 추출(Extract), 변환(Transform), 적재(Load)하는 도구이다. 웹 크롤러(Web Crawler): 조직적이고 자동화 방법으로 웹 문서를 수집하여 내용을 추출하고 포함하는 하이퍼링크를 통해 재귀적으로 웹 콘텐츠 수집을 반복하는 기술 EAI(Enterprise Architecture Integration): 전사적 응용 프로그램 통합 |
저장 | 정형 데이터, 반정형 데이터, 비정형 데이터 저장 RDBMS, NoSQL 등을 사용 |
분석 | 통계, 데이터 마이닝, 텍스트 마이닝, 머신러닝 SNS 분석, 예측 분석 등을 사용 |
활용 | 데이터 시각화, BI(Business Intelligence) 히스토그램, 인포그래픽 등 |
3. 하둡
- 데이터 수집
데이터 유형 | 기술 | 설명 |
비정형 데이터 | 척와(Chukwa) | 분산 서버에서 에이전트를 실행하고 에이전트는 컬렉터에게 데이터를 전송하고 컬렉터는 HDFS에 저장 |
스크라이브(Scribe) | 수많은 서버로부터 실시간 스트리밍되는 로그 데이터를집약시키기 위한 기술 | |
플럼(Flume) | 로그 데이터 수집 기술 | |
정형 데이터 | 스쿱(Sqoop) | 대용양 데이터 전송 솔루션 구조화된 관계형 데이터베이스와 하둡간의 대용량 데이터들을 효과적으로 변환하는 명령줄 인터페이스 |
히호(Hiho) | 대용양 데이터 전송 솔루션 |
- 분산 데이터 저장
HDFS (Hadoop Distibuted File System) |
하둡 분산 파일 시스템, Namenode와 Datganode로 구성 Namenode: 파일 및 디렉토리 열기, 닫기, 이름 바꾸기와 같은 파일 시스템 네임스페이스 작업을 실행, 데이터 노드의 위치 파악 Datanode: 파일 시스템 클라이언트의 읽기 및 쓰기 요청을 처리, 일정 크기의 블록 형태로 저장 |
- 데이터 가공
피그(Pig) | 대용량 데이터 집합을 다루기 위한 스크립트 언어 |
하이브(Hive) | 하둡 기반의 DW(Data Warehouse) 인프라 구조 |
- 실시간 SQL 질의
임팔라(Impala) | 컴퓨터 클러스터에 저장된 데이터를 위한 오픈 소스 대규모 병렬 처리(MPP) SQL 쿼리 엔진이다. |
타조(Tajo) | 하둡 기반의 ETL 기술을 이용해서 DW에 적재하는 시스템 |
- 분산 데이터베이스
HBase | 비관계형 분산 데이터베이스 |
- 분산 데이터 처리
맵리듀스 (Map Reduce) |
구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위해 제작한 S/W 프레임워크 모든 데이터는 Key-Value 쌍으로 구성 |
- 리소스 관리
얀(YARN) | 분산 자원 관리 플랫폼 리소스 매니저, 노드 매니저, 애플리케이션 마스터, 컨테이너로 구성 |
- 데이터 마이닝
머하웃 (Mahout) |
분산처리가 가능하고 확장성을 가진 ML(기계학습)용 라이브러리 데이터 분류하고 정의하는 작업 및 협업 필터링을 수행한다. 패턴 마이닝, 회귀분석, 진화 알고리즘 등을 지원 |
- 워크플로우 관리
우지 (Oozie) |
하둡의 Job을 관리하기 위한 서버 기반의 워크플로우 스케쥴링 시스템 |
- 분산 코디네이션
주키퍼 (Zookeeper) |
구성 정보를 유지 관리, 분산 동기화를 제공, 그룹 서비스를 제공하기 위한 중앙 집중식 서비스 |
반응형
'빅데이터 > 빅데이터 분석 기사 - 빅데이터 분석 기획' 카테고리의 다른 글
[빅데이터 분석 기획] 개인 정보 법 제도 (0) | 2022.03.24 |
---|---|
[빅데이터 분석 기획] 빅데이터와 인공지능 (0) | 2022.03.24 |
[빅데이터 분석 기획] 빅데이터 조직 및 인력 (0) | 2022.03.23 |
[빅데이터 분석 기획] 빅데이터 산업의 이해 (0) | 2022.03.23 |
[빅데이터 분석 기획] 빅데이터의 가치 (0) | 2022.03.23 |