반응형
1.데이터 유형
- 저장 형태에 따른 분류
형태 | 설명 |
파일 데이터 (File) |
로그 파일이나 엑셀, CSV 파일 등의 파일 형태로 저장된 데이터 |
데이터베이스 데이터 (DataBase) |
데이터베이스의 컬럼 또는 테이블 등의 형태로 데이터베이스 형태로 저장된 데이터 |
콘텐츠 데이터 (Content) |
이미지, 오디오, 비디오 등과 같은 미디어 데이터 |
스트림 데이터 (Stream) |
네트워크를 통해서 실시간으로 전송하는 데이터 |
- 구조 형태에 따른 분류
형태 | 설명 |
정형 데이터 | 정형화 구조를 갖는 데이터 데이터 베이스에 저장된 테이블 데이터, CSV나 엑셀, 스프레드 시트 등에 정형 구조를 갖는 데이터 |
반정형 데이터 | 메타데이터를 포함하며 일정 형태의 구조를 갖고 있지만 값이나 형식에 일관성이 부족한 데이터 웹과 웹서비스에 사용하는 XML, JSON, RSS, HTML 등 웹 로그, 시스템 로그, 센서 데이터 등 |
비정형 데이터 | 이정 형태의 구조를 갖지 않는 데이터 문자열 형태로 저장된 텍스트 데이터, 이미지, 오디오, 비디오 데이터 소셜 미디어나 웹 게시판의 데이터도 비정형 데이터입니다. |
- 시간 관점에 따른 분류
형태 | 설명 |
실시간 데이터 | 데이터가 만들어진 이후 바로(수 초~ 수 분) 처리해야 의미가 있는 데이터 시스템 로그, 네트워크 장비 로그, 보안 장비 로그, 센서 데이터, 알람 등 |
비실시간 데이터 | 판매 정보, 회원 로긴 정보, 통계 등 |
2. 데이터 변환
- 속성 생성(Attribute/Feature Construction)
새로운 속성이나 특징을 만드는 방법
예) 주민등록번호에서 생일과 성별 속성을 생성, 높이 데이터와 너비 데이터를 통해 면적 데이터를 생성
- 일반화(Generalization)
특정 구간에 분포하는 값으로 스케일을 변환
예) 특정 변수의 분포를 표준 정규를 따를 수 있게 평균을 0으로 분산을 1로 스케일을 변환
- 정규화(Normalization)
데이터를 특적 구간으로 변환
예) 모든 데이터를 0~1사이의 값으로 변환
x = (x-xmin)/(xmax - xmin) :최소 - 최대 정규화
- 집계(Aggregation)
데이터를 요약하는 기법입니다.
예) 시간 데이터를 합쳐서 일별 데이터로 변환
- 평활화(Smoothing)
원치 않는 잡음이나 동작을 제거하기 위해 값을 변환하는 기법
데이터를 구간이나 군집별로 묶는 작업을 수행하여 거친 분포를 매끄럽게 만듭니다.
반응형
'빅데이터 > 빅데이터 분석 기사 - 빅데이터 분석 기획' 카테고리의 다른 글
[빅데이터 분석 기획] 데이터 품질 검증 (0) | 2022.03.29 |
---|---|
[빅데이터 분석 기획] 데이터 비식별화 (0) | 2022.03.28 |
[빅데이터 분석 기획] 데이터 수집 (0) | 2022.03.28 |
[빅데이터 분석 기획] 분석 절차 및 작업 계획 (0) | 2022.03.27 |
[빅데이터 분석 기획] 데이터 확보 계획 (0) | 2022.03.27 |