빅데이터/빅데이터 분석 기사 - 빅데이터 분석 기획

[빅데이터 분석 기획] 데이터 유형 및 속성 파악

언제나휴일 2022. 3. 28. 13:00
반응형

1.데이터 유형

  • 저장 형태에 따른 분류
형태 설명
파일 데이터
(File)
로그 파일이나 엑셀, CSV 파일 등의 파일 형태로 저장된 데이터
데이터베이스 데이터
(DataBase)
데이터베이스의 컬럼 또는 테이블 등의 형태로 데이터베이스 형태로 저장된 데이터
콘텐츠 데이터
(Content)
이미지, 오디오, 비디오 등과 같은 미디어 데이터
스트림 데이터
(Stream)
네트워크를 통해서 실시간으로 전송하는 데이터
  • 구조 형태에 따른 분류
형태 설명
정형 데이터 정형화 구조를 갖는 데이터
데이터 베이스에 저장된 테이블 데이터, CSV나 엑셀, 스프레드 시트 등에 정형 구조를 갖는 데이터
반정형 데이터 메타데이터를 포함하며 일정 형태의 구조를 갖고 있지만 값이나 형식에 일관성이 부족한 데이터
웹과 웹서비스에 사용하는 XML, JSON, RSS, HTML 등
웹 로그, 시스템 로그, 센서 데이터 등
비정형 데이터 이정 형태의 구조를 갖지 않는 데이터
문자열 형태로 저장된 텍스트 데이터, 이미지, 오디오, 비디오 데이터
소셜 미디어나 웹 게시판의 데이터도 비정형 데이터입니다.
  • 시간 관점에 따른 분류
형태 설명
실시간 데이터 데이터가 만들어진 이후 바로(수 초~ 수 분) 처리해야 의미가 있는 데이터
시스템 로그, 네트워크 장비 로그, 보안 장비 로그, 센서 데이터, 알람 등
비실시간 데이터 판매 정보, 회원 로긴 정보, 통계 등

2. 데이터 변환

  • 속성 생성(Attribute/Feature Construction)

새로운 속성이나 특징을 만드는 방법

예) 주민등록번호에서 생일과 성별 속성을 생성, 높이 데이터와 너비 데이터를 통해 면적 데이터를 생성

  • 일반화(Generalization)

특정 구간에 분포하는 값으로 스케일을 변환

예) 특정 변수의 분포를 표준 정규를 따를 수 있게 평균을 0으로 분산을 1로 스케일을 변환

  • 정규화(Normalization)

데이터를 특적 구간으로 변환

예) 모든 데이터를 0~1사이의 값으로 변환

 x = (x-xmin)/(xmax - xmin) :최소 - 최대 정규화

  • 집계(Aggregation)

데이터를 요약하는 기법입니다.

예) 시간 데이터를 합쳐서 일별 데이터로 변환

 

  • 평활화(Smoothing)

원치 않는 잡음이나 동작을 제거하기 위해 값을 변환하는 기법

데이터를 구간이나 군집별로 묶는 작업을 수행하여 거친 분포를 매끄럽게 만듭니다.

 

반응형