빅데이터/빅데이터 분석 기사 - 빅데이터 분석 기획

[빅데이터 분석 기획] 데이터 품질 검증

언제나휴일 2022. 3. 29. 10:00
반응형

1. 데이터 품질 기준

빅데이터 유형 품질 기준
정형 데이터 완전성, 유일성, 유효성, 일관성, 정확성
비정형 데이터 기능성, 신뢰성, 사용성, 이식성, 효율성

2. 정규 표현식

기호 설명
 ^ 시작 문자
예) ^aA1  → aA1로 시작
$ 종료 문자
예) $aA1 → aA1로 종료
| or
예) a|A → a혹은 A
[] 대괄호에 있는 문자열 중 1개와 매칭
예)[a-z] → a에서 z 중에 1개 이상 등장
() 소괄호에 있는 표현을 그룹화
예) a(A1)+ → a뒤에 A1을 1번 이상 반복
{n} n번 반복
예)a{2,4} → a문자가 2번 이상 4번 이하 등장
* 0번 이상 반복
a(b)* → a뒤에 b가 0번 이상 반복
+ 1번 이상 반복
a(b)+ → a뒤에 b가 1번 이상 반복

*보다 많은 정규식은 다른 사이트를 참고하세요. (위키백과)

3. 품질 검증

  • 품질 검증 요소

복잡성, 시간적 요소, 완전성, 유용성, 일관성, 정확성, 타당성

  • 데이터 프로파일링 절차

메타 데이터 수집 및 분석 → 대상 및 유형 선정 → 프로파일링 수행 → 프로파일링 결과 리뷰 → 프로파일링 결과 종합

반응형