빅데이터 관련 개념 정리

데이터 품질 관리

은행털이 2024. 4. 19. 19:32

데이터의 품질

조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준을 의미

 

 

데이터 품질 관리

협의적 개념 광의적 개념
조직에서 보유한 데이터를 수집, 처리, 분석하는 동안 무결성을 보장하는 프로세스 데이터 관리, 비전, 목표, 전략, 데이터 관리 원칙과 기준 등을 모두 포괄하는 데이터 관리 체계

 

 

1. 정형 데이터의 품질 기준

품질 기준 설명
완전성 필수 항목에 누락이 없어야함
유일성 데이터 항목은 유일해야하며 중복되어서는 안됨
유효성 데이터 항목은 정해진 데이터 유효 범위, 도메인을 충족해야 함
일관성 데이터의 구조, 값, 형태가 일관되게 정의되고 일치해야 함
정확성 실제 존재하는 객체의 표현 값이 정확하게 반영되어야 함

 

 

2. 비정형 데이터의 품질 기준

품질 기준 설명
신뢰성 규정 조건 내에서 신뢰 수준을 유지하고 오류를 방지할 수 있어야 함
기능성 명시된 요구 및 내재된 요구사항을 만족시킬 수 있어야 함
효율성 사용되는 자원의 양에 걸맞게 요구된 적정한 성능을 제공해야 함
사용성 사용자의 요구와 목적에 맞게 쉽고 효과적으로 접근할 수 있도록 해야 함
이식성 다양한 환경 및 상황에서 해당 데이터들이 사용 가능해야 함

 

 

3. 데이터 품질 진단 방법

품질 진단 방법 설명
프로파일링 값 진단 데이터의 유효성 정확성 등 데이터 값 자체의 오류를 분석하는 방법

컬럼 분석, 날짜 분석, 패턴 분석 등을 통해 데이터 값의 정확성을 중심으로 진단
구조 진단 데이터의 논리적 구조의 오류로 인한 일관성, 정확성 등을 확보하지 못하는 결함을 분석하는 방법

표준화 수준, 테이블 구조, 정규화 수준, 컬럼 및 관계 정의 등 데이터들의 구조적 결함을 진단
체크 리스트 전반적인 품질관리 수준과 지표 별 데이터 품질 수준을 체크리스트(설문, 인터뷰 등)을 통해 진단
업무규칙 진단 법, 규정에 정의된 엄무기준에 근거하여 데이터 관리 여부를 진단

업무 규칙을 준수하고 있는지에 관한 측정 스크립트를 실행하여 오류 값을 추출
비정형 실측 정형화 되지않은 이미지, 동영상등의 정보들은 컴퓨터로 실측하기 어려우므로 사람의 실측을 통해 요류를 진단

 

 

4. 유효성과 정확성으로 측면으로 본 데이터 품질의 특성

품질 특성 세부 요소 설명
유효성 데이터 정확성 정확성 실세계에 존재하는 객체의 값이 오류 없이 저장되어 있는 특성
사실성 데이터가 실세계의 사실과 같은 값을 가지고 있는 특성
적합성 데이터가 정해진 유효 범위(도메인)을 충족하고 있는 특성
필수성 필수 항목에 데이터의 누락이 발생하지 않는 특성
연관성 연관 관계를 가지는 데이터 항목 간의 논리상 오류가 없는 특성

 

 

5. 품질 검증 프로세스 - 수집 데이터 분석 프로세스 단계

프로세스 설명
메타데이터 수집 테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD, 관계 정의서를 통해 수집

각 테이블의 정보를 기반으로 테이블 및 컬럼 목록을 명세화

관계가 있는 테이블과 컬럼 목록, 관계 기수성, 제약성 등을 명시하여 테이블 관계목록 명세화
수집된 메타데이터 사전에 취합된 테이블, 컬럼, 관계 목록과 대조하여 불일치 사항 분석

분석 대상 간 조인 연산을 수행하여 불일치 내역을 추출

메타데이터 분석을 통해 불일치 정보 정리
메타데이터를 통한 데이터 속성 분석 누락값, 값의 허용 범위(도메인), 허용값 목록, 문자열 패턴 등, 날짜 유형, 기타 특수 도메인 정보, 유일값, 구조 등을 분석 가능

 

 

5-1. 품질 검증 프로세스 - 데이터 유효성 분석

구분 분석 방안
누락값 분석 NULL 값으 분포를 확인하여 누락 값 분석

공백 값의 분포를 통해 누락 값 분석

숫자 0 등의 분포를 통해 누락 값 분석
값의 허용 범위 분석 컬럼의 속성 값이 가져야 할 범위 내에 속성 값이 있는지 여부가 아닌 해당 속성의 도메인 유형에 따라 그 범위가 결정

측량 단위나 자료형의 크기에 따라 값의 허용 범위 판단 가능
허용값 목록 분석 해당 컬럼의 허용값 목록에 포함되지 않는 값을 발견하는 절차
문자열 패턴 분석 값의 특성이 문자열로 반복되고 변형되는 대표적인 모형을 미리 정형화 하여 해당 컬럼의 특성을 파악하기 쉽게 해놓은 데이터 표현 기법
날짜 유형 분석 DBMS 또는 시스템에서 제공하는 DATETIME유형과 문자형 날짜 유형을 활용하여 날짜 유형 분석
유일값 분석 유일해야 하는 컬럼에 중복이 발생되었는지를 확인하는 절차
구조 분석 데이터의 구조가 잘못되어 데이터 값이 일관되지 못하거나 부정확한 값이 발견되는 현상을 파악하는 절차

구조적 결함을 발견하기 위해 관계 분석, 참조 무결성 분석, 구조 무결성 분석 기법등을 활용하여 구조를 분석

 

 

 

'빅데이터 관련 개념 정리' 카테고리의 다른 글

데이터 저장 기술  (1) 2024.04.19
데이터 적재 기술  (0) 2024.04.19
데이터 변환 기술  (1) 2024.04.19
수집 데이터 유형 및 기술  (1) 2024.04.19
데이터 수집 프로세스  (1) 2024.04.19