데이터의 품질
조직의 목적 달성을 위해 관리되는 데이터가 조직 구성원, 고객 등 데이터 이용자의 만족을 충족시킬 수 있는 수준을 의미
데이터 품질 관리
협의적 개념 | 광의적 개념 |
조직에서 보유한 데이터를 수집, 처리, 분석하는 동안 무결성을 보장하는 프로세스 | 데이터 관리, 비전, 목표, 전략, 데이터 관리 원칙과 기준 등을 모두 포괄하는 데이터 관리 체계 |
1. 정형 데이터의 품질 기준
품질 기준 | 설명 |
완전성 | 필수 항목에 누락이 없어야함 |
유일성 | 데이터 항목은 유일해야하며 중복되어서는 안됨 |
유효성 | 데이터 항목은 정해진 데이터 유효 범위, 도메인을 충족해야 함 |
일관성 | 데이터의 구조, 값, 형태가 일관되게 정의되고 일치해야 함 |
정확성 | 실제 존재하는 객체의 표현 값이 정확하게 반영되어야 함 |
2. 비정형 데이터의 품질 기준
품질 기준 | 설명 |
신뢰성 | 규정 조건 내에서 신뢰 수준을 유지하고 오류를 방지할 수 있어야 함 |
기능성 | 명시된 요구 및 내재된 요구사항을 만족시킬 수 있어야 함 |
효율성 | 사용되는 자원의 양에 걸맞게 요구된 적정한 성능을 제공해야 함 |
사용성 | 사용자의 요구와 목적에 맞게 쉽고 효과적으로 접근할 수 있도록 해야 함 |
이식성 | 다양한 환경 및 상황에서 해당 데이터들이 사용 가능해야 함 |
3. 데이터 품질 진단 방법
품질 진단 방법 | 설명 | |
프로파일링 | 값 진단 | 데이터의 유효성 정확성 등 데이터 값 자체의 오류를 분석하는 방법 컬럼 분석, 날짜 분석, 패턴 분석 등을 통해 데이터 값의 정확성을 중심으로 진단 |
구조 진단 | 데이터의 논리적 구조의 오류로 인한 일관성, 정확성 등을 확보하지 못하는 결함을 분석하는 방법 표준화 수준, 테이블 구조, 정규화 수준, 컬럼 및 관계 정의 등 데이터들의 구조적 결함을 진단 |
|
체크 리스트 | 전반적인 품질관리 수준과 지표 별 데이터 품질 수준을 체크리스트(설문, 인터뷰 등)을 통해 진단 | |
업무규칙 진단 | 법, 규정에 정의된 엄무기준에 근거하여 데이터 관리 여부를 진단 업무 규칙을 준수하고 있는지에 관한 측정 스크립트를 실행하여 오류 값을 추출 |
|
비정형 실측 | 정형화 되지않은 이미지, 동영상등의 정보들은 컴퓨터로 실측하기 어려우므로 사람의 실측을 통해 요류를 진단 |
4. 유효성과 정확성으로 측면으로 본 데이터 품질의 특성
품질 특성 | 세부 요소 | 설명 | |
유효성 | 데이터 정확성 | 정확성 | 실세계에 존재하는 객체의 값이 오류 없이 저장되어 있는 특성 |
사실성 | 데이터가 실세계의 사실과 같은 값을 가지고 있는 특성 | ||
적합성 | 데이터가 정해진 유효 범위(도메인)을 충족하고 있는 특성 | ||
필수성 | 필수 항목에 데이터의 누락이 발생하지 않는 특성 | ||
연관성 | 연관 관계를 가지는 데이터 항목 간의 논리상 오류가 없는 특성 |
5. 품질 검증 프로세스 - 수집 데이터 분석 프로세스 단계
프로세스 | 설명 |
메타데이터 수집 | 테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD, 관계 정의서를 통해 수집 각 테이블의 정보를 기반으로 테이블 및 컬럼 목록을 명세화 관계가 있는 테이블과 컬럼 목록, 관계 기수성, 제약성 등을 명시하여 테이블 관계목록 명세화 |
수집된 메타데이터 | 사전에 취합된 테이블, 컬럼, 관계 목록과 대조하여 불일치 사항 분석 분석 대상 간 조인 연산을 수행하여 불일치 내역을 추출 메타데이터 분석을 통해 불일치 정보 정리 |
메타데이터를 통한 데이터 속성 분석 | 누락값, 값의 허용 범위(도메인), 허용값 목록, 문자열 패턴 등, 날짜 유형, 기타 특수 도메인 정보, 유일값, 구조 등을 분석 가능 |
5-1. 품질 검증 프로세스 - 데이터 유효성 분석
구분 | 분석 방안 |
누락값 분석 | NULL 값으 분포를 확인하여 누락 값 분석 공백 값의 분포를 통해 누락 값 분석 숫자 0 등의 분포를 통해 누락 값 분석 |
값의 허용 범위 분석 | 컬럼의 속성 값이 가져야 할 범위 내에 속성 값이 있는지 여부가 아닌 해당 속성의 도메인 유형에 따라 그 범위가 결정 측량 단위나 자료형의 크기에 따라 값의 허용 범위 판단 가능 |
허용값 목록 분석 | 해당 컬럼의 허용값 목록에 포함되지 않는 값을 발견하는 절차 |
문자열 패턴 분석 | 값의 특성이 문자열로 반복되고 변형되는 대표적인 모형을 미리 정형화 하여 해당 컬럼의 특성을 파악하기 쉽게 해놓은 데이터 표현 기법 |
날짜 유형 분석 | DBMS 또는 시스템에서 제공하는 DATETIME유형과 문자형 날짜 유형을 활용하여 날짜 유형 분석 |
유일값 분석 | 유일해야 하는 컬럼에 중복이 발생되었는지를 확인하는 절차 |
구조 분석 | 데이터의 구조가 잘못되어 데이터 값이 일관되지 못하거나 부정확한 값이 발견되는 현상을 파악하는 절차 구조적 결함을 발견하기 위해 관계 분석, 참조 무결성 분석, 구조 무결성 분석 기법등을 활용하여 구조를 분석 |
'빅데이터 관련 개념 정리' 카테고리의 다른 글
데이터 저장 기술 (1) | 2024.04.19 |
---|---|
데이터 적재 기술 (0) | 2024.04.19 |
데이터 변환 기술 (1) | 2024.04.19 |
수집 데이터 유형 및 기술 (1) | 2024.04.19 |
데이터 수집 프로세스 (1) | 2024.04.19 |