데이터 변환
데이터 변환은 우리가 데이터 분석을 하는 목적에 알맞게 변환시키는 것을 의미하며 이는 정해진 규칙에 따라 데이터를 바꾸는 것을 말함
과거의 데이터 변환은 DMBS에서 질의문을 이용하거나 별도의 소프트웨어를 개발하여 변환했지만, 현재는 데이터 양의 폭발적인 증가와 전환 효율성을 고려해야하기 때문에 데이터 전환 도구(ETL)을 이용하며 특히 컴퓨터가 바로 처리할 수 없는 비정형 데이터나 반정형 데이터를 정형의 구조적인, 정해진 규칙에 따라 변환하여 저장하는 것을 의미함
1. ETL의 개념과 역할 및 기능
ETL이란
- 데이터를 소스가되는 시스템에서 추출하고 필요한 형태로 변환한 뒤 마지막으로 대상 데이터베이스에 로드하는 과정
ETL의 역할
- 데이터 통합 : 서로 다른 소스에서 데이터를 수집하여 통합
- 데이터 품질 향상 : 데이터 정제, 검증, 결측치 처리를 통해 정확성과 신뢰성 개선
- 데이터 변환 : 데이터를 분석에 적합한 형태로 변환(정규화, 집계, 포맷변경 등)
- 성능 최적화 : 대량의 데이터를 효율적으로 처리하고 타깃 시스템의 조회 성능을 최적화
- 데이터 보안 : 중요 데이터의 암호화, 익명화처리로 데이터의 보안을 강화
ETL의 기능
- 추출
- 다양한 데이터 소스 지원 : RDBMS, NoSQL 뿐 아니라 파일 시스템, 웹 서비스 등 다양한 소스에서 데이터를 추출
- 효율적인 데이터 추출 : 증분 추출을 지원하여 시스템 리소스 사용을 최적화 - 변환
- 데이터 클렌징 : 오류, 중복, 결측값 등을 처리하여 데이터의 품질을 개선
- 데이터 표준화 : 데이터 포맷, 값을 표준화하여 일관성 확보
- 데이터 풍부화 : 외부 데이터소스를 사용하여 데이터에 추가 정보를 더함
- 비즈니스 규칙 적용 : 데이터에 특정 비즈니스 로직을 적용 - 로드
- 대량의 데이터 로딩 : 변환된 대량의 데이터를 대상 데이터베이스에 효율적으로 로드
- 로드 최적화 : 데이터 로드 과정에서 성능 최적화와 시스템의 부하를 관리
- 데이터 인덱싱과 압축 : 조회 성능 향상을 위해 데이터를 인덱싱하고 공간절약을 위해 데이터를 압축
2. 데이터 전-후처리의 고려사항
데이터 전처리 : 수집된 데이터를 저장소에 적재하기 위해 필터링, 유형 변환, 정제 등의 기술을 사용
데이터 후처리 : 적재된 데이터를 분석에 용이하도록 변환, 통합, 축소 등의 기술을 사용
- 데이터 전처리 고려사항
- 수집된 데이터의 유형 분류 기준을 적용할 수 있는 기능 제공
- 다양한 데이터 유형에 알맞는 데이터 변환에 필요한 알고리즘 함수 또는 변환 구조를 정의할 수 있는 기능 제공
- 사용자가 알맞게 변환이 이루어졌는지 확인할 수 있는 기능 제공
- 데이터 변환 실패 시 재시도 및 취소할 수 있는 기능과 실패 이력 저장 및 내용을 사용자에게 전달하는 기능 제공
- 최종적으로 변환된 데이터를 저장하는 기능 제공 - 데이터 후처리 고려사항
- 데이터의 잡음 제거를 위해 이상치를 추세에 맞게 변환, 자동 추천할 수 있는 기능 제공
- 집계 시 데이터를 요약하는 기능 제공
- 특정 구간의 값을 추출하거나 사용자가 직관적으로 데이터 변환 시 발생할 수 있는 변환, 패턴, 이벤트를 감시할 수 있는 기능 제공
- 사전에 적재된 데이터 세트와 변환 후 데이터 간의 변환 로그를 저장 관리할 수 있는 기능
3. 데이터 변환 기술
단계 | 고려사항 |
평활화 (Smoothing) |
데이터의 잡음을 제거하기 위해 데이터 추세에 벗어나는 이상치를 변환 잡음으로 거칠게 분포된 데이터를 평활하게 만들기 위해 구간화, 군집화 등의 기법을 이용 |
집계 (Aggregation) |
다양한 차원의 방법으로 데이터를 요약 복수 개의 속성을 줄이거나 유사 데이터 객체를 줄이고, 스케일을 변경하는 기법 적용 |
일반화 (Generalization) |
특정 구간에 분포하는 값으로 스케일을 변화 특정 데이터만 잘 설명하는 것이 아닌 범용적인 데이터에 적합한 모델을 만드는 기법 좋은 일반화는 이상값이 들어와도 크게 흔들리지 않아야 함 |
정규화 (Normalization) |
데이터를 정해진 구간 내에 포함되도록 하는 기법 최단 근접 분류와 군집화 같은 거리 측정 등에 특히 유용함 데이터에 대한 최소-최대 정규화, Z-스코어 정규화, 소수 스케일링 등의 기법을 이용 |
속성생성 (Attribute Construction) |
데이터 통합을 위해 새로운 속성을 만드는 방법 주어진 여러 데이터의 분포를 대표할 수 있는 새로운 속성을 활용 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경하는 것 |
4. 데이터 보안 기술
기술 | 내용 |
사용자 인증 | ID/PW와 같이 시스템에 접근하려는 자의 자격을 사전에 확인 |
접근 제어 | 주가 어떤 객체에 읽고 쓰는 등 권한을 행사하려 할 때 해당 객체에 대한 권한이 있는지를 확인하고 통제 |
암호화 | 평문을 해독 불가능한 형태로 변형하거나(암호화) 해독 가능한 형태로 변형하는 기술(복호화) |
개인정보 비식별화 | 수집된 데이터에 포함된 개인정보의 일부 또는 전체를 삭제 그 외에 다른 정보와 결합하더라도 재식별이 일어나지 않도록 하는 조치 |
개인정보 암호화 | 데이터베이스 전체가 아닌 개인정보가 포함된 특정 필드를 보호 암호화 되어도 정상적으로 개인정보를 이용할 수 있도록 안전하고 효율적으로 인덱싱 하는 기술 |
5. 가명처리 세부 기술
세부기술 | 설명 |
휴리스틱 익명화 | 식별자의 값을 몇 가지 정해진 규칙을 이용해서 개인정보를 숨기는 방법 사람의 판단에 따라 가공하여 자세한 개인정보를 숨김 |
K- 익명화 | 같은 속성 값을 가지는 데이터를 K개 이상으로 유지하여 데이터를 공개하는 방법 지정된 속성이 가질 수 있는 값을 K개 이상으로 유지하여 개인정보를 보호 |
암호화 | 정보의 가공에 일정 규칙의 알고리즘을 적용하여 암호화 함으로써 개인정보를 보호 이를 다시 사용하려면 복호화 key가 필요하므로 이 key의 보안 방안도 필요 |
교환 방법 | 표본 추출된 레코드에 대하여 이루어지는 가명처리 방법 미리 정해진 변수들의 집합에 대해 데이터베이스의 레코드와 연계하여 교환 |
6. 총계처리
총계처리는 개인정보에 통계값을 적용하여 민감한 정보에 대해 비식별화가 가능하고 다양한 통계분석용 데이터 세트 작성에 유리함
하지만 집계 처리된 데이터 수량이 적을 경우 결합 과정에서 개인정보 역추적이 가능할 수 있으므로 적절한 집계 수량을 정해야 함
세부 기술 | 설명 |
총계처리 기본방식 | 수집된 개인정보에 데이터 집합 또는 부분으로 집계처리를 하여 민감성을 낮추는 방법 |
부분집계 | 분석 목적에 따라 부분 그룹만 비식별 처리하는 방법 |
라운딩 | 집계 처리된 값에 라운딩(올림, 내림)을 적용하여 최종 집계 처리 |
데이터 재배열 | 기존 값은 유지하면서 개인정보와 연관이 되지 않도록 데이터를 재배열 개인의 정보가 타인과 뒤섞임으로써 정보의 손상없이 정보가 개인을 식별 가능하도록 연결되지 않게 함 |
7. 데이터 값 삭제
데이터 값 삭제는 개인 식별이 가능한 특정 데이터를 완전히 삭제하는 기법이며 가장 안전하게 처리가 가능하지만 데이터 삭제로 인해 분석의 다양성, 결과의 유효성, 신뢰성을 저하시킬 수 있음
세부기술 | 설명 |
속성값 삭제 | 소스 데이터에서 민감한 속성값 등 개인 식별 항목을 단순 삭제 |
속성값 부분 삭제 | 민감한 속성값에 대하여 전체가 아닌 일부 값을 삭제함으로써 대표성을 가진 일부 값으로 보이도록 하는 기법 |
데이터 행 삭제 | 타 정보와 비교하여 값의 구별이 뚜렷하게 식별되는 정보 전체를 삭제 민감속성 하나를 제거하는 것이 아닌, 해당 정보를 가진 내용(행)을 전부 삭제하는 방법 |
준 식별자 제거를 통한 단순 익명화 | 식별자 뿐 아니라 잠재적으로 개인 식별자에 준하는 식별자를 모두 제거하는 기법 |
8. 범주화
단일 식별자를 해당 그룹의 대표값이나 구간 값으로 변환하여 추적 및 식별을 방지하는 기법이며 범주와 범위도 통계 방식의 데이터 형식이므로 다양한 분석 및 가공이 가능하나 범주, 범위의 구간이 좁혀질 경우 역추적이 가능할 수 있으므로 적절한 데이터 범위 구간을 정할 필요가 있음
세부기술 | 설명 |
범주화 기본 방식 | 명확한 값을 숨기기 위해 데이터의 평균 또는 범주의 값으로 변환 |
랜덤 올림 방법 | 수치 형식의 개인 식별 정보에 임의의 수를 기준으로 올림 또는 내림하는 기법 |
범위 방법 | 수치 형식의 개인 식별 정보에 임의의 수를 기준으로 한 범위로 설정하는 기법으로서 해당 값의 분포(범위, 구간)으로 표현 |
세분 정보 제한 방법 | 개인정보 중 개인 식별이 가능한 민감 항목을 구간 재코딩하여 정보노출 위험을 줄이는 기법 |
제어 올림 기법 | 랜덤 올림 방법에서 행과 열이 일치하지 않는 단점을 해결하기 위해 제어하여 일치시키는 방법 |
9. 데이터 마스킹
개인 식별 정보에 대해 전체 또는 부분적으로 대체 값(공백, 노이즈 등)으로 변환하는 기법으로, 완전한 비식별화가 가능하나 마스킹이 과하면 정보를 활용하기 어렵고, 너무 덜하면 특정값의 추적이 가능하므로 주의가 필요함
세부기술 | 설명 |
임의잡음 추가 방법 | 민감 개인 식별 항목에 임의의 숫자 등의 잡음을 추가하여 식별 정보 노출을 방지하는 기법 |
공백과 대체 방법 | 비식별 대상 데이터의 일부 값을 공백이나 대체값(*, O 등)으로 변환하는 기법 |
10. 비식별 조치 가이드라인
평가 기준 | 설명 |
기초 자료 작성 | 적정성 평가가 필요한 기초 자료를 작성 |
평가단 구성 | 개인정보보호 책임자는 3명이상의 관련 분야 전문가로 구성 |
평가 수행 | 프라이버스 보호 모델을 활용하여 비식별 수준 적정성을 평가 -> k - 익명성 : 주어진 데이터의 집합에서 준 식별자 속성들이 동일한 레코드가 적어도 k개 존재하도록 하는 모델 -> l - 다양성 : k - 익명성의 동질성의 문제, 배경 지식의 문제 극복을 통해 익명성을 향상시키는 보완 기술 -> t - 근접성 : 동질 집합에서 민감정보의 분포와 전체 데이터 집합에서의 분포가 유사한 차이를 보 이도록 하여 특정할 수 없게 보호하는 모델 |
추가 비식별 조치 | 평가 결과가 부적정한 경우 추가 비식별 조치를 실시 |
데이터 활용 | 평과 결과가 적정인 경우 빅데이터 분석에 이용하거나 제3자에게 제공 가능 |
평가 기준 | 설명 |
비식별 정보 안전조치 | 비식별 조치된 정보가 유출되는 경우 다른 정보와 결합해 재식별 우려가 존재하므로 필수로 보호 |
재식별 가능성 모니터링 | 비식별된 정보를 제3자에 제공하는 경우, 재식별 가능성을 장기적으로 모니터링 수행 |
'빅데이터 관련 개념 정리' 카테고리의 다른 글
데이터 적재 기술 (0) | 2024.04.19 |
---|---|
데이터 품질 관리 (0) | 2024.04.19 |
수집 데이터 유형 및 기술 (1) | 2024.04.19 |
데이터 수집 프로세스 (1) | 2024.04.19 |
데이터 분석 기획 (0) | 2024.04.19 |