빅데이터란?
다양한 원천으로부터 다양한 형태의 데이터를 수집, 처리, 저장하고 목적에 맞게 분석해여 필요 지식을 추출하며 전략적 의사결정, 문제 해결, 비즈니스 모델의 개발 및 개선 등에 이용하는 제반 행위.
과거에는 통상적으로 수용 가능한 한계를 넘어서는 크기의 데이터, 즉 크기(Volume)의 시각으로서만 정의했지만 현재는 더욱 광범위한 개념으로 변하게 됨
1. 빅데이터의 등장 배경
- 정보 통신 기술의 발전
- 인터넷, 스마트폰, 사물인터넷 확산에 따른 데이터의 폭증
- 축적된 데이터를 활용한 분석의 수요 증가
- 데이터가 자원이 되는 4차 산업혁명으로의 패러다임 전환
- 비대해진 데이터의 양으로 재기된 기존 데이터 저장, 관리, 분석 기법의 한계
- 하드웨어 기술 발전에 따른 데이터 저장, 처리 비용의 하락
1-1. 데이터 처리의 변화
구분 | 정보화 시대(1세대) | 스마트 시대(2세대) |
저장 | 관계형(정형) 데이터베이스, 데이터 웨어하우스 |
비관계형(비정형) 데이터베이스, 가상화, 클라우드 서비스 |
검색 | 검색엔진, 포털 서비스 |
자연어, 음성, 영상 검색 서비스, 시멘틱 |
관리 | 지식 관리 시스템, 웹 2.0 |
플랫폼, 소셜 네트워크, 집단 지성 |
분석 | 경영 정보, 고객 정보, 자산 정보 분석(ERP, CRM, 데이터 마이닝) |
빅데이터 분석(소셜 분석, 고급 분석, 시각화) |
추론 | 상황 인식 서비스(미래 전망, 사전 대응, 자동화), 개인 맞춤 서비스 |
1-2. 빅데이터 시대를 위해 준비해야 할 것
- 데이터 경제 시대를 대비하는 연결과 협력
-> 데이터는 상호 연결과 협력이 있어야 더욱 확장될 수 있음 - 빅데이터 핵심 역량인 창의적 인력의 양성
-> 빅데이터는 데이터 수집보다 무엇을 할 것인지 분명한 목적 의식과 사고력, 해석력이 중요함 - 데이터 신뢰 환경의 구축
-> 데이터에 개인 사용자의 정보 보호를 위해 개인 사용자의 정보 노출이 없어도 타당한 수준의 분석을 도출해야 함
2. 빅데이터의 주요 요소
- 인재와 조직 : 데이터 과학자 등 빅데이터에서 의미있는 정보를 도출하여 활용할 수 있는 인재나 조직
- 데이터 : 비정형 데이터(텍스트, 음성, 센서 등), 정형 데이터(고객 데이터 테이블, 거래 데이터 등)
- 데이터 수집, 처리, 저장 기술 : 대량의 데이터를 효율적으로 수집, 처리하여 분석 가능하게 전환하는 기술
- 데이터 분석 및 지식추출 기술 : 데이터를 분석하여 가치있는 정보, 지식을 도출하는 기술
3. 빅데이터 분석의 기술적 특징
- 빠른 의사결정이 상대적으로 덜 요구됨 : 빅데이터는 말 그대로 크기(Volume)가 비대하므로 장기적, 지속적 접근이 필요한 경우가 많아 빠른 의사결정이 상대적으로 덜 요구됨
- 프로세싱의 복잡도가 높음 : 다양한 유형의 대용량 데이터를 처리해야 하기 때문에 로직이 복잡해질 수 밖에 없음
- 처리할 데이터양이 방대 : 다양한 유형의 대용량 데이터를 처리해야 하기 때문에 분산 처리가 필요할 수 있음
- 비정형 데이터의 비중이 높음 : 특정 구조가 정해진 데이터가 아니기 때문에 그에 맞는 기술이 필요할 수 있음
- 처리/분석의 유연성이 높음 : RDBMS처럼 정해진 스키마가 없기 때문에 데이터 유형에 유연성있게 대처할 수 있음
- 동시 처리량이 낮음 : 데이터가 매우 방대하기 때문에 동시에 무언가를 처리하는 것은 불가능에 가까움
3-1. 빅데이터의 특징 8V
- 규모(Volume) : 방대한 양의 데이터
- 속도(Velocity) : 실시간으로 빠르게 생성되는 데이터를 처리, 분석
- 다양성(Variety) : 정형 뿐 아니라 반정형, 비정형 등 다양한 유형의 데이터를 처리, 분석
- 신뢰성(Varacity) : 신뢰성을 위해 데이터에 포함된 오류, 잡음을 제거
- 시각화(Visualization) : 수치, 표 형태의 결과보다는 시각적으로 결과를 표현
- 가치(Value) : 빅데이터로부터 비즈니스나 연구에 활용 가능한 가치를 발견
-> 이후 8V까지는 다르게 보는 시각이 많기 때문에, 대부분 공용적으로 보는 6가지를 기술하였다.
4. 빅데이터의 분류
구분 | 기술 내용 | 수집 난이도 |
정형 | 고정된 필드에 저장된 데이터, 관계 DB처럼 스키마 형식에 맞게 저장된 데이터, 예시 -> RDBMS, 스프레드시트 |
내부 시스템인 경우가 많아 수집이 쉬움, 파일 형태의 스프레드 시트라도 내부에 정형된 형식을 가지고 있어 처리가 쉬움. |
반정형 | 고정된 필드에 저장되진 않지만 메타데이터나 스키마를 포함하는 데이터 예시 -> XML, HTM |
API 형태로 제공되므로 데이터 처리 기술이 요구됨 |
비정형 | 관계형 모델에 적합하지 않은 데이터 구조가 일정하지 않은 데이터. 예시 -> 이미지, 동영상, 음성 데이터 |
파일을 데이터 형태로 변환, 파싱해야 하므로 수집 및 처리가 어려움 |
5. 빅데이터가 만들어내는 변화
- 사전처리 -> 사후처리
사전의 처리로 필요한 정보만 수집하는 시스템에서 가능한 많은 데이터를 모아 그 데이터를 가공, 조합해 숨은 정보를 찾아내는 형태로 변화함 - 표본조사 -> 전수조사
이전에는 방대한 데이터를 처리할 수 없어 샘플링 방식으로 데이터를 얻었지만, 현재는 이를 감당 가능한 기술의 발전이 이루어졌기 때문에 최대한 많은 데이터를 얻어 샘플링 방식으로는 얻을 수 없는 패턴, 정보를 발견하는 방식으로 변화함 - 질 -> 양
일부만 추출하는 이전의 샘플링 방식은 데이터의 질에 민감했지만, 많은 양의 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 데이터의 질에 덜 민감해져 결과적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 근거한 변화가 일어남
6. 빅데이터 분석의 과정과 그에 대응하는 기술
- 데이터 생성
- 내부 데이터 : 데이터베이스, 파일 관리 시스템
- 외부 데이터 : 인터넷으로 연결된 파일, 멀티미디어, 스트림 - 수집
크롤링 : 검색 엔진 봇을 사용한 데이터 자동 수집
ETL (Extraction, Transformation, Loading) : 소스 데이터의 추출, 전송, 변환, 적재 - 데이터 저장
NoSQL : 비정형 데이터 관리할 데이터베이스
스토리지 : 빅데이터를 저장할 스토리지(자기테이프, 하드디스크 등)
그 외 초경량 서버를 이용한 데이터 저장처리 - 데이터 처리
맵리듀스 : 데이터의 추출
프로세싱 : 다중 업무 처리 - 데이터 분석
NLP(Natural Language Processing) : 자연어 처리
기계 학습(Machine Learning) : 기계 학습으로 데이터간의 패턴을 발견
직렬화 : 데이터간의 순서화 - 데이터 표현
가시화 : 데이터를 도표, 그래프 등으로 시각화 표현
7. 개인정보 보호의 필요성
-> 개인정보는 정보사회의 핵심 인프라이며, 모든 경제활동이 개인정보를 중심으로 운영되므로 이를 보호하기위한 개인정보 보호가 필수 불가결함
- 개인정보 : 이름, 전화번호, 주민등록번호 등 개인을 식별할 수 있는 가능성이 내포된 데이터
- 개인정보 보호 : 정보의 주체(개인)이 개인정보에 자기 결정권을 보장하는 활동
- 개인정보 자기결정권 : 자신의 개인정보가 언제, 어떻게, 어디까지 전달되고 이용될 수 있는지를 정보의 주체(개인)이 스스로 결정할 수 있는 권리
- 개인정보 자기통제권 : 정보의 주체(개인)이 자신과 관련된 정보를 수집, 이용, 공개, 제공하는 것에 대해 스스로가 통제할 수 있는 권리
7-1. 개인정보 보호의 가이드라인
- 개인정보 비식별화
- 데이터 수집시부터 개인정보에 대해 철저한 비식별화 조치를 취함.
- 개인정보가 포함된 정보는 비식별화 조치를 취한 후에야 수집, 저장, 조합, 분석 및 제3자 제공이 가능해짐 - 개인정보 재식별 시 조치
- 재식별은, 개인정보를 비식별화 했지만, 다른 정보과 합쳐졌을 때 다시 개인정보가 식별되는 현상을 의미함.
- 재식별 시, 즉시 파기하거나 추가적 비식별화 조치를 취해야 함 - 민감정보 처리
- 민감정보란, 개인을 특정할 수는 없지만, 사상, 신념, 정치적 견해 등 민감한 정보를 의미함. (이메일, 문자, 메시지 등)
- 민감정보의 생성을 목적으로 한 정보(이메일, 문자, 메시지 등의 통신 내용)의 수집, 이용, 저장, 조합, 분석 등의 처리를 금지 - 투명성 확보
- 개인정보 취급방침을 통해 비식별화 조치를 취한 후, 빅데이터의 처리 사실, 목적, 과정, 수집 출처, 정보활용의 거부방법 등을 이용자에게 투명하게 공개해야 함 - 수집 정보의 보호조치
- 비식별 조치가 이루어진 정보를 저장, 관리하고 있는 시스템에 대한 기술적, 관리적 보호 조치를 적용해야함
7-2. 개인정보 보호 관련 법령
- 개인정보 보호법 : 개인정보 처리 과정 상 정보의 주체와 개인정보의 처리자들의 권리, 의무 규정
- 정보통신망법 : 정보통신망을 통해 수집, 처리, 이용되는 개인정보 보호에 관한 규정
- 신용정보법 : 개인 신용정보의 취급 단계별 보호조치에 관한 규정
- 위치정보법 : 개인의 위치정보를 수집, 이용, 제공, 파기에 대한 정보의 주체에 대한 권리 규정
- 개인정보의 안전성 확보조치 기준 : 개인정보의 처리에 있어서 분실, 도난, 유출, 훼손이 되지 않도록 개인정보를 처리하는 시스템의 보호 수준을 진단, 암호화에 상응하는 조치 필요 여부를 판단할 수 있는 기준을 규정.
8. 개인정보 비식별화의 절차와 방법
- 사전 검토 : 데이터가 개인정보에 해당하는 지 검토
- 비식별화 조치 : 데이터 셋에서 개인을 식별할 수 있는 해당 요소를 전체, 일부를 삭제하고나 대체하여 개인을 식별할 수 없도록 조치
- 적정성 평가 : 비식별화 조치 후, 다른 정보와 결합했을 시 개인을 식별할 수 있게 되는지를 적정성 평가 단을 통해 평가하고 다시 식별이 이루어진다면 추가적으로 비식별 조치를 취함
- 사후관리 : 비식별된 정보의 활용 과정에서 재식별이 일어나지 않도록 필요한 조치를 수행
8-1. 개인정보 비식별 조치 방법
- 가명처리 : 개인 식별이 가능한 데이터에 식별 불가능한 다른 값으로 대체하는 방법
예) 홍길동, 28세 -> 홍모씨, 20대 후반
- 휴리스틱 익명화, 암호화, 교환방법 등이 존재 - 총계처리 : 개인 식별이 가능한 데이터에 통계값을 적용하여 개인을 판단할 수 없도록 하는 방법
예) 홍길동 28세, 엄복동 31세, 김민수 19세 -> 평균 26세
- 총계처리 기본방식, 부분집계, 라운딩, 데이터 재배열 - 데이터 삭제 : 개인 식별이 가능한 특정 데이터값을 삭제하는 방법
예) 990101-1234567 -> 90년대생 남자
- 속성값 삭제, 속성값 부분 삭제, 준 식별자 제거를 통한 단순 익명화 - 데이터 범주화 : 단일 식별 정보를 해당 그룹의 대표값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 개인 식별을 방지하는 기법
예) 홍길동, 28세 -> 홍씨(범주화), 20~30(범위화)대
- 범주화 기본 방식, 랜덤 올림 기법, 범위 방법, 세분 정보 제한 방법, 제어 올림 방법 - 데이터 마스킹 : 개인 식별 정보에 대하여 전체 또는 일부분에 대체값으로 변환시키는 방법
예) 홍길동, 한양 거주 -> 홍OO, OO 거주
- 임의 잡음 추가 방법, 공백과 대 방법
-> 가명처리는 개인을 식별하기 어렵게 하는 것에 중점을 두지만, 데이터 마스킹은 데이터 자체를 보호하는 것에 중점을 두는 방식
'빅데이터 관련 개념 정리' 카테고리의 다른 글
데이터 변환 기술 (1) | 2024.04.19 |
---|---|
수집 데이터 유형 및 기술 (1) | 2024.04.19 |
데이터 수집 프로세스 (1) | 2024.04.19 |
데이터 분석 기획 (0) | 2024.04.19 |
데이터의 개념과 종류 (0) | 2024.04.17 |