빅데이터 관련 개념 정리

빅데이터의 개념

은행털이 2024. 4. 18. 17:37

빅데이터란?

다양한 원천으로부터 다양한 형태의 데이터를 수집, 처리, 저장하고 목적에 맞게 분석해여 필요 지식을 추출하며 전략적 의사결정, 문제 해결, 비즈니스 모델의 개발 및 개선 등에 이용하는 제반 행위.

 

과거에는 통상적으로 수용 가능한 한계를 넘어서는 크기의 데이터, 즉 크기(Volume)의 시각으로서만 정의했지만 현재는 더욱 광범위한 개념으로 변하게 됨

 

1. 빅데이터의 등장 배경

  1. 정보 통신 기술의 발전
  2. 인터넷, 스마트폰, 사물인터넷 확산에 따른 데이터의 폭증
  3. 축적된 데이터를 활용한 분석의 수요 증가
  4. 데이터가 자원이 되는 4차 산업혁명으로의 패러다임 전환
  5. 비대해진 데이터의 양으로 재기된 기존 데이터 저장, 관리, 분석 기법의 한계
  6. 하드웨어 기술 발전에 따른 데이터 저장, 처리 비용의 하락

 

1-1. 데이터 처리의 변화

구분 정보화 시대(1세대) 스마트 시대(2세대)
저장 관계형(정형) 데이터베이스, 
데이터 웨어하우스
비관계형(비정형) 데이터베이스, 
가상화, 클라우드 서비스
검색 검색엔진,
포털 서비스
자연어, 음성, 영상 검색 서비스,
시멘틱
관리 지식 관리 시스템, 
웹 2.0
플랫폼,
소셜 네트워크, 
집단 지성
분석 경영 정보,
고객 정보,
자산 정보 분석(ERP, CRM, 데이터 마이닝)
빅데이터 분석(소셜 분석, 고급 분석, 시각화)
추론   상황 인식 서비스(미래 전망, 사전 대응, 자동화), 
개인 맞춤 서비스

 

 

1-2. 빅데이터 시대를 위해 준비해야 할 것

  • 데이터 경제 시대를 대비하는 연결과 협력
    -> 데이터는 상호 연결과 협력이 있어야 더욱 확장될 수 있음
  • 빅데이터 핵심 역량인 창의적 인력의 양성
    -> 빅데이터는 데이터 수집보다 무엇을 할 것인지 분명한 목적 의식과 사고력, 해석력이 중요함
  • 데이터 신뢰 환경의 구축
    -> 데이터에 개인 사용자의 정보 보호를 위해 개인 사용자의 정보 노출이 없어도 타당한 수준의 분석을 도출해야 함

 

2. 빅데이터의 주요 요소

  • 인재와 조직 : 데이터 과학자 등 빅데이터에서 의미있는 정보를 도출하여 활용할 수 있는 인재나 조직
  • 데이터 : 비정형 데이터(텍스트, 음성, 센서 등), 정형 데이터(고객 데이터 테이블, 거래 데이터 등)
  • 데이터 수집, 처리, 저장 기술 : 대량의 데이터를 효율적으로 수집, 처리하여 분석 가능하게 전환하는 기술
  • 데이터 분석 및 지식추출 기술 : 데이터를 분석하여 가치있는 정보, 지식을 도출하는 기술

 

3. 빅데이터 분석의 기술적 특징

  • 빠른 의사결정이 상대적으로 덜 요구됨 : 빅데이터는 말 그대로 크기(Volume)가 비대하므로 장기적, 지속적 접근이 필요한 경우가 많아 빠른 의사결정이 상대적으로 덜 요구됨
  • 프로세싱의 복잡도가 높음 : 다양한 유형의 대용량 데이터를 처리해야 하기 때문에 로직이 복잡해질 수 밖에 없음
  • 처리할 데이터양이 방대 : 다양한 유형의 대용량 데이터를 처리해야 하기 때문에 분산 처리가 필요할 수 있음
  • 비정형 데이터의 비중이 높음 : 특정 구조가 정해진 데이터가 아니기 때문에 그에 맞는 기술이 필요할 수 있음
  • 처리/분석의 유연성이 높음 : RDBMS처럼 정해진 스키마가 없기 때문에 데이터 유형에 유연성있게 대처할 수 있음
  • 동시 처리량이 낮음 : 데이터가 매우 방대하기 때문에 동시에 무언가를 처리하는 것은 불가능에 가까움

 

3-1. 빅데이터의 특징 8V

  1. 규모(Volume) : 방대한 양의 데이터
  2. 속도(Velocity) : 실시간으로 빠르게 생성되는 데이터를 처리, 분석
  3. 다양성(Variety) : 정형 뿐 아니라 반정형, 비정형 등 다양한 유형의 데이터를 처리, 분석
  4. 신뢰성(Varacity) : 신뢰성을 위해 데이터에 포함된 오류, 잡음을 제거
  5. 시각화(Visualization) : 수치, 표 형태의 결과보다는 시각적으로 결과를 표현
  6. 가치(Value) : 빅데이터로부터 비즈니스나 연구에 활용 가능한 가치를 발견

-> 이후 8V까지는 다르게 보는 시각이 많기 때문에, 대부분 공용적으로 보는 6가지를 기술하였다.

 

 

4. 빅데이터의 분류

구분 기술 내용 수집 난이도
정형 고정된 필드에 저장된 데이터, 
관계 DB처럼 스키마 형식에 맞게 저장된 데이터,
예시 -> RDBMS, 스프레드시트
내부 시스템인 경우가 많아 수집이 쉬움,
파일 형태의 스프레드 시트라도 내부에 정형된 형식을 가지고 있어 처리가 쉬움.
반정형 고정된 필드에 저장되진 않지만 메타데이터나 스키마를 포함하는 데이터
예시 -> XML, HTM
API 형태로 제공되므로 데이터 처리 기술이 요구됨
비정형 관계형 모델에 적합하지 않은 데이터 구조가 일정하지 않은 데이터.
예시 -> 이미지, 동영상, 음성 데이터
파일을 데이터 형태로 변환, 파싱해야 하므로 수집 및 처리가 어려움

 

 

5. 빅데이터가 만들어내는 변화

  • 사전처리 -> 사후처리
    사전의 처리로 필요한 정보만 수집하는 시스템에서 가능한 많은 데이터를 모아 그 데이터를 가공, 조합해 숨은 정보를 찾아내는 형태로 변화함
  • 표본조사 -> 전수조사
    이전에는 방대한 데이터를 처리할 수 없어 샘플링 방식으로 데이터를 얻었지만, 현재는 이를 감당 가능한 기술의 발전이 이루어졌기 때문에 최대한 많은 데이터를 얻어 샘플링 방식으로는 얻을 수 없는 패턴, 정보를 발견하는 방식으로 변화함
  • 질 -> 양
    일부만 추출하는 이전의 샘플링 방식은 데이터의 질에 민감했지만, 많은 양의 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 데이터의 질에 덜 민감해져 결과적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 근거한 변화가 일어남

 

6. 빅데이터 분석의 과정과 그에 대응하는 기술

  1. 데이터 생성
    - 내부 데이터 : 데이터베이스, 파일 관리 시스템
    - 외부 데이터 : 인터넷으로 연결된 파일, 멀티미디어, 스트림
  2. 수집
    크롤링 : 검색 엔진 봇을 사용한 데이터 자동 수집
    ETL (Extraction, Transformation, Loading) : 소스 데이터의 추출, 전송, 변환, 적재

  3. 데이터 저장
    NoSQL : 비정형 데이터 관리할 데이터베이스
    스토리지 : 빅데이터를 저장할 스토리지(자기테이프, 하드디스크 등)
    그 외 초경량 서버를 이용한 데이터 저장처리
  4. 데이터 처리
    맵리듀스 : 데이터의 추출
    프로세싱 : 다중 업무 처리

  5. 데이터 분석
    NLP(Natural Language Processing) : 자연어 처리
    기계 학습(Machine Learning) : 기계 학습으로 데이터간의 패턴을 발견
    직렬화 : 데이터간의 순서화

  6. 데이터 표현
    가시화 : 데이터를 도표, 그래프 등으로 시각화 표현

 

 

7. 개인정보 보호의 필요성

-> 개인정보는 정보사회의 핵심 인프라이며, 모든 경제활동이 개인정보를 중심으로 운영되므로 이를 보호하기위한 개인정보 보호가 필수 불가결함

  • 개인정보 : 이름, 전화번호, 주민등록번호 등 개인을 식별할 수 있는 가능성이 내포된 데이터

  • 개인정보 보호 : 정보의 주체(개인)이 개인정보에 자기 결정권을 보장하는 활동

  • 개인정보 자기결정권 : 자신의 개인정보가 언제, 어떻게, 어디까지 전달되고 이용될 수 있는지를 정보의 주체(개인)이 스스로 결정할 수 있는 권리

  • 개인정보 자기통제권 : 정보의 주체(개인)이 자신과 관련된 정보를 수집, 이용, 공개, 제공하는 것에 대해 스스로가 통제할 수 있는 권리

 

 

7-1. 개인정보 보호의 가이드라인

  • 개인정보 비식별화
    - 데이터 수집시부터 개인정보에 대해 철저한 비식별화 조치를 취함.
    - 개인정보가 포함된 정보는 비식별화 조치를 취한 후에야 수집, 저장, 조합, 분석 및 제3자 제공이 가능해짐
  • 개인정보 재식별 시 조치
    - 재식별은, 개인정보를 비식별화 했지만, 다른 정보과 합쳐졌을 때 다시 개인정보가 식별되는 현상을 의미함.
    - 재식별 시, 즉시 파기하거나 추가적 비식별화 조치를 취해야 함

  • 민감정보 처리
    - 민감정보란, 개인을 특정할 수는 없지만, 사상, 신념, 정치적 견해 등 민감한 정보를 의미함. (이메일, 문자, 메시지 등)
    - 민감정보의 생성을 목적으로 한 정보(이메일, 문자, 메시지 등의 통신 내용)의 수집, 이용, 저장, 조합, 분석 등의 처리를 금지

  • 투명성 확보
    - 개인정보 취급방침을 통해 비식별화 조치를 취한 후, 빅데이터의 처리 사실, 목적, 과정, 수집 출처, 정보활용의 거부방법 등을 이용자에게 투명하게 공개해야 함

  • 수집 정보의 보호조치
    - 비식별 조치가 이루어진 정보를 저장, 관리하고 있는 시스템에 대한 기술적, 관리적 보호 조치를 적용해야함

 

 

7-2. 개인정보 보호 관련 법령

  • 개인정보 보호법 : 개인정보 처리 과정 상 정보의 주체와 개인정보의 처리자들의 권리, 의무 규정
  • 정보통신망법 : 정보통신망을 통해 수집, 처리, 이용되는 개인정보 보호에 관한 규정
  • 신용정보법 : 개인 신용정보의 취급 단계별 보호조치에 관한 규정
  • 위치정보법 : 개인의 위치정보를 수집, 이용, 제공, 파기에 대한 정보의 주체에 대한 권리 규정
  • 개인정보의 안전성 확보조치 기준 : 개인정보의 처리에 있어서 분실, 도난, 유출, 훼손이 되지 않도록 개인정보를 처리하는 시스템의 보호 수준을 진단, 암호화에 상응하는 조치 필요 여부를 판단할 수 있는 기준을 규정.

 

 

8. 개인정보 비식별화의 절차와 방법

  1. 사전 검토 : 데이터가 개인정보에 해당하는 지 검토
  2. 비식별화 조치 : 데이터 셋에서 개인을 식별할 수 있는 해당 요소를 전체, 일부를 삭제하고나 대체하여 개인을 식별할 수 없도록 조치
  3. 적정성 평가 : 비식별화 조치 후, 다른 정보와 결합했을 시 개인을 식별할 수 있게 되는지를 적정성 평가 단을 통해 평가하고 다시 식별이 이루어진다면 추가적으로 비식별 조치를 취함
  4. 사후관리 : 비식별된 정보의 활용 과정에서 재식별이 일어나지 않도록 필요한 조치를 수행

 

8-1. 개인정보 비식별 조치 방법

  • 가명처리 : 개인 식별이 가능한 데이터에 식별 불가능한 다른 값으로 대체하는 방법
    예) 홍길동, 28세 -> 홍모씨, 20대 후반
    - 휴리스틱 익명화, 암호화, 교환방법 등이 존재

  • 총계처리 : 개인 식별이 가능한 데이터에 통계값을 적용하여 개인을 판단할 수 없도록 하는 방법
    예) 홍길동 28세, 엄복동 31세, 김민수 19세 -> 평균 26세
    - 총계처리 기본방식, 부분집계, 라운딩, 데이터 재배열

  • 데이터 삭제 : 개인 식별이 가능한 특정 데이터값을 삭제하는 방법
    예) 990101-1234567 -> 90년대생 남자
    - 속성값 삭제, 속성값 부분 삭제, 준 식별자 제거를 통한 단순 익명화

  • 데이터 범주화 : 단일 식별 정보를 해당 그룹의 대표값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 개인 식별을 방지하는 기법
    예) 홍길동, 28세 -> 홍씨(범주화), 20~30(범위화)대
    - 범주화 기본 방식, 랜덤 올림 기법, 범위 방법, 세분 정보 제한 방법, 제어 올림 방법

  • 데이터 마스킹 : 개인 식별 정보에 대하여 전체 또는 일부분에 대체값으로 변환시키는 방법
    예) 홍길동, 한양 거주 -> 홍OO, OO 거주
    - 임의 잡음 추가 방법, 공백과 대 방법
    -> 가명처리는 개인을 식별하기 어렵게 하는 것에 중점을 두지만, 데이터 마스킹은 데이터 자체를 보호하는 것에 중점을 두는 방식

'빅데이터 관련 개념 정리' 카테고리의 다른 글

데이터 변환 기술  (1) 2024.04.19
수집 데이터 유형 및 기술  (1) 2024.04.19
데이터 수집 프로세스  (1) 2024.04.19
데이터 분석 기획  (0) 2024.04.19
데이터의 개념과 종류  (0) 2024.04.17