빅데이터 관련 개념 정리

수집 데이터 유형 및 기술

은행털이 2024. 4. 19. 03:07

일반적인 데이터의 특징

구분 정량적 데이터 정성적 데이터
형태 정형, 반정형 비정형
특징 속성(attribute)가 모여 객체를 구성 객체 하나에 함의 된 정보가 포함됨

데이터 세트가 아닌, 하나의 데이터가 수집 데이터로 객체화
구성 수치, 도형, 기호 등 언어, 문자 등
저장 형태 데이터베이스, 스프레드시트 파일, 웹
소스 위치 내부 시스템 외부 시스템

 

 

1. 정량적 데이터 수집 방법

수집 방법 특징
면접 조사 연구자가 대상자와 직접적 상호작용을 통해 필요한 자료를 수집, 기록
전화 / 우편 / FAX / E-Mail 조사 질문지를 대상자들에게 전화 / 우편 / FAX / E-mail로 보내어 수집
온라인 조사 네트워크, 인터넷 등 컴퓨터가 연결된 상태에서 이루어지는 조사
CTL(Central Location Test) 조사 다양한 대상자들이 밀집되는 상점가 등에 조사 장소를 설치해 간단하게 조사하는 방법
갱 서베이(Gang Survey) 조사 대상 집단을 일정 장소에 모아서 조사를 진행하는 방법

 

2. 정성적 데이터 수집 방법

수집 방법 특징
FGI(Focus Group Interview) 특정 이슈에 직접적으로 관련된 사람들로 토론 그룹을 형성하여 심층적 면접을 실시
심층 면접(In-depth Interview) 1명의 대상자와 1대1 면접을 통해 심리를 파악하는 조사
델파이 조사(Delphi method) 특정 주제에 대한 전문가 집단을 구성하여 이들에게 여러 의견을 수집
관찰조사(Shadowing)

동반 쇼핑(Town Watching)
백화점, 마트 등에서 소비자가 쇼핑하는 행태를 직접 관찰하거나 지인을 가장하여 동반 쇼핑하며 관찰하는 조사

 

3. 데이터 형태 별 잠재 가치

형태 특징 잠재 가치
정형 데이터 내부 데이터의 특성상 현실적 가치가 상대적으로 낮아 활용측면에서 잠재적 가치는 낮음
반정형 데이터 데이터의 제공자가 선별해 제공하는 데이터로 잠재적 가치는 정형 데이터보다 높음
비정형 데이터 수집 주체에 의해 데이터에 대한 분석이 이미 선행되었기 때문에 목적론적 데이터 특징이 가장 잘 나타남

일단 수집이 가능하면 수집 주체에게는 가장 잠재적 가치가 높음

 

4. 데이터의 위치 별 수집 데이터 예시

  • 내부 데이터 : 데이터 저장소가 내부 시스템에 있으며 외부 데이터와 달리 데이터 제공자와 상호 협약을 가진 의사소통이 가능함
분야 예시
서비스 SCM, ERP, CRM, 포털, 인증 시스템, 거래 시스템 등 회사 내에서 이미 사용하고 있는 서비스의 데이터를 활용
네트워크 네트워크백본, 방화벽, 스위치, IPS, IDS 등 유해 트래픽이나 이상 접근을 탐지하여 남긴 로그 데이터를 활용
마케팅 마케팅 VOC 접수 데이터, 고객 포털 시스템에서 가져온 데이터로 마케팅적 분석에 활용

 

  • 외부 데이터 : 데이터 저장소가 외부 시스템에 있으며 내부 데이터와 달리 데이터 제공자와 협약되지 않으면 상호 의사소통이 불가능함
분야 예시
소셜 SNS, 커뮤니티, 게시판 서비스
네트워크 센서 데이터, 장비 간에 발생한 로그(M2MJ)

M2M : 모든 사물에 센서 통신 기능을 부과하여 지능적으로 정보를 수집하여 상호전달하는 기술

 

 

 

4. 시간 관점에 따른 데이터의 분류

유형 설명 종류
실시간 데이터(Realtime) 생성된 이후 수 초~ 수 분 이내에 처리되어야 의미가 발생하는 현재의 데이터(화재 경보기와 같이 실시간성이 중요한 데이터의 분석) 센서 데이터
시스템 로그
네트워크 장비의 로그
알람
보안장비 로그
비 실시간 데이터
(Non-Realtime)
생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의미가 발생하는 과거의 데이터(대량으로 모인 데이터에서 상호 패턴 분석으로 정보를 발생) 통계
웹 로그
구매 정보
서비스 로그
디지털 헬스케어 정보

 

 

5. 저장 형태에 따른 분류

유형 설명
파일 데이터 시스템 로그, 텍스트, 스프레드시트 등과 같이 파일 형식으로 파일 시스템에 저장되는 데이터
데이터베이스 데이터 RDBMS, NoSQL, In-Memory 데이터베이스 등에 의해서 데이터의 종류나 성격에 따라 데이터베이스의 컬럼 또는 테이블에 저장된 데이터
콘텐츠 데이터 텍스트, 이미지, 오디오, 비디오 등과 같이 개별적으로 데이터 객체로 구분되는 미디어 데이터
스트림 데이터 센서 데이터, HTTP 트랜잭션 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터

 

 

6. 빅데이터 수집 기술 및 통합 제품

제품/기술 최초 개발 최초 공개 주요 기능 및 특징
Flume Cloudera 2010년 방대한 양의 이벤트 로그 수집
Scribe 페이스북 2008년 분산 시스템 로그 수집 서버
Chukwa 야후 2008년 분산 시스템의 로그 수집 및 모니터링
SQOOP 아파치 2009년 RDBMS와 NoSQL간의 데이터 연동
Kafka Linkedin 2010년 분산 시스템에서 메시지 전송 및 수집
OpenRefine 구글 2010년 대용량 데이터의 정제
JSON D.Crockford - XML과 비슷한 데이터 정형화 방식
BSON - - JSON의 바이너리 형태
Thrift 페이스북 2007년 비정형 데이터의 정형화 및 관리
Protocol Buffers 구글 2008년 오픈소스인 직렬화 라이브러리
Avro 아파치 2009년 이기종 간 데이터 교환 및 직렬화

 

'빅데이터 관련 개념 정리' 카테고리의 다른 글

데이터 품질 관리  (0) 2024.04.19
데이터 변환 기술  (1) 2024.04.19
데이터 수집 프로세스  (1) 2024.04.19
데이터 분석 기획  (0) 2024.04.19
빅데이터의 개념  (0) 2024.04.18