1. 빅데이터(Big Data)란?
빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미
빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수십 테라바이트(TB)에서 수 페타바이트(PB)에 이르기도 함
2. 빅데이터의 등장배경
기존의 계획적이고 효율적인 데이터 수집 방식(질적수집, 표본조사 등)에서 아래의 변화로 인해 일단 많이 모으고 분석해서 정보를 얻는 방식 (양적수집, 전수조사)으로 변화함
1) 데이터 변화
- 규모(Vloume), 형태(Variety), 속도(Velocity)
2) 기술 변화
- 새로운 데이터 처리, 저장 분석기술 및 아키텍처
- 클라우드 컴퓨팅 활용
3. 빅데이터의 특징과 의미
빅데이터 용어가 사용된 초기 가트너(Garthner) 그룹은 3V(규모, 유형, 속도)로 빅데이터의 특징을 설명했으며, 최근에는 빅데이터 분석을 통해 얻을 수 있는 2V(가치와 데이터에 대한 품질)의 중요성도 강조되고 있음
1) 3V
Volume(규모)
데이터 양의 급격한 증가로 기존 DBMS로는 역부족
Variety(유형)
반정형, 비정형 데이터의 증가와 데이터 근원의 다양화
Velocity(속도)
실시간 데이터 수집과 즉각적인 처리 및 분석에 대한 니즈 증가
2) +2V
Veracity(품질)
데이터의 신뢰성, 정확성, 타당성 보장이 필수
Value(가치)
대용량 데이터 안에 숨겨진 가치 발굴이 중요
다른 데이터들과 연계 시 가치가 증대
<전통적 데이터와 빅데이터 비교>
전통적 데이터 | 빅데이터 | |
규모 | 기가바이트(GB) 수준 | 테라바이트(TB) or 페타바이트(PB) 수준 |
처리 시간 | 시간/일 단위 | 실시간 |
유형 | 정형 | 정형+반정형, 비정형 |
처리방식 | 중앙 집중 | 분산 |
시스템 | 관계형(Relational) DBMS | Hadoop, NoSQL 등등 |
4. 빅데이터 활용을 위한 3요소
1) 자원
- 정형, 반정형, 비정형 데이터를 실시간으로 수집
- 수집된 데이터를 전처리 과정을 통해 품질을 향상
2) 기술
- 데이터 저장, 관리 (ETL, NoSQL)
- 대용량 데이터 처리 (Hadoop, MapReduce)
3) 인력
- 데이터 엔지니어
- 데이터 분석가
- 데이터 사이언티스트
5. 빅데이터의 가치
4차 산업혁명 시대의 원유와 같은 역할
경쟁기업과 차별화된 경쟁력을 갖출 수 있음(생산성 향상, 맞춤형 마케팅 등)
비즈니스 의사결정의 믿을 수 있는 근거를 제공
혁신, 경쟁력, 생산성의 핵심 요소
'빅데이터' 카테고리의 다른 글
[#shorts] 데이터베이스(DB)와 DBMS란? (0) | 2021.08.18 |
---|---|
[#shorts] 데이터의 특징과 유형(정형/비정형/반정형) (0) | 2021.08.14 |