반응형

 

1. 빅데이터(Big Data)란?

 

빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미

 

빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수십 테라바이트(TB)에서 수 페타바이트(PB)에 이르기도 함

 

 

2. 빅데이터의 등장배경

기존의 계획적이고 효율적인 데이터 수집 방식(질적수집, 표본조사 등)에서 아래의 변화로 인해 일단 많이 모으고 분석해서 정보를 얻는 방식 (양적수집, 전수조사)으로 변화함

 

1) 데이터 변화

- 규모(Vloume), 형태(Variety), 속도(Velocity)

 

2) 기술 변화

- 새로운 데이터 처리, 저장 분석기술 및 아키텍처

- 클라우드 컴퓨팅 활용

 

 

3. 빅데이터의 특징과 의미

 

빅데이터 용어가 사용된 초기 가트너(Garthner) 그룹은 3V(규모, 유형, 속도)로 빅데이터의 특징을 설명했으며, 최근에는 빅데이터 분석을 통해 얻을 수 있는 2V(가치와 데이터에 대한 품질)의 중요성도 강조되고 있음

 

1) 3V

Volume(규모)

데이터 양의 급격한 증가로 기존 DBMS로는 역부족

Variety(유형)

반정형, 비정형 데이터의 증가와 데이터 근원의 다양화

Velocity(속도)

실시간 데이터 수집과 즉각적인 처리 및 분석에 대한 니즈 증가

 

2) +2V

Veracity(품질)

데이터의 신뢰성, 정확성, 타당성 보장이 필수

Value(가치)

대용량 데이터 안에 숨겨진 가치 발굴이 중요

다른 데이터들과 연계 시 가치가 증대

 

 

<전통적 데이터와 빅데이터 비교>

  전통적 데이터 빅데이터
규모 기가바이트(GB) 수준 테라바이트(TB) or 페타바이트(PB) 수준
처리 시간 시간/일 단위 실시간
유형 정형 정형+반정형, 비정형
처리방식 중앙 집중 분산
시스템 관계형(Relational) DBMS Hadoop, NoSQL 등등

 

 

4. 빅데이터 활용을 위한 3요소

 

1) 자원

    - 정형, 반정형, 비정형 데이터를 실시간으로 수집

    - 수집된 데이터를 전처리 과정을 통해 품질을 향상

 

2) 기술

    - 데이터 저장, 관리 (ETL, NoSQL)

    - 대용량 데이터 처리 (Hadoop, MapReduce)

 

3) 인력

     - 데이터 엔지니어

     - 데이터 분석가

     - 데이터 사이언티스트

 

 

5. 빅데이터의 가치

4차 산업혁명 시대의 원유와 같은 역할

경쟁기업과 차별화된 경쟁력을 갖출 수 있음(생산성 향상, 맞춤형 마케팅 등)

비즈니스 의사결정의 믿을 수 있는 근거를 제공

혁신, 경쟁력, 생산성의 핵심 요소

반응형
반응형

1. 데이터베이스(DataBase)란?

 

데이터베이스, DB란 여러 사람이 공유하여 사용할 목적으로 체계화하여 통합, 관리하는 데이터의 집합을 말한다. 즉, 몇 개의 자료 파일을 조직적으로 통합하여 자료 항목의 중복을 없애고 자료를 구조화하여 기억시켜 놓은 자료의 집합체라고 할 수 있다.

 

출처. pixabay

 

2. 데이터베이스의 특징

 

1) 실시간 접근성 : 사용자의 요구를 실시간 처리 및 응답

2) 계속적인 변화 : 데이터가 지속적으로 갱신

3) 동시 공유 : 여러 사용자가 동일한 데이터 동시 접근 가능

4) 내용 참조 : 저장한 데이터의 주소가 아닌 값에 따라 참조

 

3. 데이터베이스의 장단점

 

장점

1) 데이터 중복 최소화

2) 데이터 공유

3) 일관성, 무결성, 보안성 유지

4) 최신의 데이터 유지

5) 데이터의 표준화 가능

6) 데이터의 논리적, 물리적 독립성

7) 용이한 데이터 접근

8) 데이터 저장 공간 절약

 

단점

1) 데이터베이스 전문가 필요, 유지보수 비용 발생

2) 데이터 백업과 복구가 어려움

3) 시스템 복잡함

4) 엑세스가 집중될 시 과부화 발생

 

 

4. 데이터베이스 관리 시스템 (DBMS)

 

데이터베이스 관리 시스템, DataBase Management System은 데이터베이스를 관리하며 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어를 말한다.

 

 

출처. 네이버 지식백과

 

쉬운 이해를 위해서 도서관을 예로 들면, DB를 책과 책에 대한 정보라 할 수 있고, 도서관에 방문한 사람이 원하는 책을 찾고, 대여 여부를 확인 및 변경할 수 있는 검색 시스템을 DBMS라고 할 수 있다.

 

 

5. DBMS 필수 기능

 

1) 정의(Definition)기능

 

- 모든 응용 프로그램들이 요구하는 데이터 구조를 지원하기 위해 데이터베이스에 저장될 데이터의 형(Type)과 구조에 대한 정의, 이용 방식, 제약 조건 등을 명시하는 기능이다.

- 데이터와 데이터의 관계를 명확하게 명세할 수 있어야 하며 원하는 데이터 연산은 무엇이든 명세할 수 있어야 한다.

 

2) 조작(Manipulation)기능

 

- 데이터 검색 갱신 삽입 삭제 등을 체계적으로 처리하기 위해 사용자와 데이터베이스 사이의 인터페이스 수단을 제공하는 기능이다.

 

3) 제어(Control)기능

 

- 데이터베이스를 접근하는 갱신 삽입 삭제 작업이 정확하게 수행되어 데이터의 무결성이 유지되도록 해야한다.

- 정당한 사용자가 허가된 데이터만 접근할 수 있도록 보안을 유지하고 권한을 검사할 수 있어야한다.

- 여러 사용자가 데이터베이스를 동시에 접근하여 데이터를 처리할 때 처리결과가 항상 정확성을 유지하도록 병행제어(Concurrency Control)을 할 수 있어야 한다.

 

 

6. 대표적인 DBMS

1) Oracle사의 Oracle

2) MySQL사의 MySQL (현재 Oracle 사에 흡수합병됨)

3) MS사의 MS SQL

 

 

<여기서 잠깐>  SQL이란?

 

SQLStructured Query Language의 줄임말로 데이터베이스에 접근할 때 사용하는 언어를 말한다.

단순한 질의(Query) 기능뿐만 아니라 데이터 정의와 조작 기능을 갖추고 있다.

데이블 단위로 연산을 수행하며, 초보자들도 비교적 쉽게 사용 가능하다.

 


<참고하면 좋은 자료>

 

[DB기초] DataBase 개념 및 용어 설명

https://coding-factory.tistory.com/77

 

[DB기초] DBMS 개념과 종류 및 장단점 분석

https://coding-factory.tistory.com/78

 

 

 

 

반응형
반응형

 

1. 데이터의 정의

1. 데이터는 추론과 추정의 근거를 이루는 사실

2. 현실에서 관찰하거나 측정하여 수집한 사실

 

2. 데이터의 특징

그 자체로도 객관적 사실이라는 가치가 있으며, 다른 데이터와 연관된 분석을 통해 더 큰 가치를 가짐

 

3. 데이터 구분

1) 정량적 데이터 (Quantitative Data)

- 수치, 도형, 기호 등 바로 측정할 수 있는 데이터

   (ex. 150m, 1Kg, 10회, 남/여, 유/무, O/X 등등)

- 객관적이며, 통계 분석이 용이함

 

2) 정성적 데이터 (Qualitative Data)

- 문자로 이루어진 데이터

- 수치가 의미를 지닌 주관적 데이터이며, 통계 분석이 어려움

 

  정량적 데이터 정성적 데이터
유형 정형 데이터, 반정형 데이터 비정형 데이터
특징 숫자 혹은 명확히 규칙이 정의된 문자 문자
분석 분석 상대적으로 쉬움 분석이 어려움

 

3) 데이터의 유형

 

a. 정형 데이터(Structured Data)

- 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터 (연산 가능)

- 명확히 규칙이 정의된 문자

ex) 관계형 데이터베이스

 

b. 반정형 데이터(Semi-structured Data)

- 데이터의 형식과 구조가 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터 (연산 불가능)

ex) JSON, XML, RDF, HTML

 

c. 비정형 데이터(Unstructured Data)

- 구조가 정해지지 않은 대부분의 데이터 (연산 불가능)

- 규칙이 없어 값의 의미를 파악하기 힘든 데이터

ex) 동영상, 이미지, 음성, 댓글, 메일 등

 

4. 데이터의 근원에 따른 분류

데이터의 수집과정은 데이터의 재생산 과정으로 볼 수 있으며, 원본 데이터로부터 재생산된 데이터는 가역 데이터와 불가역 데이터로 구분

 

a. 가역 데이터

- 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터

- 이력 추적이 가능

- 원본 데이터가 변경되는 경우 변경사항을 반영할 수 있음

 

b. 불가역 데이터

- 생산된 데이터의 원본으로 환원이 불가능한 데이터

- 원본 데이터와는 전혀 다른 형태로 재생산

- 원본 데이터의 내용이 변경되었더라도 변경사항을 반영할 수 없음

 

  가역 데이터 불가역 데이터
환원성(추적성) 가능(비가공 데이터) 불가능(가공 데이터)
의존성 원본 데이터 그 자체 원본 데이터와 독립된 새 객체
원본과의 관계 1대1의 관계 1대N, N대1 또는 M대N의 관계

 

 

5. 데이터, 정보, 지식, 지혜의 관계

 

 

a. 데이터

현실 세계에서 관찰하거나 측정하여 수집한 객관적 사실

 

b. 정보

데이터를 가공, 처리하여 데이터 간 관계를 분석하고 그 속에서 도출된 의미

 

c. 지식

상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화한 고유의 결과물

 

d. 지혜

축척된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물

 


<참고하면 좋을만한 자료>

 

정형, 비정형, 반정형 데이터란?

https://needjarvis.tistory.com/502

 

[DB기초] 스키마란 무엇인가?

https://coding-factory.tistory.com/216

 

2021 빅데이터분석기사 필기 후기

https://dreamlog.tistory.com/600

 

 

반응형

'빅데이터' 카테고리의 다른 글

[#shorts] 빅데이터 개념 정리  (0) 2021.08.21
[#shorts] 데이터베이스(DB)와 DBMS란?  (0) 2021.08.18

+ Recent posts