반응형

안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.

 

<데이터 분석 관련 글>

 

2021.04.12 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개)

2021.04.13 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법)

2021.04.14 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 3편. 데이터 분석 필수 패키지, 판다스! (feat. 10 minutes to pandas)

2021.04.15 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털)

2021.04.16 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 5편. Jupyter Notebook으로 데이터 파일 불러오기 (꿀팁. Tap과 Tap+Shift 사용법은 꼭 알아두세요!!)

2021.04.17 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수)

 

 

이번 시간에는 국가에서 운영하는 공공데이터포털에 대해 소개하고, 우리가 다음 시간에 예제로 다룰 데이터를 다운받아보겠습니다.

 


공공데이터포털

공공데이터포털은 공공기관이 생성 또는 취득하여 관리하고 있는 공공데이터를 한 곳에서 제공하는 통합 창구입니다. 국민들이 쉽고 편리하게 공공데이터를 이용할 수 있도록 파일데이터, 오픈API 등을 제공하고 있습니다. 개인적으로 데이터 분석을 다양하게 연습해볼 수 있게 해주는 꿀 같은 사이트가 아닌가 싶습니다.

 


사이트 주소

 

www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr


다양한 데이터 카테고리

 


공공데이터포털에서 데이터 받기

 

추후 예제로 사용할 '상가(상권)정보_의료기관_201909' 파일을 다운 받아 보겠습니다. 공공데이터포털에 들어가서 바로 검색을 하셔도 되지만, 추후 데이터들을 살펴보고 스스로 데이터를 다운로드 받을 수 있는 능력을 기르기 위해 차례대로 데이터를 찾아가 보겠습니다.

 

먼저, 검색창 아래를 보시면 카테고리별, 국가중점데이터별, 제공기관유형별로 데이터를 대분류해 놓았고, 그걸 클릭하시면 중분류 카테고리들이 나옵니다. 저희는 국가중점데이터별 - 상권정보를 클릭하도록 하겠습니다.

 

 

상권정보에 대한 간략한 설명이 나옵니다. 바로 '공공데이터 보기' 버튼을 클릭하시면 되겠습니다.

 

 

그러면 검색결과가 쭉 나오는데요. 가장 상단에 위치하는 '소상공인시장진흥공단_상가(상권)정보'를 클릭해줍니다.

 

 

아래와 같이 자료들에 대한 표가 나오며, 자료를 다운받기 위해서는 우측 하단에 존재하는 더보기 버튼을 누르시면 됩니다. 누른 후에 쭉 스크롤을 내린 후에 '상가(상권)정보_의료기관_201909'를 클릭해주세요.

 

 

 

클릭하면 이런 팝업창이 뜨는데, 다운로드 버튼을 눌러주시면 자료가 내려받아집니다. 위치는 다운로드 폴더에 다운 받아집니다.

 

 

다운로드가 완료되면 zip 파일의 압축을 해제한 후, csv파일을 활용하시면 됩니다. 참고로 csv 확장자는 comma separated value의 약자로 직역하면 '콤마로 구분된 값'입니다. 이 형식은 excel에서도 열 수 있으며, 아마 그냥 여시면 한글이 다 깨져서 보이실 겁니다. 이 자료를 어떻게 불러오고 사용하는지는 아래에서 설명드리겠습니다.


다음 시간엔 오늘 받은 데이터를 Jupyter Notebook에서 불러와서 사용하는 방법에 대해서 자세히 다루어보겠습니다.

반응형
반응형

안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.

 

<데이터 분석 관련 글>

 

2021.04.12 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개)

2021.04.13 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법)

2021.04.14 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 3편. 데이터 분석 필수 패키지, 판다스! (feat. 10 minutes to pandas)

2021.04.15 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털)

2021.04.16 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 5편. Jupyter Notebook으로 데이터 파일 불러오기 (꿀팁. Tap과 Tap+Shift 사용법은 꼭 알아두세요!!)

2021.04.17 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수)

 


 

지난 시간에 데이터 분석을 시작하기 위해서 IDE(Integrated Development Environment)로 Jupyter Notebook을 설치하고 사용법에 대해서 간단히 알아보았습니다. 이번 시간에는 파이썬 데이터 분석 관련 패키지 중 가장 기본인 Pandas 패키지에 대해서 알아보겠습니다. 

 


pandas란?

우선 pandas란 엑셀처럼 테이블(표)로 된 데이터를 다룰 때 아주 유용한 도구입니다. 판다스는 데이터 분석용 언어인 R의 data.frame 구조를 본뜬 DataFrame이라는 구조를 사용하기 때문에, R의 data.frame의 기능들을 대부분 사용할 수 있도록 만들어졌습니다.

 

사실 데이터 분석은 엑셀로도 가능합니다. 하지만 데이터 분석하면 파이썬과 판다스가 무조건 언급되는 이유는 속도에 있습니다. 잘 아시겠지만 엑셀은 데이터가 많아지면 파일을 여는데만 해도 엄청 버벅일 뿐만 아니라 행의 갯수도 한계가 있습니다.. 그래서 빅데이터의 영역에서는 비전공자도 배우기 쉬운 언어인 파이썬과 그 패키지인 판다스가 절대적이라고 할 수 있습니다.

 

판다스의 기능

 

- 엑셀로 할 수 있는 모든 것

- excel 파일, DB파일, pdf 읽기 등

- 크롤링 (웹 정보 수집)

- Database 핸들링

- 시각화

 


pandas 공부 자료

판다스를 쭉 정리할까 하다가 그냥 공부 자료만 공유드리고, 다음 시간부터 바로 데이터 분석 실전으로 넘어가려합니다.

 

1. 10 Minutes to Pandas 

판다스 공식 홈페이지에 들어가면 '10 minutes to pandas'라는 이름의 문서가 존재합니다. 아마도 10분만에 스크롤을 쭉쭉 내리면서 보면 다 이해할 수 있다는 의미일까요? 하지만 코드만 이해하기도 벅찬 저 같은 사람에겐 영어로 작성된 문서는 고통입니다. 그래서 감사하게도 데잇걸즈2라는 SW여성인재 빅데이터 분석 교육과정 교육생들이 번역을 해주셨습니다. 이 글을 통해 감사하단 말씀 전합니다.

 

dataitgirls2.github.io/10minutes2pandas/

 

판다스 10분 완성 / 10 Minutes to Pandas

Pandas 10분 완성 역자 주 : 본 자료는 10 Minutes to Pandas (하단 원문 링크 참조)의 한글 번역 자료로, 번역은 데잇걸즈2 프로그램 교육생 모두가 함께 진행하였습니다. 데잇걸즈2는 과학기술정보통신

dataitgirls2.github.io

 

2.  [키보드 치는 남자] Pandas 기초 정리 시리즈

제가 구독하고 있는 티스토리 블로그인 '투손 플레이스'에 판다스 기초가 이해하기 쉽게 잘 정리되어 있어 소개드립니다. 판다스 외에도 엑셀 다루는 법도 있으니 다른 글도 보시는 걸 추천드립니다.

 

1편 : 2021.03.31 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Series, Dataframe 개념 정리

2편 : 2021.04.01 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : 엑셀 파일(.xlsx) Dataframe으로 만들기

3편 : 2021.04.03 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 내부 데이터 조회 방법

4편 : 2021.04.05 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 행, 열 추가 방법

5편 : 2021.04.11 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 행, 열 삭제하기(drop 함수)

6편 : 2021.04.13 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : 원소바꾸기, dropna(), fillna()

 

 

3. Pandas Cheat Sheet

그리고 판다스를 한 눈에 파악할 수 있도록 2장의 시트로 예쁘게 정리해놓은 자료가 있어서, 이것도 참고하시면 좋을 것 같습니다. 

 

< pdf 파일 링크>

pandas.pydata.org/Pandas_Cheat_Sheet.pdf

 

 


다음 시간부터는 네이버 boostcourse의 '파이썬으로 시작하는 데이터 사이언스' 강의를 따라서 서울 종합병원 분포 데이터를 다루며 데이터 분석의 기초를 다져보겠습니다.

반응형
반응형

안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.

 

<파이썬 데이터 분석 관련 글>

 

2021.04.12 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개)

2021.04.13 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법)

2021.04.14 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 3편. 데이터 분석 필수 패키지, 판다스! (feat. 10 minutes to pandas)

2021.04.15 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털)

2021.04.16 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 5편. Jupyter Notebook으로 데이터 파일 불러오기 (꿀팁. Tap과 Tap+Shift 사용법은 꼭 알아두세요!!)

2021.04.17 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수)


 

오늘은 본격적으로 데이터 분석을 배워보기 전에 개발환경을 설치해봅시다.

 

아마 예전에 저와 함께 아나콘다를 설치하신분들은 Anaconda Navigator를 실행하시면 아래와 같이 Jupyter Notebook이 깔려있으실텐데요. 앞으로 데이터 분석에는 이 쥬피터 노트북을 사용할 예정입니다. 만약 아나콘다 설치가 안되어 있으시다면 아나콘다를 설치해주세요.

 

2021.03.02 - [파이썬 기초/개발환경 구축] - [코딩유치원] 파이썬 개발환경 구축 1편 (파이썬 VS 아나콘다)

 

ANACONDA NAVIGATOR 기본화면

 

왜 예전에 설치했던 VS CODE를 사용하지 않는지 궁금해하실 수도 있다고 생각합니다. 그 이유는 아래 주피터 노트북에 대한 설명으로 대신하겠습니다. 참고로, GOOGLE에서 만든 Colab이라는 웹 기반 IDE도 있으며, 주피터 노트북과 아주 비슷합니다.


Jupyter Notebook

아래의 장점으로 인해 주로 데이터 사이언스에 많이 활용됨

 

장점

 

1. 코드를 블록 단위로 쪼개어 작성, 실행하여 결과를 바로바로 확인 가능

2. 시각화 라이브러리를 이용해 표와 그래프를 즉시 확인 가능

 

단점

 

1. 디버깅 기능이 없음

2. 웹 기반이므로 항상 모든 코드를 처음부터 실행해야 함

3. ipynb라는 전용 확장자를 사용해서 다른 프로그램에서 사용하기가 어려움 (VS Code에서는 되는 것 확인)


자, 지금부터는 주피터 노트북 사용법을 알아보겠습니다.

 

주피터 노트북 실행

주피터 노트북을 실행하는 방법은 2가지입니다.

 

1) Anaconda Navigator를 실행한 후, Jupyter Notebook을 클릭한다.

2) cmd 창에서 jupyter notebook이라고 입력한다.

 

실행하시면 웹 브라우저(크롬)에 아래와 같은 화면이 나옵니다.

 

쥬피터 노트북 실행 초기화면

 

새 파이썬 파일 생성

 

주피터 노트북에서 파이썬을 이용해서 데이터 분석을 하려면 아래와 같이 새로운 파이썬 파일을 생성해야합니다.

 

New - Python 3 차례대로 클릭

 

그러면 아래와 같이 새로운 창이 생성되면서 Jupyter Notebook으로 파이썬을 코딩가능합니다. 간단히 hello jupyter를 출력하는 코드를 입력하고 실행해 보았습니다. 자세히 보시면 In [1]:이 적힌 줄이 실행 코드이고, 바로 아래 코드 실행 결과가 표시되는 것을 볼 수 있습니다.

 

 

자주 사용할 것 같은 단축키

 

단축키 기능
Shift+Enter 선택한 셀 실행 후, 다음 셀 선택 (셀이 없으면 생성)
Ctrl+Enter 선택한 셀 모두 실행 (맥북은 Command + Enter도 됨)
A 위에 셀 추가
B 아래에 셀 추가
X 잘라내기
C 복사하기
V 붙여넣기
Z 지운 셀 되돌리기
DD 선택한 셀 삭제
H 단축키 설명창 열기

 

반응형
반응형

안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.

 

<파이썬 데이터 분석 관련 글>

 

2021.04.12 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개)

2021.04.13 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법)

2021.04.14 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 3편. 데이터 분석 필수 패키지, 판다스! (feat. 10 minutes to pandas)

2021.04.15 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털)

2021.04.16 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 5편. Jupyter Notebook으로 데이터 파일 불러오기 (꿀팁. Tap과 Tap+Shift 사용법은 꼭 알아두세요!!)

2021.04.17 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수)


 

오늘부터 몇 일간 시리즈로 데이터 분석에 대한 글을 포스팅 해보려합니다. 제가 파이썬을 공부하면서 데이터 분석 쪽으로 관심을 갖게 되었는데요. 아직 뭔가 제대로 할 줄 안다고 자신있게 말하기가 그래서 이번 시리즈 포스팅을 통해서 실력을 다져보려 합니다.

 

우선 데이터 분석에 대해서 본격적으로 다루기 전에 크게 두 가지 주제에 대해서 이야기 해볼까 합니다.

 

1) 데이터는 왜 중요한가

2) 데이터를 다루는 직업에는 무엇이 있을까

 


1) 데이터의 중요성

 

데이터는 한마디로 '관찰 혹은 관측을 통해 얻은 사실'이라고 할 수 있겠습니다. 우리는 이 사실들을 모아서 어떤 이론을 만들어내기도 하고, 사실들과 기존 이론들을 조합해서 유의미한 정보를 도출해내기도 합니다. 예를 들어, 일기예보는 각 지역의 기온, 바람, 습도 등의 수치를 측정해서 특정 시간에 어떤 날씨 상태를 보일지 예측합니다. 물론 기상청이 날씨를 예측 못 한다고 욕하시는 분도 있겠지만 실제로는 매년 90%가 넘는 정확도를 가진다고 하네요.

 

brunch.co.kr/@bestbell/102

 

10화 기상청의 일기예보 정확도는 왜 이렇게 높을까?

장기 예보와 단기 예보 | 2017년 기상청 일기예보의 정확도는 92 %였다고 합니다. 매우 높은 수치라고 생각할 수 있지만 매년 기상청의 일기예보 정확도는 90 %에서 크게 벗어나지 않습니다. 기상청

brunch.co.kr

 

우리는 기상청의 노력 덕분에 오늘 저녁에 비가 올 것을 예상해서 아침에 우산을 들고 나감으로써, 비를 맞고 집으로 돌아오는 불쾌한 경험을 하지 않을 수 있습니다. 즉, 데이터를 통해 어떤 정보를 얻게 되고, 그 정보를 가지고 우산을 가지고 나간다는 의사결정을 할 수 있는 것입니다. 이렇게 데이터는 우리의 일상 뿐만 아니라 비지니스에서도 경영자 혹은 실무자들이 어떠한 의사결정을 하는 근거가 됩니다. 그리고 그것은 이익으로 돌아오죠.

 


2) 데이터의 폭발적인 증가

 

현시대는 놀라운 반도체 기술의 발전으로 예전에는 상상하지 못했던 데이터의 수집과 저장이 가능해 졌습니다. 그로 인해서 빅 데이터(Big Data)라는 용어가 나오게 되었죠. 아래 글의 제목에서 볼 수 있듯이, 세계에 축척된 모든 데이터의 90%는 2015년 이후에 생산된 것이라고 합니다. 현재도 데이터의 생산량은 기하급수적으로 늘어나고 있습니다.

 

m.blog.naver.com/PostView.nhn?blogId=mage7th&logNo=221688397462&proxyReferer=https:%2F%2Fwww.google.co.kr%2F

 

[ 빅데이터 ] 세계에 축적된 모든 데이터 90%는 2015년이후 생산된 것, 2025년까지 170ZB 생성

​4차 산업혁명을 성공적으로 이루기 위해 기본적으로 풀어야 할 문제는 데이터 분석과 통신 기능이다. 우...

blog.naver.com

 

말그대로 데이터의 홍수입니다. 데이터가 여기저기 넘쳐 흐르지만 아무 데이터나 막 주워다가 쓸 수는 없습니다. 데이터의 생명은 정확도이기 때문입니다. 저는 데이터의 가치와 정확성은 분석의 질에 달려 있다고 생각합니다. 마치 모래에서 사금을 채취하 듯, 수 많은 데이터를 거르고 걸러서 유의미한 정보를 얻어내는 기술은 앞으로 엄청난 가치로 평가 받을 것이라 믿습니다.

 


3) 데이터 관련 직업

 

그렇다면 이렇게 중요한 데이터와 관련된 직업은 무엇이 있을까요?

 

데이터 엔지니어

 

잘 손질된 요리 재료들

 

첫번째로는 데이터를 수집하는 역할인 '데이터 엔지니어'가 있습니다. 앞서 이야기 했 듯이 데이터의 홍수 속에서 어떤 의미있는 데이터를 수집할지, 수집한 데이터들을 다음에 소개할 '데이터 분석가'가 잘 요리할 수 있도록 손질하는 역할을 합니다. 그래서 이 분야는 컴퓨터 공학적 지식과 백엔드, 데이터베이스 쪽 지식을 필요로 한다고 합니다.

 

데이터 분석가

 

손질 된 재료로 요리한 맛있는 음식

 

앞서 말씀드린 데이터 엔제니어가 손질해서 전달한 데이터를 원하는 목적 혹은 비지니스에 활용하기 위해 요리하는 역할입니다. 이 분야는 굳이 따지자면 공학보다는 인문학에 더 가까운 영역이라고 생각됩니다. 결국 의사결정을 위한 데이터 시각화 자료를 준비하거나, 관련자들을 설득할 커뮤니케이션 능력이 더욱 중요하기 때문입니다. 기존에는 컨설팅과 금융 업계에서 많이 활동해왔으며, 최근에는 마케팅 쪽에서도 데이터 분석가를 많이 뽑는 추세입니다.

 

 

데이터 과학자

 

요리를 위한 도구들


데이터 과학자는 말그대로 과학자를 상상하시면 될 것 같습니다. 즉, 비지니스적인 느낌보다는 조금 더 학문적인 영역에 가까우며, 컴퓨터 공학, 수학, 통계학적 지식, 알고리즘, AI, 머신러닝, 딥러닝에 관한 지식이 필요합니다. 때문에 이 직무를 수행하기 위해서는 거의 석,박사 정도 수준의 지식이 필요합니다. 데이터 과학자란 데이터 분석을 위한 효율적인 도구를 만들어 주는 역할이라고 이해하시면 될 것 같습니다.

 


 

저는 위의 세 가지 직업 중, 데이터 분석가 쪽에 관심이 많이 갔습니다. 비전공자인 제가 실생활 혹은 투자에서 인사이트를 얻기 위해서는 실제 요리를 하는 분석가가 되어야 한다고 생각했기 때문입니다. 인터넷 상에는 데이터가 정말로 많습니다. 그래서 웹 크롤링에 관심을 가지게 되었죠. 그리고 나중에 소개드리겠지만 '공공데이터포털'이라는 정부에서 무료로 데이터를 제공하는 사이트도 있습니다.

 

그래서 저는 앞으로 이런 데이터들을 통해서 유의미한 정보를 얻어 낼 수 있도록 데이터 분석을 공부해나갈 예정입니다. 다음 시간에는 데이터 분석을 위한 개발환경과 데이터 분석 기초에 대해서 다루어 보겠습니다.

 

반응형

+ Recent posts