안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.
<데이터 분석 관련 글>
2021.04.12 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개)
2021.04.13 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법)
2021.04.14 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 3편. 데이터 분석 필수 패키지, 판다스! (feat. 10 minutes to pandas)
2021.04.15 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털)
2021.04.17 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수)
지난 시간에 데이터 분석을 시작하기 위해서 IDE(Integrated Development Environment)로 Jupyter Notebook을 설치하고 사용법에 대해서 간단히 알아보았습니다. 이번 시간에는 파이썬 데이터 분석 관련 패키지 중 가장 기본인 Pandas 패키지에 대해서 알아보겠습니다.
pandas란?
우선 pandas란 엑셀처럼 테이블(표)로 된 데이터를 다룰 때 아주 유용한 도구입니다. 판다스는 데이터 분석용 언어인 R의 data.frame 구조를 본뜬 DataFrame이라는 구조를 사용하기 때문에, R의 data.frame의 기능들을 대부분 사용할 수 있도록 만들어졌습니다.
사실 데이터 분석은 엑셀로도 가능합니다. 하지만 데이터 분석하면 파이썬과 판다스가 무조건 언급되는 이유는 속도에 있습니다. 잘 아시겠지만 엑셀은 데이터가 많아지면 파일을 여는데만 해도 엄청 버벅일 뿐만 아니라 행의 갯수도 한계가 있습니다.. 그래서 빅데이터의 영역에서는 비전공자도 배우기 쉬운 언어인 파이썬과 그 패키지인 판다스가 절대적이라고 할 수 있습니다.
판다스의 기능
- 엑셀로 할 수 있는 모든 것
- excel 파일, DB파일, pdf 읽기 등
- 크롤링 (웹 정보 수집)
- Database 핸들링
- 시각화
pandas 공부 자료
판다스를 쭉 정리할까 하다가 그냥 공부 자료만 공유드리고, 다음 시간부터 바로 데이터 분석 실전으로 넘어가려합니다.
1. 10 Minutes to Pandas
판다스 공식 홈페이지에 들어가면 '10 minutes to pandas'라는 이름의 문서가 존재합니다. 아마도 10분만에 스크롤을 쭉쭉 내리면서 보면 다 이해할 수 있다는 의미일까요? 하지만 코드만 이해하기도 벅찬 저 같은 사람에겐 영어로 작성된 문서는 고통입니다. 그래서 감사하게도 데잇걸즈2라는 SW여성인재 빅데이터 분석 교육과정 교육생들이 번역을 해주셨습니다. 이 글을 통해 감사하단 말씀 전합니다.
dataitgirls2.github.io/10minutes2pandas/
2. [키보드 치는 남자] Pandas 기초 정리 시리즈
제가 구독하고 있는 티스토리 블로그인 '투손 플레이스'에 판다스 기초가 이해하기 쉽게 잘 정리되어 있어 소개드립니다. 판다스 외에도 엑셀 다루는 법도 있으니 다른 글도 보시는 걸 추천드립니다.
1편 : 2021.03.31 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Series, Dataframe 개념 정리
2편 : 2021.04.01 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : 엑셀 파일(.xlsx) Dataframe으로 만들기
3편 : 2021.04.03 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 내부 데이터 조회 방법
4편 : 2021.04.05 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 행, 열 추가 방법
5편 : 2021.04.11 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : Dataframe 행, 열 삭제하기(drop 함수)
6편 : 2021.04.13 - [코딩/Python] - [Python/파이썬] Pandas 기초 정리 : 원소바꾸기, dropna(), fillna()
3. Pandas Cheat Sheet
그리고 판다스를 한 눈에 파악할 수 있도록 2장의 시트로 예쁘게 정리해놓은 자료가 있어서, 이것도 참고하시면 좋을 것 같습니다.
< pdf 파일 링크>
pandas.pydata.org/Pandas_Cheat_Sheet.pdf
다음 시간부터는 네이버 boostcourse의 '파이썬으로 시작하는 데이터 사이언스' 강의를 따라서 서울 종합병원 분포 데이터를 다루며 데이터 분석의 기초를 다져보겠습니다.
'파이썬 패키지 > 데이터분석' 카테고리의 다른 글
[파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수) (0) | 2021.04.17 |
---|---|
[파이썬 데이터 분석] 5편. Jupyter Notebook으로 데이터 파일 불러오기 (꿀팁. Tap과 Tap+Shift 사용법은 꼭 알아두세요!!) (1) | 2021.04.16 |
[파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털) (0) | 2021.04.15 |
[파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법) (0) | 2021.04.13 |
[파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개) (1) | 2021.04.12 |