반응형

안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.

 

코딩유치원에서는 파이썬 기초부터 사무자동화, 웹크롤링, 데이터 분석 등의 다양한 패키지까지 초보자도 알기 쉽도록 내용을 정리해 놓았습니다.

 

업무는 물론 투자에도 도움이 될만한 전자공시시스템(DART)나 텔레그램(Telegram) 관련 패키지도 배울 수 있으니 많은 관심 부탁드립니다.

 

<데이터 분석 관련 글>

 

2021.04.12 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개)

2021.04.13 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법)

2021.04.14 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 3편. 데이터 분석 필수 패키지, 판다스! (feat. 10 minutes to pandas)

2021.04.15 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털)

2021.04.16 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 5편. Jupyter Notebook으로 데이터 파일 불러오기 (꿀팁. Tap과 Tap+Shift 사용법은 꼭 알아두세요!!)

2021.04.17 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수)

 

<VSCode에서 주피터 노트북 사용하는 법>

 

2021.06.26 - [파이썬 기초/개발환경 구축] - [Python/VSCode] 파이썬 개발환경 구축 5편_VSCode에서 Jupyter notebook 사용하는 법

 

이번 시간에는 지난 시간 공공데이터포털에서 받은 csv 형식의 데이터를 주피터 노트북으로 불러와서 사용하는 방법에 대해 알아보겠습니다.

 


Jupyter notebook에서 자료 불러오기

 

우선 cmd를 켜고, jupyter notebook을 입력해서 주피터 노트북을 실행시켜줍니다. cmd 창을 켜면 가장 기본 경로 (저의 경우엔 사용자 폴더)를 기준으로 주피터 노트북이 실행됩니다.

 

 

우측 상단의 New를 클릭하시고 Folder를 클릭하시면 Untitled Folder가 생성됩니다.

 

 

폴더의 왼쪽 사각형을 체크하면 좌측 상단에 Rename이 나타납니다. 이걸 클릭하면 팝업창이 나와서 폴더명을 변경하실 수 있습니다.

혹시 한글이름을 인식 못할 수도 있으니, 적당한 영어이름을 지어주도록 합시다. 저는 data_coding이라고 지어보겠습니다.

 

 

새로 생성한 폴더를 클릭해서 들어간 후, 새로운 python3 파일을 생성해줍니다. 생성하면 새로운 탭이 생기면서 이런 화면이 뜨는데 빨간색 사각형 부분을 클릭해서 원하는 파일명으로 변경해줍니다.

 

다시 이전 탭으로 와서 보면 파이썬 파일명이 변경된 것을 보실 수 있습니다. 여기에 아까 받았던 csv 파일을 드래그해서 올려놓으면 용량이 큰데도 업로드 할거냐고 물어보는데 ok를 누르시면 됩니다. 여기서 끝이아니라 다음에 Upload 버튼을 눌러주어야 업로드가 마무리 됩니다.

 

 

업로드가 완료되면 파이썬 파일로 들어가서 코딩을 시작해보겠습니다. 차례대로 한줄씩 코딩하고 실행해보세요.

 

참고로 Shift+Enter를 누르면 현재 셀이 실행되고, 다음 셀이 생성됩니다.

 

import Pandas

 

첫번째는 pandas 패키지를 불러오는 단계입니다.

- %ls: 현재 주피터 노트북이 실행된 경로(폴더)에 있는 파일 목록을 불러옴

- import pandas as pd: pandas 패키지를 pd라는 이름으로 import

 

read_csv( )

 

두번째는 pd.read_csv()함수로 csv 파일을 불러오는 단계입니다.

 

아래 그림과 같이 쌍따옴표 사이에 우리가 다운받았던 csv 파일을 입력해주시면 됩니다.

%ls를 통해서 출력했던 파일명을 복사 붙여넣기 하시면 편해요.

 

위와 같이 쭉 데이터 프레임이 나올텐데요. 자료는 나오지만 상단에 붉은 색 표시로 경고 문구가 나옵니다. 이 경고 문구를 조금 더 자세히 살펴 보겠습니다.

DtypeWarning: Columns (35) have mixed types.Specify dtype option on import or set low_memory=False.
  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,

 

우선 경고 문구의 제목은 DtypeWarnig입니다. 파이썬님이 데이터 타입이 마음에 안든다고 하시네요. have mixed types라는 말에서 뭔가 데이터 타입이 섞여있다는 말인 것 같습니다. 결론적으로 low_memory=False로 set하라고 친절하게 알려주네요. 

 

시키는대로 따라해보니 경고 문구가 사라진 것을 확인 하실 수 있습니다.

 

여기서 알려드릴 꿀팁은 Tab과 Shift+Tap의 기능입니다.

 

Tap

1. 패키지, 함수 참조 및 자동완성

2. 기존 변수 참조 및 자동완성

 

코딩 중간에 Tab를 사용하면 다음에 입력 가능한 코드들이 출력됩니다. 아래의 그림은 pd. 까지 입력한 후 탭을 눌렀을 때의 상태입니다. 만약에 처음 사용하는 패키지에 대해서 잘 모를 때 '패키지명.'을 입력하고 탭을 눌러보시는 건 어떨까요? 예를 들어서 pd.r 혹은 pd.read까지 입력하신 후 탭을 누르시면 read 관련 함수들이 쭉 나오니깐 한 번 확인해보세요.

 

Shift+Tap

이 명령어는 커서가 위치한 코드에 사용된 함수에 대해서 자세히 설명해줍니다. 누구나 처음보는 함수는 '이게 무슨 함수인지', '어떤 인자를 입력받는지' 전혀 모를 수 밖에 없습니다. 그럴 땐 Shift+Tap을 살포시 눌러주세요. 그럼 친절하게 설명이 나올거에요. 모든 설명은 당연히(?) 영어로 나옵니다. 이래서 부모님이 영어를 열심히 하라고 하셨나봅니다...하지만 우리에게는 구글 번역이 있으니 너무 상심하지 맙시다!

 

 

 

마지막으로 이번 데이터에서는 인코딩 문제가 발생하지 않았지만, 아래의 경우처럼 UnicodeDecodeError라고 출력되는 경우가 있습니다.

이 경우는 한글 파일을 인코딩 못해서 생기는 문제로, 위에서 low_memory=False를 입력한 것과 같은 방식으로, encoding="cp949"를 입력해주시면 파일이 정상적으로 불러와집니다.

 


<참고하면 도움되는 글>

 

2021.06.26 - [파이썬 기초/개발환경 구축] - [Python/VSCode] 파이썬 개발환경 구축 5편_VSCode에서 Jupyter notebook 사용하는 법

 

[Python/VSCode] 파이썬 개발환경 구축 5편_VSCode에서 Jupyter notebook 사용하는 법

안녕하세요, 코린이를 위한 코딩 유치원에 오신 것을 환영합니다. 이번 시간에는 제목처럼 VSCode에서 Jupyter Notebook 사용하는 법 저희 코딩유치원에서 주로 사용하는 IDE는 VSCode입니다. 아래와 같

coding-kindergarten.tistory.com

 

반응형

+ Recent posts