안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.
코딩유치원에서는 파이썬 기초부터 사무자동화, 웹크롤링, 데이터 분석 등의 다양한 패키지까지 초보자도 알기 쉽도록 내용을 정리해 놓았습니다.
업무는 물론 투자에도 도움이 될만한 전자공시시스템(DART)나 텔레그램(Telegram) 관련 패키지도 배울 수 있으니 많은 관심 부탁드립니다.
<seaborn 관련 글>
2021.08.08 - [파이썬 패키지/데이터시각화] - [Python/Seaborn] 데이터 시각화 라이브러리_1편. Seaborn 소개
오늘은 선형 회귀와 관련된 Regression plots에 대해서 공부해보겠습니다.
Regression plots
1) regplot
2) lmplot
3) residplot
1. regplot
- scatterplot와 lineplot을 합쳐놓은 그래프
- lineplot은 scatterplot의 경향성을 예측하는 쪽으로 그어짐
ax = sns.regplot(x = "total_bill", y = "tip", data = tips)
scatterplot을 그려보았습니다. 위의 regplot 그래프와 lineplot을 제외하고 동일한 것을 확인할 수 있습니다.
2. lmplot
- regplot의 상위호환 그래프
- 여러개의 그래프를 함께 그릴 수 있으며, hue 파라미터 설정 가능
- regplot은 잊고 lmplot만 사용하면 됨
ax = sns.lmplot(x = 'total_bill', y = 'tip', hue = 'smoker', data = tips)
총 금액과 팁간의 관계를 흡연여부에 따라 다르게 그려본 그래프입니다.
데이터 점들의 경향을 나타낸 선형 회귀선을 보았을 때, 비흡연자들이 비교적 팁을 많이 지불한 것으로 보입니다. (큰 총액에서 차이가 많음)
lmplot은 col이나 row 파라미터를 이용해서 여러개의 그래프를 그려줄 수 있다는 장점이 있습니다. col 파라미터를 사용하지 않은 위의 그래프보다 더 깔끔하게 그래프를 표현 할 수 있습니다.
ax = sns.lmplot(x = 'total_bill', y = 'tip', col='smoker', hue = 'smoker', data = tips)
3. residplot
- 회귀선을 기준으로 데이터들의 오차를 나타낸 그래프
- regplot의 회귀선을 x축에 평행하게 기울였다고 생각하면 됨
- 공식홈페이지에 예제도 없는 것을 보면 잘 안쓰는 그래프라 판단함
ax = sns.residplot(x = "total_bill", y = "tip", data = tips)
원래는 Matrix plots까지 함께 공부해보려 했으나, 글의 길이가 애매해 질 듯 하여 이번 시간에는 조금 짧지만 regression plots까지만 공부하고 마무리하였습니다.
오늘도 코딩 유치원을 찾아주신 여러분들께 감사드립니다.
<참고 자료>
https://seaborn.pydata.org/api.html#categorical-plots