안녕하세요, 왕초보 코린이를 위한 코딩유치원에 오신 것을 환영합니다.
<파이썬 데이터 분석 관련 글>
2021.04.12 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 1편. 데이터는 금이다 (feat.데이터 관련 직업 소개)
2021.04.13 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 2편. 데이터 분석을 위한 준비 (Jupyter Notebook 설치 및 사용법)
2021.04.14 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 3편. 데이터 분석 필수 패키지, 판다스! (feat. 10 minutes to pandas)
2021.04.15 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 4편. 데이터 분석을 위한 데이터 다운로드 받기 (feat.공공데이터포털)
2021.04.17 - [파이썬 패키지/데이터분석] - [파이썬 데이터 분석] 6편. 데이터 분석에서 결측치란? (feat. 주피터 노트북 Pandas 관련 함수)
오늘부터 몇 일간 시리즈로 데이터 분석에 대한 글을 포스팅 해보려합니다. 제가 파이썬을 공부하면서 데이터 분석 쪽으로 관심을 갖게 되었는데요. 아직 뭔가 제대로 할 줄 안다고 자신있게 말하기가 그래서 이번 시리즈 포스팅을 통해서 실력을 다져보려 합니다.
우선 데이터 분석에 대해서 본격적으로 다루기 전에 크게 두 가지 주제에 대해서 이야기 해볼까 합니다.
1) 데이터는 왜 중요한가
2) 데이터를 다루는 직업에는 무엇이 있을까
1) 데이터의 중요성
데이터는 한마디로 '관찰 혹은 관측을 통해 얻은 사실'이라고 할 수 있겠습니다. 우리는 이 사실들을 모아서 어떤 이론을 만들어내기도 하고, 사실들과 기존 이론들을 조합해서 유의미한 정보를 도출해내기도 합니다. 예를 들어, 일기예보는 각 지역의 기온, 바람, 습도 등의 수치를 측정해서 특정 시간에 어떤 날씨 상태를 보일지 예측합니다. 물론 기상청이 날씨를 예측 못 한다고 욕하시는 분도 있겠지만 실제로는 매년 90%가 넘는 정확도를 가진다고 하네요.
우리는 기상청의 노력 덕분에 오늘 저녁에 비가 올 것을 예상해서 아침에 우산을 들고 나감으로써, 비를 맞고 집으로 돌아오는 불쾌한 경험을 하지 않을 수 있습니다. 즉, 데이터를 통해 어떤 정보를 얻게 되고, 그 정보를 가지고 우산을 가지고 나간다는 의사결정을 할 수 있는 것입니다. 이렇게 데이터는 우리의 일상 뿐만 아니라 비지니스에서도 경영자 혹은 실무자들이 어떠한 의사결정을 하는 근거가 됩니다. 그리고 그것은 이익으로 돌아오죠.
2) 데이터의 폭발적인 증가
현시대는 놀라운 반도체 기술의 발전으로 예전에는 상상하지 못했던 데이터의 수집과 저장이 가능해 졌습니다. 그로 인해서 빅 데이터(Big Data)라는 용어가 나오게 되었죠. 아래 글의 제목에서 볼 수 있듯이, 세계에 축척된 모든 데이터의 90%는 2015년 이후에 생산된 것이라고 합니다. 현재도 데이터의 생산량은 기하급수적으로 늘어나고 있습니다.
말그대로 데이터의 홍수입니다. 데이터가 여기저기 넘쳐 흐르지만 아무 데이터나 막 주워다가 쓸 수는 없습니다. 데이터의 생명은 정확도이기 때문입니다. 저는 데이터의 가치와 정확성은 분석의 질에 달려 있다고 생각합니다. 마치 모래에서 사금을 채취하 듯, 수 많은 데이터를 거르고 걸러서 유의미한 정보를 얻어내는 기술은 앞으로 엄청난 가치로 평가 받을 것이라 믿습니다.
3) 데이터 관련 직업
그렇다면 이렇게 중요한 데이터와 관련된 직업은 무엇이 있을까요?
데이터 엔지니어
첫번째로는 데이터를 수집하는 역할인 '데이터 엔지니어'가 있습니다. 앞서 이야기 했 듯이 데이터의 홍수 속에서 어떤 의미있는 데이터를 수집할지, 수집한 데이터들을 다음에 소개할 '데이터 분석가'가 잘 요리할 수 있도록 손질하는 역할을 합니다. 그래서 이 분야는 컴퓨터 공학적 지식과 백엔드, 데이터베이스 쪽 지식을 필요로 한다고 합니다.
데이터 분석가
앞서 말씀드린 데이터 엔제니어가 손질해서 전달한 데이터를 원하는 목적 혹은 비지니스에 활용하기 위해 요리하는 역할입니다. 이 분야는 굳이 따지자면 공학보다는 인문학에 더 가까운 영역이라고 생각됩니다. 결국 의사결정을 위한 데이터 시각화 자료를 준비하거나, 관련자들을 설득할 커뮤니케이션 능력이 더욱 중요하기 때문입니다. 기존에는 컨설팅과 금융 업계에서 많이 활동해왔으며, 최근에는 마케팅 쪽에서도 데이터 분석가를 많이 뽑는 추세입니다.
데이터 과학자
데이터 과학자는 말그대로 과학자를 상상하시면 될 것 같습니다. 즉, 비지니스적인 느낌보다는 조금 더 학문적인 영역에 가까우며, 컴퓨터 공학, 수학, 통계학적 지식, 알고리즘, AI, 머신러닝, 딥러닝에 관한 지식이 필요합니다. 때문에 이 직무를 수행하기 위해서는 거의 석,박사 정도 수준의 지식이 필요합니다. 데이터 과학자란 데이터 분석을 위한 효율적인 도구를 만들어 주는 역할이라고 이해하시면 될 것 같습니다.
저는 위의 세 가지 직업 중, 데이터 분석가 쪽에 관심이 많이 갔습니다. 비전공자인 제가 실생활 혹은 투자에서 인사이트를 얻기 위해서는 실제 요리를 하는 분석가가 되어야 한다고 생각했기 때문입니다. 인터넷 상에는 데이터가 정말로 많습니다. 그래서 웹 크롤링에 관심을 가지게 되었죠. 그리고 나중에 소개드리겠지만 '공공데이터포털'이라는 정부에서 무료로 데이터를 제공하는 사이트도 있습니다.
그래서 저는 앞으로 이런 데이터들을 통해서 유의미한 정보를 얻어 낼 수 있도록 데이터 분석을 공부해나갈 예정입니다. 다음 시간에는 데이터 분석을 위한 개발환경과 데이터 분석 기초에 대해서 다루어 보겠습니다.