파이썬으로 데이터 주무르기

⟪1년 안에 AI 빅데이터 전문가가 되는 법⟫ 이라는 책이 있습니다. 이 책에는 AI빅데이터 전문가기 되기 위해 필요한 기본기를 소개합니다. 그리고, 그 기본기를 익히기 위한 공부 방법을 소개합니다. 빅데이터 개념, 사례를 시작으로 데이터마이닝, 데이터 분석, 수리통계학, 딥러닝, 데이터베이스 등 두루두루 배워야 할 것이 많습니다.

이러한 내용을 처음 배울 때 가장 좋은 방법으로 유튜브를 소개하면 좋겠지만ㅜㅜ, 아쉽게도 책을 소개합니다. 책을 통해 기본기를 먼저 다질 필요가 있다고 합니다. 데이터 분석 관련 내용으로 이 책에서는 파이썬 책과 R책을 소개합니다. 그 중에 요즘 데이터 분석 언어로 파이썬이 가장 많이 사용된다고 하여 파이썬을 고릅니다. 배우기 위한 책은 단순이 읽어가기 보다는 예제가 있는 책이 더 좋습니다. 그렇게 책을 한 권 골랐습니다.

 


파이썬으로 데이터 주무르기 독특한 예제를 통해 배우는 데이터 분석 입문
민형기 저 | 비제이퍼블릭(BJ퍼블릭) | 2017년 12월 29일

 

책은 총 8개의 대표적인 분석 예제를 소개합니다. 분석 과정을 파이썬 라이브러리를 이용하여 단계별로 진행합니다. 판다스, 넘파이, 폴리엄, 뷰티플 솝, 셀레늄, 구글 맵스, KoNLPy 등을 배울 수 있습니다. 파이썬을 공부했지만 실제로 어디에 어떻게 쓸까를 고민하는 사람이라면 이러한 라이브러러리를 통해 파이썬 언어의 확장성을 느낄 수 있습니다. 하나하나 따라하다 보면 파이썬 문법에도 익숙해지는 것 같습니다.

책에서 소개하는 예제는 데이터 획득하는 것에서 부터 시작하여, 사회 현상에 대한 분석, 가설 검증, 결과에 대한 시각화, 시계열 데이터 분석, 자연어 처리까지 데이터 분석으로 할 수 있는 대부분의 사례를 다룹니다. 단, 입문서적이다 보니 그 깊이는 깊지 않습니다.

책 출간일이 2017년 12월 입니다. 빠르게 버전업 되는 언어다 보니 책을 지을 시점의 파이썬과 라이브러리 버전과 지금 시점의 최신 버전 간에 변경된 부분이 꽤 있습니다. 책에 오타도 많이 있습니다. 그렇다 보니 그냥 막연히 따라하다 보면 오류가 나는 경우도 많습니다. 하지만, 이러한 오류가 오히려 더 계속 알아가게 하는 동기부여가 됩니다. 변경된 부분과 틀린 부분은 찾아보고 수정해 가면 됩니다. 반면에 가격도 싸지 않은데 완성도가 떨어진다고 화를 내는 사람도 분명 있을 것 같습니다.

책의 저자는 민형기 입니다. 로봇부터 데이터 과학까지 다루는 블로그(http://pinkwink.kr)를 운영하고 있습니다. 데이터 과학과 머신러닝, 로봇을 주제로 다양한 연구 및 강연활동을 하고 있으며 패스트캠퍼스에서 강의도 하고 있습니다. 사실 이 책은 저자가 데이터 과학을 공부하면서 블로그에 내용을 정리하였고, 그 내용을 바탕으로 패스트캠퍼스에서 강의를 진행하고, 그 강의가 바탕이 되어 책이 만들어 졌다고 소개합니다. 현재는 패스트캠퍼스에서 머신러닝 및 인공지능, 로봇 강의로 만날 수 있다고 합니다.

일상생활에서 구할 수 있는 데이터를 가지고 데이터 분석이라는 뜨거운 주제를 가볍게 접할 수 있게 합니다. 데이터 분석가라는 타이틀이 꼭 대단한 업무를 하는 사람은 아니라는 것에 공감을 합니다.

요즘 데이터 분석이라고 하면 마케팅 분야에서만 언급되고, 또 그래서 데이터 분석가가 되는 조건 같은 인터넷에 떠도는 문서를 보면 마케팅을 모르면 데이터 분석을 하는 것이 의미가 없는 것처럼 표현되는 것이 안타깝습니다. 의견, 가설, 사실을 데이터로 표현하고 검증하는 것도 데이터 분석가가 하는 일입니다.169쪽

또 하나 데이터 분석을 통해 의견, 가설, 사실을 검증할 때는 목표를 명확히 해야 된다는 말도 하고 있습니다. 특정 의견을 이야기 하고, 그에 대한 검증에서는 그 검증을 뒷받침하는 방법을 찾는 것도 중요합니다.

이상호 한국고용정보원 연구원의 <한국의 지방소멸에 관한 7가지 분석>이라는 보고서에서 사용한 방법으로, 인구 소멸 지역의 정의를 65세 이상 노인 인구와 20~39세 여성 인구를 비교해서 젊은 여성 인구가 노인 인구의 절반에 미달할 경우 인구 수멸 위험 지역으로 분류하는 방법입니다.201쪽

이렇게 예제만을 따라하기 보다는 데이터 분석 관련하여 알아야 할 부분들도 소개를 하면서 환기를 시켜줍니다. 정답을 찾아가기 보다 왜 그렇게 정의를 하고, 그래서 어떤 결과가 나오게 하는 과정이 중요한 것 같습니다.

저 같은 경우 한주에 한 예제씩 따라해보겠다고 계획을 세워 진행하였습니다. 프로그래밍 책에서 매번 필요한 부분만 찾아 따라해보는 것을 넘어 이 책은 책에 나오는 코딩을 모두 따라 해 봤습니다. 즉, 책에 나온 모든 코딩을 모두 하나도 빼놓지 않고 입력해 본 몇 안되는 책 중의 하나가 되었습니다. 재미를 느꼈는지 이 책 후속으로 비슷한 류의 책을 또 골라 듭니다.

⟪이것이 데이터 분석이다⟫ 라는 책입니다. 그나마 이 책은 가장 최신에 나온 책입니다. 버전 차이에서 오는 차이로 인해 실행이 안되는 경우가 적기를 기대해 봅니다. 이 책의 저자도 패스트 캠퍼스에서 강의를 하고, 그 강의가 책으로 이어진 것으로 알고 있습니다.

데이터 분석, 이곳 저곳에서 쉽게 접할 수 있습니다. 시작 자체는 어렵지 않다고 하니 많은 사람들이 시도해 봤으면 합니다. 제가 생각하는 학습방법, 유튜브 보다는 책이 먼저 입니다.

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.