MS 본사 데이터 과학자가 알려주는 헬로 데이터 과학 : 삶과 업무를 바꾸는 생활 데이터 활용법

“남보다 앞서 나가는 비밀은 지금 당장 시작하는 것이다.”
– 마크 트웨인

 

빅데이터, 머신러닝, 인공지능…

IT를 직업으로 하고 있어서 Trend를 쫒아가기 위해 아마추어 적인 관심으로 시작한 것이 이제는 무언가 부담으로 다가오는 수준이 된 것 같습니다.

기타를 배울 때 처음에는 코드만 알면 왠만한 노래는 코드를 보고 반주를 할 수 있습니다. 하지만, 조금 더 빠져들게 되면 음악적 이론을 알고 싶어지고 기초가 필요하다는 것을 느끼게 됩니다. 사진을 배울 때도 관심이 더해질 수록 기계와는 상관없는 구도와 같은 기본을 알고 싶어지기는 마찬가지인 듯 합니다. 단단하게 다져진 기반 위에는 어떤 것도 올려놓을 수 있지만, 기반이 되는 주춧돌이 부실하면 아무리 크고 멋진 건물이라도 결국 무너져 내린다는 말이 있습니다. 어떤 분야든 전문가라는 소리를 듣기 위해서는 기초를 다지는 과정이 필요하지만 지루하고 견디기 힘들어서 그냥 아마추어로 살고 있는지 모르겠습니다.

아직 아마추어로 살고 싶지만, 그래도 관심을 조금 더 가져보다는 마음에 입문서들을 찾아보고 있습니다.

 

MS 본사 데이터 과학자가 알려주는 헬로 데이터 과학 : 삶과 업무를 바꾸는 생활 데이터 활용법
김진영 저 | 한빛미디어

 

이 책은 ‘데이터 과학’ 입문서입니다.

스몰데이터로 시작하고, 단순한 도구와 기술을 사용하여 데이터에 효과적인 접근을 할 수 있도록 여러가지 생활 속 사례를 설명하고, 엑셀로 실습할 수 있는 예제가 있습니다.

<Chapter 1 데이터 과학 입문> 에서 필자는 우선 기술로서의 데이터 과학보다 사고방식으로서의 데이터 과학을 강조하고 있습니다. 데이터 과학의 구체적인 기술을 습득하는데 초점을 맞추기 이전에, 데이터 기반으로 사고하는 방법을 익혀야 한다는 것입니다. ‘데이터화’할 수 있는 현상에 항상 관심을 두고 이를 사용해 개선할 수 있도록 지속적으로 고민하는 과정이라고 하며 수집, 분석, 실천, 공유마인드 같은 데이트 습관을 길러라고 이야기합니다.

<Chapter 2 데이터 과학에 유용한 도구> 는 문제 해결 단계에 맞는 도구들에 대해 설명을 하고 있습니다. 간단한 도구로 시작하여 복잡한 도구로 옮겨가고, 분석 초반에 최대한 데이터 크기를 줄이는 두 가지 원칙을 강조하고 있습니다.

<Chapter 3 문제 정의와 데이터 수집 및 준비> 에서는 문제 정의, 데이터 정의, 연구 질문 및 가설 정의의 과정이 필요한 이유를 설명합니다. 데이터 과학의 각 프로세스마다 수많은 의사결정을 내리게 되는데, 주어진 문제의 목표, 범위와 제약 조건을 정확히 이해하고 있으면 이런 결정을 내릴 때 귀중한 길잡이가 되기 때문이라고 합니다. 데이터문제 해결의 과정에서 데이터 분석은 다시 여러 단계로 나누어 생각해볼 수 있으며, 주요 기법인 탐색적 분석, 통계적 추론 및 기계학습을 아래와 같이 대응시키고 있습니다.

  1. 주어진 데이터를 탐색하며 다양한 패턴을 발견하고 가설을 세우는 단계(탐색적 데이터 분석)
  2. 현상에 대한 가설을 다양한 실험으로 검정해보는 단계(통계적 추론)
  3. 우리가 관심을 갖는 현상을 예측하는 단계(기계학습)

<Chapter 4 데이터 분석과 스토리텔링>은 데이터 기반의 문제 해결 과정에서 팀원 간의 지속적인 커뮤니케이션의 중요성을 강조하고 있습니다. 문제 정의 단계에서는 의사 결정권자 및 분야별 전문가들의 의견을 수렴해야 하고, 데이터 수집 단계에서는 데이터를 직접 수집하고 공급한 사람에게서 데이터의 다양한 특성을 알아내야 합니다. 분석이 끝난 결과물을 구현하는 단계에서는 구현을 담당한 엔지니어와 세부사항 조율이 필요합니다. 이런 소통을 효과적으로 수행하기 위해 문제 해결의 각 단계를 꼼꼼히 문서화하고 관련된 데이터를 보관해두어야 할 필요성을 이야기 하고 있습니다.

<Chapter 5 개인 데이터로 공부하는 데이터 과학>, <Chapter 6 공개 데이터로 공부하는 데이터 과학>의 장을 할애하여 데이터 과학을 시작하는 방법으로 데이터를 수집하고 분석하는 추세와 분석 사례를 소개하고 있습니다.

<Chapter 7 데이터 과학자의 길> 에서 데이터 과학자가 되기 위한 필요한 부분을 필자의 경험을 토대로 언급하고 있습니다. 한치 앞도 내다보기 어려운 정글을 탐험하는 것에 가까운 일이기 때문에 먼저 데이터 과학자라는 직업을 원하는 이유를 세가지 관점에서 생각하라고 합니다. 첫째, 모호함을 즐길 수 있는가? 둘째, 변화를 즐길 수 있는가? 셋째, 협업을 즐길 수 있는가? 입니다. 그리고, 데이터 과학자의 유형을 크게 ‘데이터 비즈니스맨’, 데이터 창조자’, ‘데이터 연구자’, 데이터 개발자’로 나눈 자료를 소개하면서 유형별 핵심 역량을 선택하여 개발할 필요가 있다고 이야기 하고 있습니다.

책에 소개된 예제는 저자 블로그(http://www.hellodatascience.com)에서 내려받을 수 있도록 해 놓았습니다. 그리고, 책에는 데이터 과학에 관한 웹사이트와 자료 들도 많이 소개하고 있습니다.

데이터 과학자가 되기 위해서는 꾸준한 연습이 필요합니다. 기본 지식 및 기술을 습득한 후에는 주변에서 다양한 데이터 문제를 찾아 풀어보는 습관을 길러야 하며, 도출 된 결과를 이해당사자와 소통을 통해 과정 및 결과물에 대한 피드백을 얻어 개선하는 과정이 필요합니다. 피할 수 없는 데이터화의 흐름 속에서 자신의 삶과 업무에 데이터를 활용하는 방법을 습득한 개인과 조직은 경쟁에서 우위를 점하게 될 것 입니다. 기업 내 모든 업무가 데이터화되는 추세 속에서 데이터 기반으로 사고하고 문제를 해결할 수 있는 능력은 큰 차이를 만들기 때문입니다. 직장에서 고집 센 동료, 현업이나 상사 때문에 고민하고 있을 때 주관적 의견이 아닌 데이터에 기반한 분석은 의사결정권자도 움직일 수 있는 힘을 부여하게 될 것이라고 하니 우리모두 데이터 과학에 대한 관심을 많이 가졌으면 합니다.

책을 읽으면서 밑줄 그은 부분 일부 소개하면서 마무리 하겠습니다.

  • 데이터 수집과 분석이 데이터로부터 결론을 이끌어내는 과정이라면 실천은 그 결론을 실제로 행동에 옮겨 가치를 얻어내는 과정이다.
    실천 마인드의 첫 번째 요소는 편견과 이해관계로 오염되지 않은 마음으로 데이터가 알려주는 결론에 귀를 기울이는 것이다. 우선 데이터를 바탕으로 내린 결론을 있는 그대로 받아들이는 것부터가 쉬운 일이 아니다. 보통 데이터 수집 및 분석은 문제에 대한 특정한 관점에서 가설을 세우는 것에서 시작한다. 가설은 데이터 분석에 초점을 부여하여 시간을 절약할 수 있게 해주지만, 자신이 기대하지 (혹은 원하지) 않는 결과가 나왔을 때에는 이를 받아들이는 것을 힘들게 한다. 따라서 관점을 갖되, 관점이 편견으로 작용하는 것을 경계하는 태도가 필요하다.(page 56~57)
  • 연구 질문은 거창한 것이 아니라, 본 문제 해결을 통해서 무엇을 알아내려는 지를 간결하게 기술하는 것이다. 잘 정의된 연구 질문은 문제 해결에 초점을 부여하며 불필요한 데이터를 수집하거나 분석하는 헛수고를 막아준다. 또한 문제에 관해 다른 사람들과 소통할 때나 관련 자료를 찾는 데도 도움이 된다.
    연구 질문의 세부 사항은 앞서 살펴본 데이터 문제의 단계에 따라 달라지게 마련이다. 예컨데 문제 해결의 3단계에서 탐색적 데이터 분석은 ‘어떤 현상 XYZ에 대해 알아보자’는 형태를 띈다. 반면에 통계적 추론은 ‘현상 XYZ에서 A라는 요인이 B라는 요인에 미치는 영향은 무엇인가?’와 같이 둘 혹은 그 이상의 속성 사이의 인과관계를 알아보는 형태가 많다. 마지막으로 기계학습 단계의 연구 질문은 ‘현상 XYZ에서 C라는 속성을 어떻게 예측할 수 있을까?’와 같이 정의된다. 따라서 기계학습 문제에서는 예측하고자 하는 속성과 예측에 사용할 속성을 정의해야 한다.
    연구 질문과 함께 데이터에 대한 다양한 가설(hypothesis)을 세워보는 것도 이 단계에서 필요한 일이다. 연구 질문이 데이터에 대한 궁금증이라면 가설은 여기에 대한 잠정적인 해답이다. 연구 질문과 마찬가지로 잘 정의된 가설은 데이터를 분석하는 데 적절한 관점과 기대치를 제공하며, 이를 통해 주어진 데이터 및 분석 결과가 타당한지, 만약 데이터가 기대치와 다르다면 어떤 이유인지를 생각해볼 수 있다. 이런 가설에 입각한 비판적인 사조는 주어진 데이터에서 최대한의 가치를 뽑아내는 지름길이다.(page 118~119)
  • 주어진 데이터는 문제의 대상이 되는 현상을 정확히 반영하는가? 여기서 정확성은 편향(bias)과 분산(variance) 관점에서 설명할 수 있다. 편향이 큰 경우는 측정값이 지속적으로 다른 요인의 영향을 받는 것이고, 분산이 큰 경우는 측정값에 무작위의 노이즈가 영향을 주는 경우다. 편향의 경우 체중계의 영점을 맞추듯이 측정 장치를 보정(calibration)하는 방법이 있고, 분산의 경우는 충분한 표본을 수집하면 해결되는 문제다.(page 141)
  • 위에서 언급한 품질의 문제는 데이터 자체만으로 판단이 가능한 경우도 있지만, 데이터 자체에 대한 추가적인 정보를 필요로 하는 경우가 많다. 여기에는 데이터가 누구에 의해, 어떤 목적과 방법으로 언제 어디에서 수집되었는지가 포함되면, 이를 메타데이터라고 부른다.
    이런 메타데이터는 테이블 형태의 데이터뿐만 아니라, 텍스트나 이미지 같은 비정형 데이터의 경우에도 존재한다. 예컨대 이메일의 수신자, 송신자, 날짜, 이미지의 포맷 및 촬영 정보가 메타데이터에 해당한다. 좀 더 넓은 의미의 메타데이터는 데이터가 수집 및 가공된 전 과정에 대한 설명을 포함한다.
    외부에서 데이터를 얻었을 때에는 항상 메타데이터를 확인하면서 작업하는 습관을 길러야 한다. 이런 습관은 분석을 한참 진행한 후에 데이터 자체의 문제에 의해 그 결과가 무효화 되는 사태를 방지해준다. 앞서 말한 대로 데이터 과학자에게 데이트는 원재료와 같다. 데이터가 원재료라면 메타데이터는 데이터에 대한 품질보증서와 같다. 품질보증서가 없는 제품을 어떻게 믿고 쓸 수 있겠는가?(page 143~144)
  • 즉, 신뢰구간의 크기는 신뢰도상수 및 표준에러의 크기에 비례한다. 이때 신뢰도 상수는 우리가 목표로 하는 신뢰도가 높아질수록 커지는데, 일반적으로 사용하는 95%의 신뢰도에서는 1.96을 99%의 신뢰도에서는 2.58을 사용한다. 신뢰도를 더 높게 잡을수록 신뢰구간은 넓어지지만, 모집단의 지표값이 신뢰구간에 포함되지 않는 오류를 범할 확률은 낮아지는 것이다.(page 194~195)

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.