친절한 R with 스포츠 데이터

데이터 분석의 본질

 

데이터 분석은 “데이터를 다양하게 활용하여 비즈니스에 도움이 되는 분석을 하는 것”입니다. 무작정 데이터가 있다고 분석이 가능한 것 또한 아닙니다. 가장 적절한 데이터를 가지고 있어야 합니다. 그것에서 의미를 찾아야 합니다. 이런 데이터 분석은 비즈니스를 통째로 흔들기도 합니다.

스포츠 경기도 예외는 아닙니다. <머니볼>은 이러한 데이터 분석이 비즈니스(스포츠 게임)의 역사를 바꾼 사례로 가장 많이 거론되고 있습니다.

돈도 없고 실력도 없는 오합지졸 오클랜드 구단의 단장 빌리 빈은 예일대에서 경제학을 전공한 피터를 만납니다. 피터는 야구 문외한입니다. 그럼에도 불구하고 빌리 빈은 그에게서 기존의 직관에 따른 선수 선발과는 다른 차별점을 보게 됩니다. 경기 데이터를 바탕으로 선수를 선발하는 것입니다. 이러한 방식에 스카우터, 감독 등 모두가 미친 짓이라며 그럴 비난합니다. 시즌 초기 연패를 거듭하면서 데이터 야구는 실패하는 것 처럼 보여집니다. 하지만, 데이터 만으로 팀을 계속 재구성하며 데이터 야구를 해 나갑니다. 1루 수비를 해본 적이 없는 포수 출신의 해티버그를 출루율이 높다는 이유로 기용하기도 하는 등. 결국엔 오클랜드 팀은 20연승 행진을 이어가는 기적을 만듭니다.

<머니볼>은 실화를 바탕으로 한 영화입니다. 20연승의 기록, 이 기록은 아메리칸 리그 최다 연승 신기록입니다(메이저리그 최다 연승은 시카고 컵스의 21연승). 이때부터 야구는 머니볼 이론과 함께 세이브메트릭스(선수의 성적이나 경기 작전을 통계적으로 분석하는 방법론)가 알려지게 되었습니다. 게임의 역사가 새롭게 시작된 것입니다.

 


친절한 R with 스포츠 데이터
황규인 저 | 영진닷컴 | 2021년 07월 14일

 

<머니볼>은 데이터 분석의 가치를 가장 잘 이야기 하고 있습니다. 야구는 기록의 경기라고 합니다. 선수마다 기록을 갖고 있습니다. 역사가 오래된 만큼, 야구 경기가 시작되면서 부터 숫자로 표현되는 많은 데이터가 쌓였습니다. 타자는 타율, 출루율, 도루 성공율, 장타율 등이 투수는 방어율, 피안타율 등으로 숫자로 나타납니다. 우리에게 알려진 이러한 데이터 외에도 더 많은 이름의 데이터가 있습니다.

이러한 데이터를 제대로 분석하면 정보가 됩니다. 정보는 또 지식이 되고, 이러한 지식이 우리의 의식과 삶을 변화시키게 됩니다. 데이터 분석을 쉽게 할 수 있는 ‘R’, ‘파이썬’ 같은 언어 관련 책이 많이 나옵니다. 절차 대로 따라해볼 수 있는 예제도 잘 정리되어 있습니다. 일반인 누구나 쉽게 시도해볼 수 있는 영역이 되었습니다.

이 책은 R언어로 데이터 분석을 합니다. tidyverse 패키지를 활용하여 야구, 배구, 축구, 농구, 테니스 등 스포츠에 대한 흥미로운 주제를 이야기 하듯 보여줍니다. 데이터 분석 이전에 데이터를 분석하기 쉽게 정리하고, 필요한 부분만을 보기좋게 가공하고, 한눈에 볼 수 있도록 하는 많은 절차를 알려주고 있습니다.

데이터 분석 입문자들이 흔히 접하는 타이타닉, iris, mtcars 데이터로는 식상하지만, 스포츠와 관련된 데이터로 진행하기 때문에 지루하지 않습니다. 데이터 분석을 공부하는데 스포츠 데이터가 오히려 더 실감나게 다가옵니다.

“코로나19는 홈팀 승률을 어떻게 바꿨을까?”, “나달은 정말 클레이 코트에서 강할까?”, “어떤 기록이 득점/승리를 제일 잘 설명할까?”, “롯데 자이언츠가 가을 야구에 진출할 확률은?” 등 친구들과 하는 내기 소재로도 많이 쏟아내는 주제들입니다.

책의 저자가 황규인 입니다. 현재 글을 쓰는 직업을 가지고 있다고 합니다. 스포츠 관련 일을 하고 있어 이 책의 주제에 대한 전문성도 있습니다. 다만, 코딩과는 거리가 먼 문과 출신이라고도 이야기 합니다. 그래서인지 내용을 초보자들이 쉽게 이해할 수 있도록 눈높이를 많이 고려한 것 같습니다. 적절한 예시들이 많이 나오는데 해당 예시들이 전문적인 부분을 쉽게 만들어 주고 있습니다.

가장 적절한 데이터를 갖고 그것에서 의미를 찾는 것, 그것이 데이터 분석의 본질입니다. R언어는 이러한 본질을 수행하기 가장 적절한 언어입니다. 쓰임새에서 분석만을 위한 언어임에 분명합니다.

<머니볼>에서 보여주듯이 데이터 분석이 가장 활발하게 일어날 수 있는 분야가 스포츠 분야이기도 합니다. R언어와 스포츠, 기술과 비즈니스가 만나 게임의 역사를 새로 쓸 수 있는 통찰을 찾기 원한다면 이 책과 함께 시작해보면 좋을 것 같습니다. R언어와 파이썬 사이에서 고민하는 사람들, 파이썬으로 데이터 분석을 공부하였던 분도 이 책을 보게 되면 R언어에 대해서도 새로운 시각을 얻게 될 것 같습니다. 현재 파이썬으로 데이터 분석을 하고 있는 제가 그러했던 만큼…

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.