진격의 빅데이터

“대용량 데이터를 활용∙분석하여 가치 있는 정보를 추출하고 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술이다.”29쪽
“빅데이터는 기존의 관리 및 분석체계로는 감당할 수 없을 정도의 거대한 데이터의 집합으로 대규모 데이터와 관계된 기술 및 도구(수집, 저당, 검색, 분석, 시각화 등)를 모두 포함하는 개념이다.”30쪽

빅데이터를 우리나라 국가전략위원회와 삼성경제연구소에서는 위와 같이 정의하였습니다. 빅데이터를 다양하고, 크고, 빠른 데이터를 말하는 것을 넘어, 기술 및 도구까지를 포함하여 이야기하고 있습니다. 기술이라는 단어가 없었다 뿐이지 이미 빅데이터가 기술이라는 것으로 인식된지는 오래되었습니다.

 


진격의 빅데이터
최천규, 김주원, 이상국 저 | 이담북스(이담Books) | 2018년 05월 07일

 

빅데이터가 답인 세상입니다. 모든 기업이 빅데이터 시대를 맞이할 준비에 한창입니다. 빅데이터가 최고의 기술로 인식되고 있는 것입니다. 해당 산업에 관한 지식과 데이터 분석 스킬을 습득하는 것이 이러한 변화에 분명 대비하는 것입니다. 인공지능이 화두가 되고 있지만 인공지능 이전에 데이터가 먼저 입니다.

2016년 이세돌 9단과 구글 딥마인드가 만든 알파고가 바둑대결을 벌일 때 많은 사람들이 인공지능 컴퓨터에만 큰 관심을 보였을 뿐 데이터에 주목한 사람은 그리 많지 않았다. 알파고에는 2,034대의 컴퓨터가 연결되어 4,500년간 발전해온 바둑데이터가 고스란히 들어 있었다.알파고는 이 바둑데이터를 이용해 스스로 학습하여 인간과 똑같이 바둑을 둘 수 있던 것이다. 만약 알파고에 바둑데이터가 들어 있지 않았다면 이세돌과의 바둑게임은 처음부터 이뤄지지 않았을 것이다.25쪽

이 책은 빅데이터에 관한 개념을 알려주는 입문서 입니다. 전문가를 위한 책은 아닙니다만 지식을 정리하는 차원에서 읽어보면 좋은 책입니다. 총 4개의 파트로 구성되어 있습니다. 첫 번째 파트에서 빅데이터를 정의하는 것에서 시작합니다. 일상의 모든 것이 이제 빅데이터가 된다고 합니다. 미래사회의 새로운 동력 엔진으로, 미래의 유일한 비즈니스 모델이라고 말합니다.

IT 분야의 투자전문회사인 온셋벤처스(Onset Ventures)의 파트너 쇼밋 고세(Shomit Chose)는 IT 기업에 있어 미래의 유일한 비즈니스 모델은 빅데이터뿐이라고 주장할 정도로, 빅데이터는 미래에 새로운 기회 영역이 될 것이다. 기업이 빅데이터로 돈을 벌든가, 아니면 돈 버는 빅데이터가 중심적인 역할을 하게 될 것이다.
빅데이터를 이용한 비즈니스 모델은 수익모델과 관계가 깊다. 고객이 원하는 것을 정확하게 제공하고, 이를 돈 버는 것과 자연스럽게 연결시키는 것이 수익모델이다. 즉 돈을 지불하는 대상이나 주체, 그리고 방식을 어떻게 가져갈 것인가의 문제다. 가장 이상적인 수익모델은 고객이 돈을 낼 때 스트레스를 받지 않는 것이다.47쪽

파트 2는 빅데이터 생태계와 빅데이터 전문가에 대한 이야기입니다. 데이터 사이언티스트와 데이터 애널리스트를 구분하고 있습니다. 그리고, 해당 인재들은 하이브리드형 인재가 되어야 한다고 합니다. 수학 및 통계학적 역량이 필요하며 논리적 사고력과 프로그래밍 능력도 필요하다고 합니다. 커뮤니케이션도 중요하다고 합니다. 마지막으로 인내심과 끊임없는 실험정신을 강조합니다.

데이터 사이언티스트는 기술지향성(Technical Oriented)이 강하고, 데이터 애널리스트는 마케팅이나 전략지향성(Marketing & Strategy Oriented)이 강하다.63쪽

빅데이터를 분석한다는 것은 빅데이터를 이용해 희망하는 결과를 뽑아내야 하는 지루한 프로그래밍을 요한다. 빅데이터를 처리하기 위해서는 ① 빅데이터 수집, ② 빅데이터 저장∙관리, ③ 빅데이터 처리, ④ 빅데이터 분석, ⑤ 분석결과(지식)의 시각화, ⑥ 폐기의 여섯 단계를 거치게 된다. 이런 모든 과정에서 프로그래밍 능력이 요구된다.84쪽

파트 3은 빅데이터의 가치를 높이는 법을 말하고 있습니다. 분석마인드를 가지고, 원시 데이터를 가공하고, 문제를 정의 한 후, 데이터를 분석하고, 시각화하는 과정을 통해 커뮤니케이션 하는 과정 자체가 바로 가치를 창출하는 과정이라고 합니다. 이러한 가치를 높이는 과정에서 가장 먼저 해야 할 일은 문제를 정의하는 것입니다. 분석 주제와 목표가 있어야 그에 맞는 데이터를 연결할 수 있습니다.

빅데이터를 이야기하다 보면 많은 사람이 오해하는 세 가지가 있다. 첫째, 빅데이터가 곧 해답이라는 잘못된 인식을 갖고 있다는 것이며, 둘째, 빅데이터는 모집단이라는 환상에 빠져 있다는 것이다. 그리고 셋째, 빅데이터 분석은 시각화가 전부라는 단순화에 빠져 있다는 것이다.93쪽

어떤 문제도 문제가 무엇인지를 정의하지 못한다면 그 해결은 요원하다. 문제에 대한 명확한 정의가 없다면 결단코 해결방법은 없으며, 설사 찾는다 하더라도 그 해결방법은 완전한 해결방법이 아닌 미봉책에 불과할 뿐이다. 따라서 문제의 해결을 원한다면 첫 번째로 문제에 대하여 명확하게 정의해야 한다.107쪽

마지막 파트는 빅데이터 분석 툴과 방법을 소개하고 있습니다. 목적을 달성하기 위한 분석 도구들과 분석을 위해 필요한 분포 확인, 신뢰성과 타당성의 확보, 집단 간 차이, 상호 연관성, 인과 관계 파악, 집단화 같은 내용을 알려줍니다. 전문적인 용어를 피해 설명하는 것을 봐도 이 책은 입문서가 확실한 것 같습니다. 글 꼭지 마지막에는 Key Point를 두고 있어 다시 한번 정리할 수 있습니다.

분포는 빅데이터 분석에 있어 가장 기본적인 것이다. 분포를 모르면 아무것도 할 수 없으며, 어떠한 패턴이나 유사성 등도 찾아낼 수 없다. 따라서 분포는 모든 빅데이터 분석의 기본임과 동시에 모든 통계의 기초라고 할 수 있다. 분포를 모르면 통계가 불가능하기 때문이다.143쪽

상관분석은 상호 관련성을 보는 것이고, 회귀분석은 인과성을 보는 것이다.174쪽

21세기 비즈니스는 이제 유능한 경영자에 의한 직관은 실패할 수 있지만, 빅데이터가 주는 결론은 성공할 수 밖에 없다고 합니다. 이런 관점에서 빅데이터의 중요성을 이해하고 준비를 해야 한다는 것이 이 책이 전달하는 메시지 같습니다. 한동안 듣보잡이었던 분석가들이 현재는 인력이 부족합니다. 국가 간 경쟁또한 치열합니다. 데이터 사이언티스트와 데이터 애닐리스트 라는 직업, 분명 도전해 볼 만한 섹시한 직업입니다.

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.