스마트 스피커 앱 만들기

VUI의 시대에 필요한 기술

 

‘Mdir’이라는 프로그램이 있습니다. DOS용 셸관리 프로그램으로 널리 알려지면서 DOS 시절 필수 프로그램이 되었습니다. 명령어를 한글자 한글자 타이핑 해서 실행하는 것에서 벗어나 방향키와 ENTER키, FUNCTION키 만으로 컴퓨터를 쉽게 사용할 수 있었습니다. 명령어 방식에서 셸방식으로 변화는 많은 사람을 컴퓨터에 친숙하게 만들었습니다.

Windows 가 나오면서 사용자 인터페이스(User Interace, UI)는 또 한번 변화합니다. 그래픽으로 구성된 아이콘을 마우스로 조작하여 실행하는 GUI(Graphic UI) 시대가 온 것입니다. 이 GUI는 사용자를 더 친숙하게 컴퓨터 앞으로 불러모았습니다. 이제는 컴퓨터를 부팅하면 그래픽으로 된 화면은 기본이고, 마우스는 필수 입력장치가 되었습니다.

스마트폰과 태블릿 PC 가 등장하면서 스크린을 손으로 터치하는 방식이 일반화 됩니다. 일부 특수한 용도의 PC에서만 동작하던 것에서 대중화되어 버린 것입니다. 이렇게 사용자와 컴퓨터, 즉 기계와의 인터페이스는 게속 편리한 방향으로 발전하고 있습니다.

UI의 다음은 뭘까요? 사람의 목소리라고 말합니다. Voice UI의 시대가 성큼 다가왔습니다.

 


스마트 스피커 앱 만들기 Alexa Skills Kit, Dialogflow, Clova Extension Kit을 이용한
타카우마 히로노리 저/정순관 역 | 영진닷컴 | 2020년 06월 30일

 

올레TV를 신청하여 TV를 시청하고 있습니다. 올레TV를 시청하기 위한 셋톱박스는 인공지능 스피커를 탑재한 ‘기가지니’라는 셋톱박스를 사용하고 있습니다. “지니야~ TV켜’, ‘기가지니! 오늘 날씨는 어때?와 같이 물어보면 똑똑하게 말을 알아듣고 TV를 켜거나, 날씨를 알려줍니다. KT 뿐 아니라, LG U+, SKT도 비슷한 제품이 나오는 것으로 알고 있습니다. TV셋톱박스와 결합하여 스마트 스피커를 만드는 것으로 사용자에게 빠르고 친숙하게 다가온 것도 사실입니다. 기성세대는 리모콘을 찾기 바쁘지만, 아이들은 익숙하게 말로 이야기 하는 것을 볼 수 있습니다.

인공지능 스마트 스피커는 시중에 많습니다. 구글 Home, 아마존 Echo, 네이버 Clova 등 입니다. 가격도 비싸지 않습니다. 새로 구입하지 않더라도 스마트폰 자체에도 기능이 있습니다. 애플의 시리가 대표적입니다. 목소리 만으로 원하는 정보를 얻고, 방안의 기기를 조작하고, 간단한 대화까지 나눌 수 있는 시대가 되었습니다.

이런 스마트 스피커 앱들이 동작하기 위해서는 프로그램이 필요합니다. 이 책은 스마트 스피커 앱을 만드는 방법을 알려주는 책입니다. 앞에서 꺼낸 3대 스마트 스피커(구글 Home, 아마존 Echo, 네이버 Clova)를 대상으로 하고 있습니다. 네이버가 3대 스마트 스피커로 소개되고 있어 조금 의아하긴 하였는데, 책의 원저자가 일본인인 것을 확인한 순간 그럴 수 있겠다라는 생각이 들었습니다. 일본에서는 LINE의 시장 자체를 무시 못하는 것으로 알고 있습니다. Clova의 가장 큰 장점이 바로 LINE과 통화가 가능하며, 목소리로 LINE 메시지를 보낼 수 있는 장점이 있다고 소개합니다. 스마트 스피커 중 국내에서 가장 처음 출시된 제품도 네이버 제품이라는 글을 볼 수 있습니다.

책은 총 7개의 Chapter로 되어 있습니다. 하지만, 크게는 4개로 다시 구분할 수 있습니다. 처음에는 스마트 스피커의 일반적인 기능 및 개발 관련 내용에 대해 소개합니다. 그 다음에 실제 해당 제조회사에서 제공한 프로그램과 API를 이용하여 ‘스킬’을 만드는 방법을 알려줍니다. 제조사가 다른 만큼 개발하기 위한 앱도 모두 다르기 때문에 각각의 Chapter를 할애하여 소개할 수 밖에 없어보입니다. 하지만, 개발 과정의 큰 맥락은 크게 다르지 않다는 것을 확인할 수 있습니다.

스마트폰에서의 앱을 스마트 스피커에서는 스킬(액션)이라고 합니다(Amazon Echo/ Naver Clova에서는 스킬, Google Home에서는 액션). 이 책에서는 모두 스킬이라는 용어로 통일하겠습니다.20쪽

프로그램을 가장 처음 배울때 ‘Hello’를 배우듯이 기본적인 스킬로 ‘인사’ 스킬을 만듭니다. 이후 BMI를 측정하는 스킬을 개발하는 방법을 알려줍니다. 계속해서 해당 스킬의 기능을 계속 추가하는 방식으로 확장해 나갑니다.

쉽게 따라할 수 있도록 많은 부분을 직접 실제 화면을 캡처하여 설명하고 있습니다. 소스코드에 대한 설명도 쉽게 하였습니다. 책의 내용을 따라하면서 개발한 스킬은 시물레이터를 통해 모두 확인 가능합니다.

Chapter 6에서는 스마트 스피커 스킬을 개발하는 Tool을 소개합니다. Node-RED라고 하는 에디터입니다.

Node-RED란 IBM 연구소가 개발한 오픈소스 소프트웨어로, GUI(그래픽 유저 인터페이스)로 직관적으로 데이터의 흐름을 정의할 수 있는 비주얼 데이터 플로우 에디터입니다.248쪽

제조사에서 제공하는 Tool을 가지고 개발했던 것을 Node-RED로 환경을 구축하여 서로 대응하도록 하여 다시 동일한 기능을 구현하는 형태로 그 사용법을 알려주고 있습니다. 단, 이부분에 대한 설명은 구글 Home, 아마존 Echo만 설명하고 있습니다. 네이버 Clova가 빠진 것이 아쉽습니다.

마지막 Chapter에서는 개발한 스킬을 여러사람들이 사용할 수 있도록 신청하는 방법을 다루고 있습니다. 배포된 스킬은 스마트폰 앱과 마찬가지로 배포한 스킬에 대해 평가도 받을 수 있습니다.

스마트 스피커, 인공지능 스피커라고 불리기도 합니다. 언어 인식을 위한 인공지능 기술이 기반이 되어야 가능하기 때문입니다. 하지만, 이런 복잡한 인공지능 기술은 몰라도 우리가 원하는 스마트 스피커 스킬은 만들 수 있는 환경이 되었습니다. Node-RED 같은 Tool을 사용하면 노드만 연결하는 것만으로도 스킬을 만들 수 있다는 것도 확인 가능합니다.

이 책은 스마트 스피커 스킬을 처음 개발하거나, 기술에 관심이 있는 사람에게 흥미를 불러일으키기에 충분합니다. 다만, 책이 처음 나온 시점이 2018년입니다. 너무 늦게 한글로 번역된 것은 아닐까 하는 생각도 듭니다. 그럼에도 불구하고 스마트 스피커에 대한 서적이 부족한 가운데 지금이라도 나와서 쉽게 읽을 수 있게 된 것이 반갑기만 합니다.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.