파인드라이브 VOICE 3.0 음성인식 시스템 사용기
◎ 파인드라이브 음성인식(FineSR) 기능을 활용하는 방법에 대해서 알아보자.
◎ 왜 음성인식 기술이 필요할까?
디지털 기기의 입력장치로써 우리는 키보드(키패드), 터치스크린, 리모콘 등의 입력장치를 사용한다. 요즘 핸드폰, MP3플레이어, TV, 모니터, 내비게이션 등등 대부분 터치스크린 기능이 있는 디지털 기기가 인기가 있다. 내비게이션은 운전시에 기름값 절약, 약속시간안에 찾아가기, 그외 멀티미디어 기능 등의 편리한 서비스를 제공해주지만, 운전 중 터치스크린 조작 또는 DMB 방송 시청 등으로 안전사고의 위험성이 있다. 따라서 음성인식 기능을 이용한 입력방식은 내비게이션 시스템에서 정말 필수적인 기능으로 자리잡아 가고 있다.
◎ FineSR(Fine Speech Recognaizer)
파인드라이브 음성인식기술 FineSR은 파인드라이브가 세계 최초로 상용화한 '대어휘 음성인식 기술' 이다. 인간의 음성 인식 과정과 유사한 구조를 채택함으로써 한 번에 인식할 수 있는 대상 어휘 수를 약 45만개 까지 확장하여 서울, 경기지역과 같은 대도시의 행선지명을 한번의 음성인식으로 검색할 수 있게 한 획기적인 기술이다.
◎ FineSR(Fine Speech Recognaizer)의 특징
행선지 검색을 수행하기 위해서는 최소 45만개 이상의 단어를 대상으로 음성인식을 수행하여야 하므로 이 경우 기존의 음성인식 기술을 이용할 경우 엄청나게 큰 메모리 용량이 필요하고 인식 속도도 많은 시간이 걸리는 등 사용하기에 불편하였다.
이번에 FineSR 에 적용된 음성인식 기술은 기존의 음성 인식 기술과는 다른 구조를 채택하였다. 즉, 사람이 음성을 인식하는 과정과 유사하게 '음소 단위의 음성인식' 과정과 '음소 기반의 단어 탐색' 과정을 효율적으로 분리한 2단계 음성 인식 알고리즘을 채택하였다.
또한 주행 상황에서 발생하는 소음에 의해 음성인식 성능이 저하되는 것을 최소화 하기 위해 적응형 필터 기반의 잡음제거 전처리 기술 및 유/무성음 특징을 이용한 음성 검출 기술 등을 적용하였다.
◎ FineSR(Fine Speech Recognaizer)의 활용
FineSR 을 이용할 수 있는 어플리케이션은 '홈스크린' 메뉴 선택, '내비게이션'의 명칭 검색, 'DMB'의 채널 변경, '엔터테인먼트'의 메뉴 선택, '시스템 설정' 메뉴 등에서 활용할 수 있다.
각 모드 별로 사용할 수 있는 음성인식 명령어는 조금씩 다를 수 있다. 또한 음성인식 기능 실행은 LCD 화면 터치 또는 리모콘의 음성인식 버튼으로 가능하다.
(1) 홈스크린에서 활용
파인드라이브 보이스 3.0 제품을 켜면 부팅 후에 다음 그림과 같은 홈스크린 화면이 나타난다. 리모콘의 오른쪽 상단에 있는 "음성인식" 버튼을 클릭하면 음성인식이 시작된다.
▲ 음성인식 싲가 시 홈스크린 화면
<음성 인식 대기 화면>
② 화면 아래의 소리 입력 바가 중간 위치까지 움직일 수 있도록 명확한 발음으로 실행하고자 하는 프로그램명을 발성한다.
③ 음성으로 입력 가능한 명령어는 다음과 같다.
아틀란 (내비게이션), 디엠비, 시스템설정, 엔터테인먼트, 엠피쓰리, 영화, 외부입력, 포토앨범
(2) 내비게이션에서 활용
<광역시도 입력 화면>
④ 광역시도를 발성하고 잠시 후에 발성 된 광역시도가 선택된다.
⑤ 광역시도 선택된 이후에 소리입력 바가 중간 위치에 올 수 있도록 명칭 검색 할 목적지를 발성한다.
⑥ 다음 그림과 같이 발음이 가장 유사한 8개의 리스트가 나타난다. (예 : 동대문)
<목적지 인식 결과>
<목적지 인식 결과>
▲ 그때그때 발음에 따라서 8개의 리스트의 순서와 명칭 검색결과는 조금씩 차이가 생기기도 한다. 동대문으로 검색시 '홍능냉면'
음식점도 검색되었고, 그외 한의원 이름이 유사한 명칭으로 검색되었다.
⑦ 최종 원하는 목적지를 선택 또는 리모콘의 '선택' 버튼을 누른다.
⑧ 선택된 목적지가 자동으로 입력되며 검색결과 화면을 볼 수 있다. 그리고 바로 탐색 또는 위치 조정을 터치 선택 또는 리모콘의 '선택' 버튼을 선택하여 최종 목적지를 경로 탐색한다.
(3) DMB에서 활용
▲ DMB를 실행하면 위와 같은 DMB 기본화면이 나타나며 음성인식 아이콘이나 리모콘의 음성인식 버튼을 누르면 음성인식을 시작하게 된다.
▲ 음성인식 아이콘을 터치하거나 리모컨의 음성인식 버튼을 눌렀을 때 변경할 채널명에 대한 사용자 발성을 기다린다. 채널명은 채널 리스트에 나타난 정식 채널명으로 발성한다. 테스트 해본 모습은 사용기 하단부에 동영상으로 첨부해본다. 엔터테인먼트와 시스템 설정에서는 활용이 안되는데 사용자 설명서에는 활용 되는 것으로 설명이 나와 있어서 좀 당황하였다.
▲ 적용 되지 않는 명령어를 발음하면 위와 같은 안내 화면과 음성 안내가 나온다.
◎ FineSR 100% 활용을 하려면
음성 인식의 경우 타자 연습과 같은 훈련을 필요로 하지는 않지만 어느 정도 음성인식에 적합한 발성에 익숙해질 필요는 있다. 발음의 정확도, 소리의 크기, 말의 빠르기 등이 모두 음성인식 성능에 영향을 미치게 된다. 특별한 기준이 있는 것은 아니지만 발음은 명료하고 정확히 하고, 너무 빠르지 않게 발성하는 것이 좋다. 발성 크기는 주행 중 소음이 발생하는 경우는 조금 크게 발성하는 게 좋다. 외부 마이크보다는 내장 마이크를 활용하는 것이 좀더 음성인식이 잘 되는 것 같았다.
처음에는 사용자에 따라서 음성인식 성공률이 그다지 좋지 않을 수도 있다. 하지만 조금만 익숙해지면 매우 편리하게 사용할 수 있다. 음성인식을 계속 사용하다 보면 자신도 모르게 발음이 정확해지게 된다. 처음 사용시 다른 발음으로 인식하여 다른 프로그램이 실행되기도 하고 다시 발성해달라고 내비게이션의 음성안내가 나오면 목소리를 좀 크게 내게 되는 데 이때는 목소리를 좀 작게 하라는 음성안내가 나온다. 주행 중에는 소음이 발생하므로 음성인식 성능이 저하될 수 있으며, 주의 산만으로 안전 운전에도 방해가 될 수 있으므로 가급적 정차상태에서 사용법을 익히도록 하자. 하단부 동영상에서도 정차상태에서 테스트를 주로 하였다.
(1) 음성 입력의 내용
명칭 검색을 위한 음성입력의 내용은 기본적으로 목적지의 명칭이다. 행선지의 명칭은 두가지 종류로 구분할 수 있는데, 첫째는 하나의 단어인 명칭이 있고 둘째는 둘 이상의 단어로 구성된 명칭이 잇다. 첫째의 예는 '이마트'이고, 둘째의 예는 '이마트 죽전점' 또는 '죽전점 이마트' 그리고 '신림동 건영아파트 3차' 등의 형태이다.
아래는 '신림동 건영아파트 3차'를 찾는 두 가지의 방법의 예이다.
* 단순 명칭 : 단일 단어로 '건영 아파트'를 음성인식으로 검색한다.
* 상세 명칭 : 복합 단어로 '신림동 건영아파트 3차' 를 음성인식으로 검색한다.
단순 명칭의 경우, [선택]하게 되면 '건영 아파트'라는 단어를 지도의 [통합 명칭검색]의 입력 값으로 넘겨주고 이에 포함한 결과가 아래에 나열된다. 기본적으로는 명칭 단어가 맨 앞에 위치한 행선지들이 나열되지만, 이는 옵션 설정에서 [중간어 검색] 기능을 사용하여 확잘할 수 있다. 즉, 음성인식에서는 키워드만 찾고 지도에서 정확한 위치를 선택하는 방법이다. 지도에서 옵션을 선택하여 거리별, 중간어검색, 정렬순서를 지정할 수 있다.
(2) 음성으로 말해야 하는 시점
음성인식은 광역시도 인식, 목적지 인식, 그리고 결과 선택의 세 부분에서 이용된다. 인식이 잘되고 결과가 잘 나오면 광역시도-목적지 인식 두가지 단계의 진행으로 끝나게 된다. 이 때 음성 입력은 반드시 '삐' 소리가 나온 직후에 발성을 해애 한다.
그러나 발성해야할 시점을 놓치더라도 안내를 들은 후 다시 발성하면 된다.
(3) 발음과 소리의 크기
발음은 가능한 명확하고 또렷이 발성하는 것이 음성인식 기능을 편리하고 잘 활용하기 위한 기본 조건이다. 뉴스를 진행하는 아나운서처럼 발성하면 좋지만 그렇게 하려고 노력하는 것으로도 좋은 인식 결과를 얻을 수 있다. 필자의 경우 혀가 짧거나 운전 중에 피로한 경우 발음이 정확하지 않은 경우가 있는 편인데, 그래서 그런지 처음에는 목소리 크기나 발음의 정확성, 그리고 이어서 발음하는 데 여러 번 테스트를 해보았고, 어느정도 목소리 크기와 발음이라면 음성인식이 잘 되는 지에 대해서 감을 잡은 것 같다.
소리의 크기는 주변의 소음 보다는 크게 발성해야 하며, 한적한 곳에 정차한 차량 내부에서는 FineSR을 이용한다면 소리를 작게 하거나 라디오 청취중에도 음성인식 성공률이 충분하지만 주행 중이거나 주변 소음이 크다면 발성시에 소리를 조금 높여주면 된다.
<소리의 크기를 알려주는 표시, 왼쪽에 숫자는 음성으로 말해야 하는 시점에 대해서 숫자가 줄어들면서 표시해준다.>
(4) 소음
소음에는 영향을 줄 수 있는 것과 그렇지 않은 2가지가 있다. 규칙적이고 잔잔한 소음의 경우에는 FineSR의 잡음처리 기술로 인해
음성인식에 영향을 크게 주지 못한다. 반면에 불규칙하거나 큰 소리의 경우는 음성인식에 영향이 많다.
따라서 원활한 음성인식 기능의 사용을 위해 가급적 주변을 정숙하게 하는 게 좋다. 예를 들어, 라디오 소리를 줄이거나 외부 소음이 시끄러우면 창문을 올려주면 된다. FineSR이 동작 중일 때에는 옆 좌석에 앉은 동반인의 목소리에도 반응하게 된다.
<음성인식률을 높이는 TIP>
* 소리레벨 표시의 녹색 바가 많이 생기도록 조금 큰 소리로 발성한다.
* 검색할 목적지를 자연스럽고 명확하게 발성한다. 한 음절도 빠짐없이 발성한다. 너무 빠른 연음으로 발성하면 특정 음절을 인식하지 못하는 경우가 있을 수 있다.
* 만일 한 음절씩 끊어서 발성할 경우에는 각 음절 사이의 간격을 최소화 하여 발음한다.
* 마이크 방향으로 발성하고, 가급적 마이크와 가까운 거리에서 발성한다.
* 본체의 좌측 하단의 자체 마이크와 별도의 음성인식 전용 마이크를 우측 MIC 입력 단자에 연결하여 사용하면 더욱 인식률을 높일 수 있다.
* 공식적인 목적지명을 발성한다. 실제 음성 인식을 정상적으로 처리하여도 POI 데이터에 인식한 목적지가 없는 경우에는 인식 실패로 나타난다. 예를 들어 '삼성 서울 병원' 을 '삼성 의료원'으로 검색하는 경우 실패할 수 있다.
Voice 3.0에 내장된 인식 어휘 수는 약 45만개나 된다고 한다. 되도록 정확한 발음과 발성속도를 지켜주면 대부분의 단어를 인식하는 놀라운 성능을 발휘한다. 여기에 리모콘을 활용하면 더욱 편리하게 음성인식 기능을 이용할 수 있다. 파인드라이브 보이스 3.0 내비게이션은 부팅 후에 현재 위치를 인식하는 GPS 수신 시간이 정말 빠르다, 대략 1-3초면 되므로 정말 똑똑하고 빠르다.
파인드라이브 보이스 3.0 내비게이션은 DMB와 음악감상을 내비게이션의 TPEG과 같이 사용할 수 있는 장점이 있으며, 음악감상시 '다음노래'만 외치면 되므로 주행 중에 위험하게 음악을 검색할 필요도 줄어들었다. 멀티미디어 기능을 활용할 때 DMB 방송시청과 음악감상에서 PIP 기능으로 화면전환 시키는 부분도 음성인식 기능이 적용되면 더욱 편할 것 같다.
파인드라이브 Voice 3.0
빠르고 똑똑하고 속삭이면 반응하는 파인드라이브 보이스 3.0
귀찮고, 위험한 화면 터치는 이제 그만~
이젠 음성인식되는 내비게이션 사용하자!
내비게이션 전용프로세서 SiRF Prima 탑재
가장 싼 주유소를 찾아주는 유가정보 서비스
인증절차가 필요 없는 SBS TPEG 서비스
총알같이 빠른 GPS 수신 15초이내로 OK Sirf6_fineGPxII
800*480 WVGA 17.73cm (7인치) LCD
드라이빙이 즐거워지는 완벽한 멀티테스킹과 막강 듀얼맵
내비게이션 도난 걱정은 이제 그만 도난안심 패키지
최신형 아틀란 Wiz 맵 기본 탑재
속삭이면 반응하는 파인드라이브 음성인식 내비게이션 Voice 3.0
DMB 채널도 음성인식으로 편하게 이용합시다.
So Fast So Smart and Voice Recognition
파인드라이브 음성인식 기술 FineSR (Fine Speech Recognizer)
Written by 홍순재(elvenking)
http://elvenking.tistory.com
② 내비게이션 상에서의 음성인식 기능은 명칭 검색을 기본으로 하고 있다.
③ 지도 상의 음성인식 아이콘 () 을 터치하거나 리모콘의 음성인식 버튼을 누르면 1차적으로 광역시도를 입력받는 화면이 나타난다.
① 아틀란을 실행하면 파인드라이브의 전자지도인 아틀란이 실행되고 아래와 같은 초기화면이 나타난다.
① 리모콘의 음성 인식 버튼을 클릭하거나 음성인식 아이콘을 손으로 터치해주면 다음의 화면이 나타나면서 사용자 발성을 기다리게 된다. 이때 '취소' 버튼을 누르면 음성 인식 기능을 취소할 수 있다.