티스토리 뷰

개발/기계학습

[Kaldi] voxforge online demo

Jaeyeon Baek 2019.03.05 13:47

http://kaldi-asr.org/


이 글을 읽고 있다는 것은 sample 스크립트 학습을 끝냈다는 이야기인데 일단 축하드립니다. 이번 글에서는 학습시킨 데이터를 기반(은 이미 공개되어 있는 모델셋)으로 demo 를 해볼텐데 kaldi 에 있는 voxforge 에서는 두 가지 방식으로 데모를 지원합니다. 여기에는 1) microphone 의 입력에 따라 실시간으로 음성을 text 로 변환하는 live 모드와 2) 음성파일을 text로 변환하는 simulated 모드가 있습니다.

일단 egs/voxforge 로 이동해서 보면 다음과 같이 세 개의 디렉터리가 존재합니다.

$ tree -L 1
.
├── gst_demo
├── online_demo
└── s5

3 directories, 0 files

s5 는 학습시킬 때 확인 했고 나머지가 데모 관련된 디렉터리인데 gst_demo GUI 를 통해 데모를 확인 할 수 있도록 해줍니다. 다만 앞선 글의 연장선으로 이 글에서는 Mac 을 기준으로 설명하고 있으며 MacOS 에서 gst_demo 를 돌리는건 녹록치 않기 때문에 online_demo 를 소개하도록 합니다. ( 원하신다면 gst_demo 를 여러방면으로 시도해볼 수 있겠지만 정확히 알 수 없는 여러가지 패키지가 설치 되어 여러분의 Mac 이 너저분해질 수 있습니다 )

자, 그러 online_demo 디렉터리로 이동해서 내용을 살펴봅시다. run.sh 은 데모를 실행시켜주는데 test-mode argumentlive simulated 를 넘길 수 있습니다. livemic 를 통한 테스트를 진행할 수 있고, simulated 는 사전에 정의된 wav 파일( online-data/audio/*wav )을 대상으로 테스트 할 수 있습니다. 여기서 ... 스크립트를 실행하면 바로 microphone 데모( Mac 기준이니 당연히 mic 를 사용할 수 있다고 가정합니다 )를 볼 수 있지만 아마도 다음과 같은 에러를 만나게 될 겁니다. 

$ cd online_demo 
$ ./run.sh --test-mode live
...
...생략
online-gmm-decode-faster command not found

데모를 돌리기 위해 필요한 패키지가 설치 되어 있지 않기 때문인데 kaldi 홈에서 다음 디렉터리로 이동하고 패키지를 설치하도록 합시다.

cd /path/to/kaldi/tools

패키지를 설치하도록 합니다.

$ ./install_portaudio.sh

관련된 모듈을 컴파일해줘야 하기 때문에 src 경로로 이동해서 아래와 같이 make 를 실행해줍니다.

cd /path/to/kaldi/src
$ make ext

이제 모든 준비는 끝났습니다. 다시 online_demo 로 이동해서 테스트 해봅시다. 아래 영상은 CNN 방송을 대상으로 테스트한 결과 입니다.


마무리

데모 성공을 축하드립니다. 인식률은 다소 떨어지지만 kaldi 를 처음 다루는 예제로 훌륭하다고 생각됩니다. 이제 다양하고 더 많은 데이터를 기반으로 모델을 학습시키고 Kaldi 기반의 speech recognition 를 도전해 볼 수 있겠군요. :-)



댓글
댓글쓰기 폼