音声認識技術を実際に使うとき

経済産業省音声認識技術の開発」中間成果報告会に行ってきた.面白そうだったこと,印象に残ったことをいくつかメモ.

車に乗っている人は

運転中の人というのは,「ある種のハンディキャップを背負っている」ととらえられる.ドライバーがカーナビを見るというシチュエーションについて考えてみると,運転中は画面を凝視することができない.よって,カーナビゲーションシステムは,ドライバーを「視覚情報のとらえにハンディキャップを持つ人」ととらえて,システムを組む必要がある.
今まで,PCなんかにのってる音声ガイダンスシステムを,「視覚障害者のための音声技術」としてとらえていた.けど,「視覚障害者」ととらえるのではなく,「視覚のハンディキャップ」ととらえれておくほうがよいはず.この考え方によると,例えば「調理方法をwebで調べながら料理をする人」といったようなたぐいも.一種のハンディキャップを背負った人としてとらえることができるので,(料理している手でPCのキーボードはさわれない→手の不自由な人と同じ)応用の幅がかなり広がる.
音声の研究会では,カーナビシステムの話が最近よくでてくるけど,それは「運転中」というハンディキャップが,音声技術との相性がよいからなのだろう.

個人情報保護法

個人情報保護法がうるさくて,コーパスをつくるのが大変になってきているらしい.(鹿野先生曰く.)それに対する早稲田の小林先生のコメントが,以下のような感じでした.
gmail」は便利だけど,あれはこわい.なぜなら,メールデータをすべてgoogleに見せていることになるから.けれど,私は(小林先生は)便利さに負けてgmailを使っている,googleが莫大なコーパスを使って構成した迷惑メールフィルタなりなんなりの性能が非常に秀逸だから.性能のフィードバックがユーザに行き届いていれば,「データをだすのは怖いけど,性能が上げるためには仕方ない」といったようなことが(意識,無意識はさておき)でてくる.データを集めることの負の側面ばかりでなく,正の側面が正しく伝わらせることが大事だ.
○イクロソフトだとか○ッキントッシュさんのプログラムが死んだときに,「情報を送信しますか?」ダイアログがでてくるけど,今までほとんど反射できに「送信しない」ボタンをクリックしていたけど,これからはきちんと送信してあげようかなあ.(パワーユーザっぽい使用法をすると○イクロソフトのアプリがすぐ死ぬのは,パワーユーザがエラー情報をマイク○ソフトに送らないからではないだろうか?などといってみる)

音声対話システムで大事なことは

認識率.応答の正しさ.まず第一にあがるのは,こういた「技術的」側面.しかし,実際に音声対話システムを組んで使用してみて,ユーザのフィードバックを見てみると,「話しかけるのがはずかしい」だとか,技術的ではない側面がいろいろいろと見えてくる.よく質疑応答なんかで,「技術がいいのはわかったけど,実際には技術的ではない側面でうまくいかないのではないか?」という質問がでてくる.
でも,これ,ちょっと的外れじゃないか?なぜ,技術とユーザーインターフェイスを同じ場所で議論する?それらは,目的物こそ同じであれ,まったく違うものなのではないか?違うところで議論すべきではないのか?
もちろん,システムを実装するときには,技術的なことも,ユーザーインターフェイスのことも,同時に考えなくてはいけないときがくる.しかし,研究会のような議論の場(特に,技術的な話題について議論しているとき)に,ユーザーインターフェイスがどうこうという議論を持ち出すのは,よくないと思う.これに対する解決策は,「ユーザーインターフェイスをどうしたらいいのかを集中的に考える場」を作って議論することだ.ユーザーインターフェイスを技術発表の場で持ち出すいじわるな質問者は,発表者をいじめるだけではなく,具体的にユーザーインターフェイスをどうしたらいいのかを考える場所をつくって考えを外にだしていくのがよいと思う.(無責任にいろいろ書いたけど,UIだけを独立に研究するって難しいよな...)
発表する側も,「技術の話」か「ユーザーインターフェイスの話」か「実際のシステムの構築」なのかはっきり考えておく必要があるのかな.(「実際のシステム構築」と考えている発表のうち多数が,本当のところは「技術の話」だったりするから,上記のような意地悪な質問がでてくるのか.)

まめ知識

まめ知識というか,音声屋さんの常識?はやく常識を身につけたい...
対話システムを人の手で動かして擬似的に認識率100%の状況をつくるテストのことをWIZARD OF WOZ,(うぉず,とみなさん言っていた)という.
SNRの定義は,実は適当だったりする.
言語モデル系の研究では,ときどききく「フィラー」とか「パープレキシティ」とかいう単語頻出だった.