暇になった - SuzukiMasayuki@Hatena::Diary

音響学会の全国大会に投稿しようと思ってたんだけど，だすのやめた（だせなかった）ので，暇になりました．暇なので昨日のことをメモ．

人工知能学会AI-Challenge研究会

人工知能学会の，音響関係のセッション．音源定位と音源分離の発表は理解できない部分が多すぎてほとんど寝ちゃった発表も多かったけど，それ以外の発表はいろいろ面白かった．

話言葉では構造サイズが小さくなる

MFCC空間内で，それぞれの音素間の距離（それぞれの音素は混合ガウス分布，距離はカルバックライブラ偽距離の近似式を利用）をはかる実験を行うと，読み上げ音声より話言葉の方が音素間距離が小さくなる，という発表があった．MFCCは普通，CMNをかけるので，この現象は，「MFCC空間内で原点に近づく」ということができる．
これ，母音図空間で考えたら，話言葉の方がよりシュワーに近づくっていう意味だし，（我々のアプローチである）構造表象を考えたら，構造サイズが小さくなる，という意味になる．
自分の研究と関連性が見えてなんか面白かった．

ロボット聴覚，雑音下音声認識

一番びっくりしたのは，「MFCCのI-DCT」を特徴量に使ってる発表があったこと．自分が使ってるのと同じ．そんなに変わった手法じゃなかったんだ〜，という感じがしてちょっとうれしかった．
それはおいといて，印象としては，ロボット聴覚と僕らがやってる音声認識は毛色がだいぶ違うなあ，というかんじ．
ロボット聴覚の実装においては，マイクの位置がロボットの位置だから，相当雑音やら反響やらがのる．さらには，二人以上が同時に発話したような状況だったら，最高でも0dBと0dB，普通はデシベルがマイナスっていう笑えない状況で音声認識を行うことになる．自分がやってるような音声認識って，多少雑音がのったとしてもせいぜい10〜20dB程度なことを想定したものだから，レベルが全然違う．．．

GPUを使うの簡単だよ

行列演算でGPU（ぐらふぃっくぷろせっしんぐゆにっと，かな？）を使う，，という話があったけど，「GPU使うの簡単だよ」的なことをおっしゃっていた．とある行列演算ライブラリも，次期バージョンからGPUを使う実装になるとのこと．
ちょっとGPUに関する勉強してみようかなぁ．．

ローカル打ち合わせ

やっぱり問題は，混合ガウス分布つかってバタ距離の近似式使うか，MAP推定のときに対角共分散をフルマトリックスにするか，，，というところに落ちてくる．それが解決されないと，周波数領域だろうがなんだろうが，光が見えない．．．