ジェネラティブな脳

脳の中で,音楽を再生することができる.
そのとき,鼓膜は振動していない.つまり,物理的に音楽はそこに存在していない.
なのに,我々はその音を「聞く」ことができる.

      • -

ジェネラティブな脳
声でも同様の現象がおこる.
よく知っている人が何か話している音声を,脳内再生することができる.
ここで面白いのが,ある程度の範囲で,自由に言葉を選べることだ.
例えば,タモリの声で,「鈴優会の演奏会に来てくれるかな?」みたいな言葉を再生できる.
タモリは上記のようなことは言ったことがないはずだ(少なくとも僕は聞いたことがない).
なのに,僕の脳内では,タモリが上記の言葉を話しているような音声を再生することができる.

      • -

脳はモノマネ芸人
ヒトの脳は思っていたよりジェネラティブにできているらしい.
ヒトの脳は実はモノマネ芸人だ.
ただ,本物のモノマネ芸人と違ってそれを物理的な音の波に変換できないだけだ.
物理的な音を作るためには,その音を作るための発声器官の制御法を推定しなければならない.
当然,タモリと自分の発声器官は異なるので,これは単なる制御値の逆推定問題より難しい.
そもそも,発声器官が柔軟にできていなければ,いくらうまく制御しても似た音を作れないかもしれない.
だからコージー冨田はすごい.
いや,そんなことを言いたいわけではない.
ヒトの脳はすごい,ってことがいいたいのだ.

      • -

音声認識,,,
この辺の話は,僕の研究テーマである自動音声認識にも関わりがあるのだろうと思っている.
脳がもっているジェネラティブな特性を積極的に真似して,もっと賢い音声認識ができないか.
近年の音声認識は,ディスクリミナティブな方法が流行っている.
でも,どこか僕の直感と反している.*1

      • -

南先生
こんな,まとまっていない考えを巡らせながらネットサーフィンをしていたら,面白いものを見つけた.
http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1005900
http://ci.nii.ac.jp/naid/110003136608/
ほかにもいろいろ見つけた.
南先生の一連の研究らしい.
この研究は,音声生成の物理的な制約条件を積極的に認識に利用する研究.
僕がおぼろげに考えていたことと一致しているわけではないけれど,いろいろ参考になる.

      • -

とりあえず,今日はここまで.
もう少し頭をひねっておきたい.

*1:ただし音声認識のゴールを「ヒトと同様の認識性能」とするならば.ヒトの真似をせずとも認識率がよければ良い,という考え方もある.一般的に,ジェネラティブなモデルを学習するより,ディスクリミナティブなモデルを学習する方が認識性能の向上という観点からは効率がよい.