YAMAHAで買い物など

  • 朝まで飲むとかいつぶりだろう
  • そしてやっぱり二日酔い
  • 昼に起きてCD聴いたりワンピース読んだりぐだぐだしてすごす
  • ワンピースどんどん面白くなってきた
  • 今エニエスロビーで戦ってます
  • 夕方池袋のYAMAHAに行った
  • コンコーネ50番とイタリア歌曲集がお目当て
  • 5月から通う個人レッスンで使う予定
  • YAMAHAに行くと,5回に一回くらいは知り合いに会う
  • 世界は狭い

お酒を飲んでうっかり失言

  • http://www.excite.co.jp/News/bit/E1271080345100.html
  • 最近よく記憶をなくしているらしい
  • 一回は,帰り道の記憶がない
  • もう一回は,全部覚えてるつもりだったのに,部分的に覚えてないことが存在している
  • 自分が気づいてないだけで,実はもっといろいろやっちゃってるのかもな〜
  • お給料ちょっとアップしてもらえるみたい.やったー
  • ちゃんと研究しよう
  • 家かえろ

時刻tじゃない音声認識

去年の12月,古井先生が「なにかが足りない音声認識研究」というタイトルで発表をなさった.
現在までの音声認識研究を振り返った上で,「なにかが足りない,けどそれがなにかは知らない」という内容.
かなり刺激的なお話だったので,各地からいろんな反響(例えばhttp://d.hatena.ne.jp/tihara/20091226)があった.


「なにが足りないのか?」にはいろんな答えがあると思う.答えは一つだけではないと思う.
その上で,僕は

時刻tじゃない音声認識

が一つの答えになるのかなあ,と考えている.
以下,これまで行われてきた変化に着目した音声認識に関する研究を見ながら,自分なりの考えを書きたいと思う.

  • デルタ特徴量関係

デルタ特徴量は,古井先生が提案された,今やデファクトスタンダードな特徴量.
デルタ特徴量は,時系列の特徴量に対する回帰係数のことで,
具体的には時刻tのフレームの前後Nフレームをみて二乗誤差最小基準とかで回帰した係数になる.
前後を見るフレーム数Nは,HTKのデフォルトで2.
MFCCなど各フレームの特徴量を抽出するときの窓は(音声認識の場合)25ms幅,10msシフト程度のことが多いので,
結局65ms程度の単位で音の変化を見ていることになる.


デルタ特徴量のいいところは,それが手軽に使えること.
MFCCを12次元として,時刻tにおけるΔMFCCが12次元,簡単な計算で求まる.
MFCCとΔMFCCをくっつけて24次元の特徴量にしてしまえば,HMMが出力する特徴量として簡単に導入できる.
そして,簡単に率も上がる.
ΔMFCCの他に,デルタのデルタ,ΔΔMFCCも使われている.これも同様に簡単で,率も上がる.


最近では,もうちょっとNをでかくするとVAD(音声区間検出)に高い効果がある,なんて報告もある(IBMの福田さん等).
Nをでかくすると,当然音の変化を見る範囲がかわる.
Nを15とかにすれば,325ms程度の単位で音の変化を見ることになる.
どの程度の単位で音の変化を見るのがよいのか?に関しては,昔から議論があって,
だいたい60ms〜1000ms(1〜16Hz)あたりがよさそうだという報告があったりする(石川高専の金寺さん等).


ちなみに,僕がやったアフィン変換不変な局所特徴量LAIFの研究で,
LAIFはデルタと同じく時刻tの前後Nフレームから計算できるアフィン変換に不変な特徴量なのだが,
ここでもN=16あたりでもっとも性能が高くなった.
参考:アフィン変換不変性を有する局所的特徴量を用いた音声認識
http://www.gavo.t.u-tokyo.ac.jp/~mine/paper/PDF/2008/SP2008-114_p209-214_t2008-12.pdf


もう一つデルタ関連の話題として,トラジェクトリHMMの話がある.
ΔMFCCはMFCCから計算されるので,MFCCとΔMFCCには依存関係がある.
そのため,MFCC+ΔMFCCのように連結してHMMの出力する特徴量に用いると,
現状の音響モデルとしてのHMMの仮定「すべてのパラメタは直交している」が成り立たなくなってしまう.
つまり,Δは音響モデルの制約条件として導入すべきで,特徴量として連結して使うのはちょっとおかしい.
この辺をちゃんとやっているのがトラジェクトリHMMである(名工大東芝の全さん等).
トラジェクトリHMMの他にも,声質変換において,Δを制約条件として加える方法なども提案されている(NAISTの戸田先生等).


いろいろ書いたけど,「デルタを使う」というのは今やデファクトスタンダードで,
かなり完成された技術になってきていると言えると思う.

  • 変調スペクトルに対するバンドパスフィルタ

デルタとやや関係するが,変調スペクトル領域でバンドパスフィルタをかけよう,という技術がある.
先に書いた金寺さん等が提案されている手法で,60ms〜1000ms(1〜16Hz)の変化にヒトの聴覚が敏感だから,
その部分のみを通すバンドパスフィルタをかけてやれば,ノイズに頑健になるだろう,という手法.


この手法のオリジナルは誰の提案か正直よくわかってないのだが,
一番メジャーなのはHermanskyらが提案したRASTAだと思う.
(RASTAがやっていることは,金寺さんの手法とほぼ同じ.)


このRASTAだが,僕がちょろっとやった単語音声認識では,結構率があがる.
背景雑音ありで効果があるのはもちろん,雑音なしでもちょっと率があがる.
しかし,RASTAは,あまりデファクトスタンダードになっている感じはしない.
簡単に実装できる演算だから,CMN(ケプストラム平均正規化)
ついでにRASTAもやっちゃえばいいのに,と,ときどき思ったりもする.
音響特徴量に関する研究を除き,各種提案手法とバッティングする技術でもないんだし.


なんであまり使われないんだろう?
「あまりみんな使ってないから」「HCopyのオプションにないから」といったあたりが本音だったりするのかも.
もしそうだとするなら,あまり良くない傾向だと思う.


最近では,変調スペクトルのみならず,時間周波数領域に反応する大脳皮質の存在を理由にして,
時間周波数領域に対するフィルタを設計して特徴量として使おう,といった研究も盛んで,
ブリスベンのINTERSPEECHでスペシャルセッションがあったりした.
このあたりの研究は,効果があることは間違いないので,
今後デルタ並に広く使われるようになるといいなー,と思ったりする.
そのためには,まだあと少しだけ,いろいろ研究をやっていく必要があると思う.
(ただし,この研究が「現在の音声認識に足りない」研究ではない気も同時にする.)

  • 離れたの音との違い

ここまで見たデルタにしろLAIFにしろRASTAにしろ,時間的に隣接した音の動的な変化を捉える手法であった.
しかし,音の変化を捉えるという意味では,別に時間的に隣接した音以外の音からの変化を見ても良い.


例えば,日本人の/r/の発音を評価したいとき,/r/の周辺を見るのも大事だけど,
やっぱり/l/の音とちゃんと区別できているか?が重要になったりする.
/r/と/l/が時間的に近接していなくても,/r/と/l/の変化(違い)を見るのは重要である.


この考え方を実現するために現在広く用いられているのが,この10年急速に発展した音響モデルの識別学習だと思う.
ものすごく簡単に言ってしまえば,
従来の生成モデル的なアプローチでは/r/そのもの,/l/そのものをモデル化していたのが,
識別学習をすれば/r/と/l/の区別がおこないやすいような/r/のモデル,/l/のモデルが得られることになる.


識別学習は,基本モデルありきで,それを音声認識に応用することで研究が進んでいる.
近年音声認識以外の分野で,識別モデル,識別学習が発展しているので,
それを輸入して音声認識用にmodifyして使うという研究が非常にやりやすくなっている.
(とはいっても頭弱い僕には難しく,この辺をしっかりやってる音声認識研究者にはいつも頭が下がります...)


このような音響モデルの識別学習の他に,特徴量レベルで/r/と/l/の違いを見ようとする手法もある.
このような研究の一つとして,Hermansky等が提案しているTANDEMアプローチがある.
これは,時刻tの前後Nフレームを特徴量xにして,context-independentな形でいったん
ニューラルネットかなにかで音素p_i(i=[1...M])の事後確率p(p_i|x)を計算する.
そうして得られたM個の事後確率を,適当に正規化して次元圧縮して,時刻tにおける特徴量とする.
それを連結ベクトルとして加えて,あとは普通のHMMを使った音声認識にかける,というもの.


各種音素の事後確率をだしているのがポイントで,
これにより,/l/とどれくらい似ていて/r/とどれくらい似ているのかが計算され,それが特徴量として含まれることになる.
resultをみると,結構,認識率もあがっている.


なお特徴量をニューラルネットで計算しなおす,といった方法は,新田先生の弁別素性関係でも有名だし,
最近ではASRU2009でD.Vasquezらが時刻tの前後NフレームのNをマルチレゾリューションにして,
Nの最大値もかなり大きくしてニューラルネットにかけることで音素認識率がかなり上がった,という発表があった.
どの発表も率はかなり上がっているので,二段構えのアプローチは実際に有効そうである.


ただし,これらの研究では,「時刻tの特徴量」に縛られてしまっている.
HMMを使って音声認識するには,「時刻tの特徴量」じゃないと使えない.
逆に言えば,「時刻tの特徴量」にしてしまえばHMMが使えるので,「時刻tの特徴量」に縛られてしまう.
(僕がやったLAIFの研究も,出発点は(後述する)音声の構造的表象的な考え方を「時刻tの特徴量」にしよう,というものだった.)


識別学習はモデルありきでそれを音声認識用にmodifyしている.
特徴量でがんばる場合にも,HMMありきなので時刻tにおける特徴量になるように工夫しなければならない.
両方,既にあるモデルありきで研究がスタートしている.


これが悪いことだとはまったく思わないけど,個人的には,そうではない研究があってもいいかと思っている.
具体的には,「時刻tの特徴量にとらわれない」音の変化を捉える特徴量を利用して,モデルはあとで考えよう,というアプローチである.


かなりな勢いで手前味噌だが,今峯松研究室でやっている音声の構造的表象を用いたアプローチが,
時刻tの特徴量にとらわれない音の変化を捉える特徴量を利用するアプローチになっている.
音声の構造的表象とは,音素のようなイベントごとにいったん音声をクラスタリングし,
各イベント間の距離,すなわち/r/と/l/の距離など,をあらゆるイベントペア間で計算して得られるものである.
ここで各イベント間距離としてf-divergenceとよばれる距離尺度を用いると,
話者の違い等に近似的に不変になる性質があるというのがセールスポイントになっている.
(ちなみにLAIFはf-divergenceを無理やり「時刻tの特徴量」化したものである)


これをつかって外国語の発音評価を行った実験では,HMMを用いるより少し精度があがっている.
参考:構造表象と多段階の重回帰を用いた外国語発音評価
http://www.gavo.t.u-tokyo.ac.jp/~mine/paper/PDF/2010/ASJ_1-P-16_t443-446_t2010-3.pdf


構造的表象の無視できない弱点は,まだ統計モデルがしっかりしていないことである.
音素HMMのように音素単位でモデル化できないので,単語音声認識まではできるけど,
大語彙音声認識に利用するのはそのままでは現状無理である.
(だから,僕の場合は外国語の発音評価を扱っている)


もちろん,構造的表象を大語彙音声認識で使うために統計モデルをしっかり作ろう,
という研究もやっているが,まだ実用化にはいたっていない.
参考:A study of Hidden Structure Model and its application of labeling sequences
http://www.gavo.t.u-tokyo.ac.jp/~mine/paper/PDF/2009/ASRU_p118-123_t2009-12.PDF


この話は,構造的表象だけの問題ではない.例えばF0の話.
日本人が自分の耳と脳で音声認識しているときに,F0を利用しているのは間違いないが,
現状の自動音声認識ではF0はほぼ用いられていない.
この理由は,F0をうまくハンドリングする時間単位でのF0モデル化の手法がないことにある(と思う).

  • まとまってないけどまとめ

デルタにしろRASTAにしろTANDEMアプローチにしろ,
音の変化の情報を捉えようとしている部分がとてもすばらしいと思う.
しかもこれらの手法は,これらは,すべて時刻tに対応する特徴量になるので,
それが「HMMと相性がいいから」これまで高い評価を受けているのだと思う.


モデルのことは忘れて,まず音声を見ていろいろ考える.モデルはあとから考えてもいいのではないか.


モデルのことをいったん忘れて音声を眺めると,
(あくまで個人的には)音声の構造的表象は非常に理にかなった考え方だと思うし,
F0が音声認識に使われていないのはおかしいと思う.
ヒトが音声認識するときに,すべての時刻tをすべて同一に扱っていることなんてなくて,
全体的にぼやっと捉えられている(気がする.あくまで僕の中では.).


現状,手頃な良いモデルがないので音声の構造的表象もF0をつかった音声認識も広く利用はされていないけど,
この先だれかが良いモデル作ってくれるかもしれないし,自分で思いつくかもしれない.
モデルありきで考えていると,本当に大事な音声の本質的な特徴を見逃してしまう気がする.

カペラのコンサートと飲み会,など

  • 今日何も仕事してない気がする
  • 留学生の書類を整理してだした
  • 授業料免除の書類を各種集めた
  • カペラのコンサートを聞きに行った
  • 研究なにもしてません
  • 授業料免除は,どうやらできないようだ
  • 親と離れて暮らしているので,住宅の控除があるかと思っていた
  • しかし,独立生計になるので,住宅の控除がでないっぽい
  • そのせいで,基準の額<収入見込になってしまった
  • 収入見込ぶっちゃけ年180万なんですけど..お金無い..
  • カペラのコンサートいってきた
  • とってもよかった
  • 感想はtwitterなどに書いた http://twitter.com/dyxyju
  • 演奏後は,なんかよくしらないけどtwitter関連のオフ会?的なものに参加
  • 同じコンサートにきてたyanagi_maestroにさそわれました
  • HUBで飲み
  • 80人しか観客いないのに,オフ会に9人いるとか.一割越え
  • 共通の趣味をもつ人たちと話せて楽しかった

授業料免除に申し込めそう,など

  • とある奨励金の申請書が書き上がった
  • 共著含む論文をすべて印刷して添付したのだが,結構な分量に
  • なんとなく感慨深い
  • 僕の業績リストはここhttp://www.gavo.t.u-tokyo.ac.jp/~suzuki/
  • リサーチアシスタントとして働いているので,親の扶養から外れることに
  • 自分で健康保険入らなくちゃいけない
  • けど,給料高くないので,余裕で大学の授業料免除の条件に当てはまることに
  • 明日もろもろ書類をとりにいこう
  • ちなみに明日の朝は留学生のゆうちょ講座開設説明会にチューターとして出席予定
  • すごく久しぶりに授業なるものに出た
  • しかも一日に3コマも!
  • ちなみに,博士過程の3年間で,4コマとったら単位はそろう
  • かなりゆるーい.まあ授業より研究が大事
  • もり川のぶり大根うまい!
  • 今日はもう帰ります

ずっと家にいるのよくない,など

  • 日曜日にパジャマのままずっと家にいたら夕方メランコリーな気分になった
  • しかし寝ておきたら治った
  • 家に一日中いるのよくない
  • あとパソコンつけっぱなしもよくない
  • 来週は土曜日も日曜日も練習があるのでうれしい
  • うたいたーいうたいたーい
  • 7日(水)にはカペラのレクチャーコンサート行くよ(ひとりで)
  • もしよろしければご一緒にいかがですか
  • まあ一人でいくにしても,楽しみ
  • 今日は研究室全体ミーティング.新年度で人がめっちゃ増えた
  • 人が沢山いると楽しいな,となんだか当たり前なことを思った
  • twitter見るのがなんだか少しだけ面倒になった.あれ疲れるよ
  • 見るの面倒とかいいながら今でも一日2,3回はやっぱりみてるし楽しい
  • 今までが見すぎだっただけで,今が適切だと思う
  • twitterばっかりじゃなくたまにはブログも書こうかと思った
  • とはいっても記事を書くのは疲れるのでつぶやき形式で書いてみた
  • つぶやき形式だとすごい書きやすい
  • とある学術奨励金に応募しようとしてるのだが,申請書全部手書きとかありえん.手つかれた.
  • けどちょっと楽しかった.書くって面白い
  • 「すいません」じゃなくて「すみません」が正しいとか
  • 中国語でさよならと言おうと思って「ツァイツェン」といってみたらまったく通じないなど
  • そろそろおうちに帰ります

新年度

もうすぐ新年度.
修士の学位記を無事いただき,来年度からは博士後期過程に進学します.
東大電気系のGCOEから,リサーチアシスタントとして雇ってもらえる(はず)です.
なので,お給料を貰いつつ研究する立場になります.


とりあえず今は,修論までの成果をジャーナル化してるとこなので,こいつを通すのが第一目標.
その次は,なんとかして音声の構造的表象を用いた発音分析を実用的な技術にまで持ち上げたい.
がんばります.


研究もがんばりますが,来年度は,もうちょっと歌をがんばってみようかなあとも思っています.
鈴優会に入って二年弱になって,愛着も強くなってきたし,テナー少ないし,もっと上手くなりたい.
具体的には,名島先生の主宰するオフィスミューズの声楽コースに通ってみようかなあと思ってます.
まだなにも決まってないけど.


学生の身分があと三年間も続いて,気を抜くとだらだらしてしまう感じがして危機感を感じています.
音声工学の研究者として基礎的な知識を身につける,論文いっぱい書く,当たり前のことをちゃんとやりたい.
かつ,歌もがんばりたい.


せっかく選んだドクターの道,有意義にすごしたいと思います.


===
最近はtwitterばかりでこちらを更新してませんでした.
http://twitter.com/dyxyju
僕のtweetはこちらからどうぞ.
twitterも最近放置気味だけど,ブログよりは書き込んでいます.