パスワードを忘れた? アカウント作成
254769 journal

aitoの日記: 9/13 音響学会スペシャルトークイベントまとめ

日記 by aito
音響学会スペシャルトークイベント「シニア研究者に聞く、音声研究の過去・未来」

最初に山本会長の挨拶。

その後、西村さんが各パネリストの紹介とショートトーク。
回答者トップバッターは板倉先生。板倉先生古希パーティーの様子からスタート。博士1年の時に偶然NTTに行って音声研究を始めた話など。

2人目は古井先生。研究とリーダーシップについてのお話。「雑用をいとわずやること、人のつながりを大事にすることが大事」

3人目は中川先生。大学で研究をすることについて。

質問側の戸田先生の紹介。板倉先生を前に、板倉賞の感想を聞くとか。

その後、質問タイム。30件以上の質問の中から、6件ぐらいの質問をセレクト。

質問1:「20年前に「これはできるだろう」と思っていたことで、実際には出来なかったことは何ですか?」
・板倉:「できてほしかったこと」は、ロボットと人間の対話。当時ディクテーションの研究はあったが、キーボード代わりよりも、機械に対して指令したり、場合によっては相談したりできたらいいのではないかと思っていた。
・西村:音響的な問題がもっとも大きい問題だと思っているか?
・板倉:音響も問題だが、人間の知能自体が問題だろう。
・西村:これから集合知の研究をしようとされているですが?
・板倉:さまざまな音響条件での認識などが、現在のWeb集合知で可能なのではないかと思う。Matlabの世界だけでなく、ネットワークとの融合で様々なことが可能ではないかと思う。
・古井:(以前使ったスライドを利用)20年前の講演では、人間並の音声認識ができるまで「40年」と言っていた。そのころには、20年後にはある程度のサービスが可能になっていると考えていたが、現在まだ広く利用可能なサービスは提供されていない。現在反省してみると、90年代にある程度完成していた統計的枠組みに縛られすぎていたのではないかと思う。たくさんの知識を扱うことができる枠組みを考える必要があるのではないか。
・西村:音声認識の枠組みはHMMでよいのかという質問が多かった。
・古井:HMMやNgramを捨てる必要はない。それ以外の知識をうまく組み合わせることが必要。
・戸田:音声を文字に書き下すならHMMはよいが、ロボット対話などでコンセプトを伝える場合には、新しい研究分野が必要ではないか。
・古井;文字に書き下すだけでも、現在の枠組みでは不十分。対話となるとさらに一段難しいし、他のインタフェースでも可能かもしれない。文字に書き下すというタスクは、音声が「ほかの手段に負ける」ということを考えずに取り組めるという点ではよいのではないか。
・中川:1990年前後は、HMMが導入されはじめ、ニューラルネットも使われて希望に燃えていた時代。その後の10年間は非常に発展した。さらにその前の20年と比べれば、1990~2010の発展は、表面的には大きかった。他の分野で考えてみれば、将棋なども探索問題として定式化され、人間に近づいてきた。それと同じように、音声認識の分野もだいぶ人間に近づいてきた。ただ、それで満足しては発展がないので、これからどうするかが問題。言語と意味の問題はこの20年ほとんど発展してこなかった。音声認識は言語の理解を含むので、難しい問題がまだまだ多い。信号処理でもまだ多くの問題がある。
・西村:意味理解の分野は研究としてどうなのか?
・中川:意味の問題もこれまで取り組んできたが、テキスト処理よりも難しく、あまり進展がない。
・古井:まともに意味に取り組むのは無理。データをベースにして、分類体系などを物量でやれることは多いので、そういう方向のほうが、理論的な「意味」を扱うよりも有効なのではないか。
・西村:音声関係では意味理解の研究は少ないのでは。
・中川:音声自体でも研究することが多いから。
・戸田:確率的に人間の思考をモデル化する研究もケンブリッジなどで出てきている。
・中川:機械翻訳は人間の知的活動だと思うが、そこでも統計的機械翻訳が主流。
・古井:機械翻訳の分野でも「意味」を放棄している。

次に、質問2を飛ばして3へ。
質問3:「音声認識研究はサイエンスの要素も組み入れるべきか?」
・板倉:エンジニアリングに特化する研究も価値があるし、サイエンス的な問題も価値がある。企業の研究はエンジニアリングよりなので、大学ではよりサイエンスよりに研究するのが望ましい。脳科学や神経科学だけでなく、情報科学的な観点からの「サイエンス」も重要。
・古井:音声研究のすばらしいところは、人間という「存在証明」があるところ。音声は人間の知的活動の中心。それに対する「音声の科学」は重要だが、それと認識システムとの間にはギャップがあって、分けざるを得ない。その2つを結びつける努力は必要。
・西村:音声は人間が使っているというところが重要だと思った。
・中川:「科学が高級、工学は低級」という考え方になるのはまずい。どちらも、互いを参考にする必要がある。人間は固有の物理的制約を持っていて、それをそのまま計算機でまねるのはあまり意味がない。科学として人間の処理を研究するのは興味深いが、工学的実現方法は違った方法でも良い。
・西村:現在の音声認識は工学に偏っているように思われるが、なぜか。
・戸田:工学的やり方の方がお金がとりやすいからでは?
・古井:何十年も研究していて、ちっとも実用になっていないのは工学者として怠慢ではないか。もっと実世界のデータを集めて、問題を解決していく努力をしていく必要があるが、そういう努力が足りないのではないか。
・板倉:リーダーシップにも問題があったのではないか。実績が十分でないのに、次から次へとパラダイムを変えていく。問題を解決する速度よりも、問題を難しくしていく速度の方が早いのではないか。
・古井:確かに、実用化に必要かどうかということとは関係なく、難しい問題をつぎつぎに扱ってきていることは事実。
・戸田:板倉先生へ。線形予測分析の発明は、サイエンス的だったのかエンジニアリング的だったのか?
・板倉:当時は音声については素人だった。当時の考えでは、「音声認識とはスペクトルの違いを感じること」と簡略化した枠組みを作った。簡略化したところで「最適性」に重点を置いたところはサイエンス的だったかもしれない。その後、音声でもそういう最適性がさまざまなところで使われてきた。当時と現在が違うのは、現在は膨大なデータが利用できる。
・中川:大量のデータを使うというのは一見知能的でないように思うが、それが実は本質なのではないか。人間の脳には、統計的に学習した結果がすでに入っているというのが僕の信念。計算機は最初なにもないので、膨大な学習をしている。

・西村:音声認識に話題が偏ってきたが・・・
・戸田:1970年代の音声研究の座談会は音声分析合成が主流で、その後ようやく音声認識が主流になってきた。
・古井:当時は音声認識なんかは実用化できると思われていなかった。
・中川:合成について、本当に人間のような合成器を作るのは、音声認識と比べて難しいと思うか?
・板倉:音声合成の目標は「人間のような声を合成」といわれるが、それは必ずしもそうじゃないと思う。機械の声として聞きやすい音声が望まれているのではないか。
・中川:それはありうるが、サイエンスとしてどのくらい人間と同じ音声が合成できるのか。
・板倉:サイエンスとして人間に近い合成をすることは可能だと思うが、エンジニアリング的なアプローチも重要。
・古井:不気味の谷の問題があり、人間に非常に近づけるのは難しそう。
・西村:ボーカロイドなどは見せ方、演出がうまかった。

質問「日本と海外の音声研究を比較して、それぞれのよい点はなにか」
・板倉:ベル研にいた当時は、単に音声の研究をしていただけではなく、そのツールになる研究もがっちりやっていた。どういう意味での、土台がしっかりしている研究所だった。学問に対する根の深さ、学問に対する取り組みが違うという気がした。
・古井:それは欧米のよき時代で、いまはだいぶ変わってきている。アメリカの大学も今はだいぶ苦労していて、日本の方が比較的自由なテーマが設定できる。アメリカはDARPAの力が強いので、そちらの都合で突然研究が打ち切られる。もう一つ大きいのは、日本ではドクターの学生を雇わなくてよいということ。アメリカではドクターを雇うために資金を獲得しなければならない。日本の教員にとっては楽なこと。
・西村:戸田先生からは「海外に行くといいぞ」という感じを受けるが、どうか。
・古井:海外で研究することは必要。海外出張と1年ぐらい滞在することは違う。海外のコミュニティに入って、知り合いを世界中に作ることは重要。
・中川:海外に行って刺激を受けることは重要。日本のいいところは、音響学会があるとか、研究会などで交流があるところ。最近は大学間格差が広がる政策なのがちょっと問題。
・西村:日本の音声研究レベルは世界と比べてあがっているのか下がっているのか?という質問があった。
・古井:音声は世界の中ではプレゼンスがある。日本初の技術も多い。しかし、もっと努力が必要。日本と海外では仕事の仕方が違うので、それを体験することも重要。
・戸田:個人的なイメージでは、アメリカは研究スピードが速いイメージ。ヨーロッパは深く追求する感じで、中国は今あるものを突き詰める感じ。日本の特徴は?
・古井:アメリカやヨーロッパといっても個人差が大きい。海外では仕事の仕方が日本より単純。日本では「あいさつ」が必要だとか。しかし、「あいさつ」をしていれば友達はたくさんできる。日本の中だけでまとまっていると、中国に包囲される。それらのなかでどうバランスをとっていくかが問題。
・中川:中国人は、問題を設定したら優秀。日本でも、HMM合成や声質変換など優秀な技術は多い。オリジナリティを重視して研究をすることが重要。
・古井:同じ研究でも見せ方が重要。

質問「失敗したことは誰にでもあると思いますが、今まで内緒にしていたエピソードはありますか?」
・板倉:いままで失敗だらけ。成功率は5%ぐらい。でも、数年に1つぐらいヒットがあれば、研究者としてはうれしい。
・西村:LPCは「ヒット感」はあったか?
・板倉:学会に発表した時点では批判的だった。当時の音声生成モデルに対して、「全極モデル」は受けが悪く、学会の発表の時に「若い人はいいですねえ。数式で音声の研究ができると思っているんですから」と言われてディスカレッジされた。でも、実際に音を出して聞かせるところで興味を持ってもらえたのがよかった。
・西村:学会発表をした中で一番のヒットは?
・板倉:最尤スペクトル推定で、いわゆる板倉斎藤距離を最小にする枠組みを思いついたところ。今でも、NMFなどでも音声の時間周波数表現を操作する話などを聞くとうれしくなる。
・古井:板倉先生が95%失敗なら、こちらは99%失敗。もうすこしきちんと定式化しておけばよかったということはある。研究にはいろいろな偶然があって、それによって失敗も成功もある。
・古井:Δ、ΔΔケプストラムの研究経緯。さまざまな偶然、背景、なりゆきによって成り立っている。
・戸田:LPCやΔケプストラム提案時に、現在も使われていると想像していたか?
・古井:それほど考えていなかった。
・板倉:数学の世界なので、生き残って当然。単純な方がより長く生き残る。
・中川:長いあいだに2つや3つ、後世に残る功績が残せればすばらしい。やった結果をうまく説明することが重要だと思う。1975年に、ビームサーチを世界に先駆けて考え出したが、うまく人にわかるように説明できなかった。わかるように説明することは重要。
・戸田:海外の機関に乗り込んで自分の研究を聞いてもらうことは重要。若い人はよろしく。
・板倉:海外、特にメジャーな研究機関に言って研究することは重要。フォーカスが当たるということも重要。
・古井:国際会議で、自分に似た研究をしている人に質問したり、論文を送ったりすることも大事。
・板倉:自分の思うことを相手に伝えることがコミュニケーションのために重要。単に英会話の文章を覚えても意味がない。

フロアからの質問
・山本:まったく知らない言語で対話するということが、エンジニアリング的に可能なのか?世界中にある言葉を解読するようなことが可能なのか?
・古井:実は来年3月に退職したら、そういう研究をしたいと思っている。音声認識の対象となる言語は少ししかなく、しかも多くの言語は文字がなくて、絶滅しようとしている言語も多い。そういう言語や文化を、我々の技術でモデル化したい。それができれば、死に絶えようとしている言語をのこすことができるかもしれない。
・山本:数千年前の言語の語根が現在の言語に残っている、その痕跡が音として残っているのを探すというのも面白いのでは。
・中川:そういう話に自分も興味があり、言語獲得をしばらく研究していた。ある程度はできるが、人間並のパターン認識能力がないと実現できないと言うことで、現在はやめている。パターン認識能力が現在は高まってきているので、またやってみるのも面白いのではないか。

・奈良先端・西村:集合知などの話があったが、インターネットからどうやって音声データを集めたらよいのか。
・板倉:そういう研究をやるには、生の音声を集めなければならない。かつて、アメリカの国防省で、電話音声をタッピングして、「何語で話しているか」という研究をしたことがあった。そういう研究は、通信と情報処理を両方やっているところでしか実行できない。タッピングすることは法律的倫理的に難しいが、統計を取ることは可能だろう。
・古井:集めやすいところから集めることは可能だと思うが、人手で書き起こすことができないので、そういう部分で工夫と努力が必要。
・中川:生データをむやみに集めても使えるかどうかという問題がある。ある程度方針がないと、集めてもどうしようもない。音声自体は手にはいると思うが、それをどう使っていくかを考える必要がある。
・古井:目的をはっきり持つことが必要。アプリケーション開発が目的なら、それに役立つデータを取ることが重要。
・板倉:声のデータはなかなか外に出ないので、声を集める仕組みを考える必要があるかも。

・西村:グーグルの脅威についてはどう考えますか?
・板倉:グーグルの仕組みがどうなっているかはよく理解していないが、音声の研究にもだいぶ役立つだろう。
・古井:対抗も必要だが、仲良くすることも必要。

ツイッターから。「音声データベースをこれ以上集める必要があるのか」
音声データベース収集に対して批判的な意見が散見される。
・古井:CSJをもう一度集めるのは不可能。簡単にデータを集める枠組みが必要。

質問「いま、ご自身が博士入学あるいは卒業直後ならどういう研究をしてみたいか?」
・西村:「ご自身のピークはいつごろか」という質問もありました。
・板倉:ピークは30代後半ぐらい。もしその年代なら、集合知の研究をしたい。
・古井:はじめは個人研究、その後はグループ研究が多くなる。個人研究なら30代あたりがピークになる。音声認識が役に立つようにする研究がしたい。また、先ほどの会長の話のように、未知の言語のモデル化などもしてみたい。
・中川:アイデア的なピークは30歳前後のような気がするが、全体が見えてきて良い仕事ができるのは40歳前後だと思う。成果を期待しないでやってみたい研究としては、以前もやっていた音声言語の獲得。ただ、ものになるかどうかはわからないので実際の博士課程の研究としてはちょっと。それから、雑談的な音声対話を扱いたいと思っている。

・西村:若い人たちにメッセージを。
・板倉:「これは自分がやった」という分野を確立するとよい。特に30代ぐらいの若い人は。
・古井:音声の研究は難しく面白い。人間には可能なので、それほど難しいはずがない、何か見落としがあるはずだと信じている。若い人には、それを探してほしい。
・中川:若い頃音声をやっていて、他の分野に行って成功している人もいる。音声分野は総合的な学問。そういう分野を勉強するのは役に立つ。若い人は自信を持ってほしい。
・戸田:日本のよいところもあるので、みなさん協力して新しいものを生み出せるようにがんばっていきたい。そのために、共通のデータベースやツール共有などで、協力していく土台がある。そして海外に行きましょう。教授のみなさんは温かい目で見守っていただきたい。

これでトークイベント終了。西村先生お疲れさまでした。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...