パスワードを忘れた? アカウント作成

ログインするとコメント表示数や表示方法をカスタマイズできるのを知っていますか?

3152259 journal
日記

aitoの日記: 5月11日(金)NL/SLP研究会@東京工業大学まとめ

日記 by aito

【学生セッション3:学習・システム】
[9:30-12:00]
(2) 外国人の検索クエリに対する音訳手法の適用 
   辻理絵子,木村健,古宮嘉那子,小谷善行
外国人が日本語の情報を得るために英語(等)で入力した検索クエリを日本語クエリに変換する。ただし翻訳ではなくて、音で変換できる場合のみ。CMUDICTを使って英単語を音素列に直し、それを日本語の読みに自動変換。読み推定のためのモデルはBigram, HMM, CRFを検討。英語の音素と日本語のカナ文字との間でアライメントを取るのはちょっと無理がある気が。評価はなぜか主観評価。3つの手法の中ではHMMがよいが、適合率としては0.1前後。この方法では一旦単語を音素列にしてからカナ文字列にしているが、graphemeから直接変換したほうが良いのではないかと思った。

3133238 journal
日記

aitoの日記: 5月10日(木)NL/SLP研究会@東京工業大学まとめ

日記 by aito

【学生セッション1:検索・要約・対話】
[13:00-14:30]
(1) 属性-評価ペアを単位とした評判情報の要約
   菊池悠太,高村大也,奥村学
製品レビュー文書の自動要約。属性語と評価後のペア(「吸引力―強い」等)を抽出し、それをクラスタリングして代表ペアだけを選ぶことによってレビューを要約する。属性・評価ペアの抽出は係り受け解析と簡単なルールに基づいていて、あまり凝ってはいないようだ。代表ペアの抽出を「施設配置問題」として定式化。代表ペアの数を決めたとき、他のペアとの類似度が出来るだけ高い代表ペアが選ばれるよう代表選択とクラスタリングを同時に行う。類似度としては、文字列上の一致、コーパスやWeb(Google Ngram)での共起等を比較した。評価対象は掃除機のレピューデータ約14000文。類似度として、表層的な一致を用いたものが最も高性能。

2103631 journal
日記

aitoの日記: EMM研究会@大阪大学 まとめ

日記 by aito

2012/03/16 09:34

・情報ハイディングと画質改善法を用いたJPEGカラー画像の圧縮効率の改善(九工大)
間に合わなくて聞けなかった。JPEGのカラー情報を濃淡画像に埋め込み、それを読める人だけがカラー画像を復元できるという枠組みらしい。

・副音響信号のハイディング機能を持たせた音楽電子透かし技術“ゲンコーダMark for COPY PROTECT”(第日本印刷)
茂出木さん。冒頭に著作権管理と電子透かしのわりと丁寧なレビューがあった。前回の提案はアナログ録音すると雑音が聞こえる電子透かしだったが、今回は折り返し歪みを利用して、ダウンサンプリングすると雑音が聞こえるという方法。アンチエイリアシングフィルタに対応するため、フィルタであまり減衰しない領域しない(fs/4付近)で折り返し先の信号をキャンセルするような信号を入れておいて、元信号を減衰させた上で雑音を発生させる。実際問題としてどの程度うまくいくのかなあというのが感想。

2103624 journal
日記

aitoの日記: 音響学会3日目午後 音楽音響&音声A

日記 by aito

音楽音響 音楽情報処理I

・楽曲間主観的類似度データの収集実験(名大)
武田研。80局の楽曲について主観的な類似度評価を行った。その結果の統計を分析。また、楽曲から抽出された短時間特徴量による特徴ベクトルをカテゴリごとにベクトル量子化し、そのコードベクトルの出現頻度の対数を特徴量とする。そのユークリッド距離と、主観的に似ていると答えた人数の相関を観測する。「楽器構成」の主観的類似度との相関が比較的高い。「似ている」の定義についてディスカッションがあった。

・旋律に潜むジャンルの特徴(東京都市大)
メロディーの塊(音高フレーズ)の形状を特徴として分析。音高フレーズは、上がって下がるメロディーを1つの単位としてみたもの。音高フレーズの形について、音符数・高さ・幅・非対象性などの特徴を抽出し、その特徴とジャンルの関係を調べる。

2103621 journal
日記

aitoの日記: 音響学会3日目午前 音声Aポスターセッション(聞いたものだけ)

日記 by aito

・音声認識誤り検出のための相対的意味信頼度(NEC)
コンフュージョンネットワークを使った単語信頼度推定手法だが、通常のような事後確率ではなく、ネットワークの各単語位置ごとに周囲の単語コンテキストから単語を識別する識別器を学習し、それを使って信頼度を推定する。認識される文の単語数分だけ識別機の学習をするという富豪的方法。

・話者や発話固有の特徴の違いに注目した認識性能の個人差の要因分析(静岡大)
さまざまな特徴(話速、母音間距離、構造歪など)から個人ごとの音声認識性能を予測する試みだが、いまいちうまくいかないので、ある認識精度より高いか低いかを識別してみた。その結果から、各特徴量で見る優劣と最終的な認識性能の高低の関係を調べた。目的がよくわからなかったが、声を聞いただけでわかるわけではない特徴(話者適応したあとのHMMを使う特徴とか)があって、もっと直接音声だけから観測される特徴を使ったほうがいいのかなと思った。

2086775 journal
日記

aitoの日記: 音響学会2日目午後 音声B&音声A

日記 by aito

音声B 信号処理・符号化
・ACELPゲインコードブックの可変長符号化(NTT)
「G.718符号化のゲインコードブックがもし可変長だったら」という研究。G.718ではGeneric Coding とVoiced Coding という2つの符号化モードがあるが、それぞれに対して改めてVQでコードブックを作り直すことでSNRがちょっぴり向上したが、ビットレートもちょっと増えてしまった。そこで、「エントロピー制約ベクトル量子化」(ECVQ)でVQをやってみた。これはVQの評価関数(2乗歪み)にエントロピーを加えたもの。ECVQによってちょっぴり性能向上。LBGでVQをするとエントロピーが増えるのが自然なので、そこに制約を入れるとどういうコードベクトルが学習されるんだろうか。

2086761 journal
日記

aitoの日記: 音響学会2日目午前 音声Aスペシャルセッション&音声B

日記 by aito

音声Aスペシャルセッション 音声研究におけるネット上の情報基盤の活用

最初に速水先生が趣旨説明。「集合知」「ソーシャル」あたりがキーワード。

○Web時代の音声言語処理(中村哲 (NAIST))
NICTでやってきた音声言語処理をまとめて紹介。全体としては、すでに存在するデータの利用というより、実サービスによってデータを収集しながらシステムを改良するという話のようだった。

【背景】
・インターネット上のデータ:膨大、非構造、多言語、マルチモーダル
・ネットワーク上の集合知 Wikipedia、各種SNSなど
・ネット上の様々な情報(音声、画像、映像、物体など)を結びつけるために言語タグが重要。E-commerceは物体に言語タグをつけて利益に結びつける
・ネット上の情報を探すためのインタフェース。ほしい情報がたくさんあるほど、不便なインタフェースでも我慢できる
・ネット上の知識によってコミュニケーションを支援する

2032812 journal
日記

aitoの日記: 2011年3月13日

日記 by aito

1年前の日記は12日までしか書かれていない。

このあと、13日には朝の新幹線で新潟まで移動し、新潟のドンキホーテと100円ショップで大きなカバンいっぱいものを買って、駅前のホテルで1泊。

14日には、咸さんと鈴木研のメンバーとバスで山形まで移動し、さらに山形から仙台へバスで移動。咸さんは韓国領事館が用意した便で一時帰国していった。自宅に戻ると、自宅の被害は軽微で、家族がひっそりと暮らしていた。

15日以降出勤。私の研究室があった建物は壊滅して立ち入り禁止。その日は一旦出勤したあとすぐ帰宅し、自宅で過ごす。

16日から、情報広報室の仕事を手伝うことに。災害用のホームページを作ったり、情報収集・広報のためのCGIを書いたりしてしばらく過ごすのだった。

2032630 journal
日記

aitoの日記: 2011年3月12日

日記 by aito

1年前の日記.途中までしか書いてないのでずっとお蔵入りしていたが、1年経ったのでそのまま公開.
------

3月12日(土)

意識がなく寝たのは3時間ぐらいだろうか。寝たり起きたりしながら、4時半頃活動を再開する。もう一度高速バスのカウンターに行ってみたが、東京仙台便の運行がどうなるかは3時頃わかる予定だそうだ。JRの各線が7時頃再開、山手線は8時頃再開というアナウンス。

さっきまでいた場所よりも、地下街の方が暖かいので、そっちに移動してもう少し休む。6時頃もう一度寝て、8時に係員に起こされる。せっかく具合よく寝ていたのに。列車が回復したから起きてどこか行けというのだが。駅の中はすごい混雑で、まだ再開していない山手線の階段には長い列ができている。休む場所もないので八重洲口から外に出て少し歩いてみたが、休める場所はない。しかたないので丸の内ビルにもう一度移動。

2032612 journal
日記

aitoの日記: 2011年3月11日

日記 by aito

1年前の日記.途中までしか書いてないのでずっとお蔵入りしていたが、1年経ったのでそのまま公開.
----------
2011年3月11日(金)

朝6時半ぐらいに起きる。朝食はカロリーメイト2本。昨日の懇親会で大量に食べたのでちょっと胃がもたれている。
シャワーを浴びて、メールチェックなど。8時過ぎに、これまで3泊していた池袋のサクラホテルをチェックアウト。荷物はキャリーバッグだが重い。早稲田大学理工学部で開催されている日本音響学会春期研究発表会の最終日に参加するため、池袋駅から副都心線で西早稲田へ。

早稲田大学到着は9時ちょっと前だったが、セッションは9時半からなので、しばらく休憩所でコーヒーを飲みながら今日のセッションの論文概要を眺めたりする。

9時半から10時半まで音声Aの言語モデルセッション。うちの増村君の発表その1がある。そのほかにもおもしろい発表があった。

1994235 journal
日記

aitoの日記: 2012/3/7 情報処理学会全国大会2日目

日記 by aito

1日目は用があって東京.明日は朝から仙台に戻って来週の音響学会の発表練習をする予定.

学生セッション[3S会場]作曲・編曲

3S-1 ユーザの意図を考慮した、旋律への自動コードネーム付与システム
○千布佳菜子,久保田光一(中大)
メロディへのコード付与。参考にする複数の曲から統計を取り、それに似たメロディを付与する。コードを直接付与するのではなく、tonic/dominant/subdominantの基本コードを介している。基本コードと実際のコードの対応はユニグラム。生成方法が単純なのも問題だが、合成したい曲と似たコードを持つ曲を参考曲として入力する方法では、コード生成確率のスパースネスが問題になるので、あまり良い方法ではないと思った。

1994215 journal
日記

aitoの日記: 2012/2/9 SP・PRMU共催研究会1日目午前

日記 by aito

・CRFを用いたTVの興味市長区間の推定方法(NHK技研)
苗村さん。テレビを見ているときのユーザの顔向きや表情など(以前の内容)、人物の動作情報に加えて、視聴・操作履歴によって視聴者の興味(主に「番組のどこの部分に興味を持っているか」)を推定する。操作リモコンはタブレットPCを想定。認識手法はLatent Dynamic CRF(隠れ層があるCRF)。5秒程度のセグメントから特徴量の統計を取って、そこから素性を生成する。実験では、一度被験者にテレビを見せた後、もう一度見せてどこに興味があったかをラベリングさせる。結果として、画像だけの情報より操作情報だけの方が性能が高く、画像と操作情報を組み合わせるとさらに性能向上。識別率はオープンで71%ぐらい。ルールベース(画像情報のみ)の性能が案外良くて、画像情報+CRFより高性能。データが少ないせいだろう。

1486533 journal
日記

aitoの日記: 2/4 SIGMUS&SIGSLPまとめ

日記 by aito

午前はMUSとSLPのパラレルセッション.私はSLPの方に参加.
MUS側ではうちの学生が参加しているので,あとでニコ生をチェックしよう.

2月4日(土)

●対話とインタラクション 【09:50-10:40】
(19)単一対話エージェントと複数対話エージェントを用いた音声対話システムの分析と評価
   藤堂祐樹,西村良太,山本一公,中川聖一
エージェントが複数(2体)いる対話システム.対象は雑談(うどんとラーメンのどちらが好きか).ユーザプロファイルは複数エージェント間で共有する.いろいろ制御しているが,どの程度一般的なのか疑問.エージェント表示はTVML,音声合成はGalateaTalk.主観評価の結果,「話しやすさ」「雑談らしさ」で3者対話の方が高評価.音声認識率と様々な指標の相関を見た結果,親しみは音声認識率に依存するが,雑談らしさはあまり関係ない.次回は「きのこの山vs.たけのこの里」でやるといいと思った.

1486526 journal
日記

aitoの日記: 2/3 SIGMUS&SIGSLPまとめ

日記 by aito

2月3日(金)

●スペシャルセッション「歌声情報処理最前線!!」第1部 【13:15-14:20】
(1) 自動学習により人間のように歌う音声合成システム―Sinsy―
   徳田恵一,大浦圭一郎
音声合成の現状とHMM音声合成の説明。感情音声合成と音声の補間・外挿。話者適応デモ。
歌声合成システムSinsyの説明。ニコ動への投稿作品の紹介。
Sinsyに対するフィードバックへのコメント.歌声のモデル補間.波音リツの中の人の声から話者適応した歌声デモ.

(2) アマチュア歌唱エンタテインメントのための熱唱度評価システムSEES
   大道竜之介,伊藤仁,牧野正三,伊藤彰則
大道君の名調子.SEESデモで飛び入りを募ったら本当に歌う人がフロアから来たのには驚いた.人間による熱唱度評価と知覚の分析,SEESの特長量と統合方法.熱唱度評価の時間長依存性,ビブラート能力と熱唱度の関係などについて質問があった.

typodupeerror

未知のハックに一心不乱に取り組んだ結果、私は自然の法則を変えてしまった -- あるハッカー

読み込み中...