パスワードを忘れた? アカウント作成

Idle.slashdot.jpは、あなたの人生において完全な時間の浪費です。見るなよ、見るなよ。

3152259 journal
日記

aitoの日記: 5月11日(金)NL/SLP研究会@東京工業大学まとめ

日記 by aito

【学生セッション3:学習・システム】
[9:30-12:00]
(2) 外国人の検索クエリに対する音訳手法の適用 
   辻理絵子,木村健,古宮嘉那子,小谷善行
外国人が日本語の情報を得るために英語(等)で入力した検索クエリを日本語クエリに変換する。ただし翻訳ではなくて、音で変換できる場合のみ。CMUDICTを使って英単語を音素列に直し、それを日本語の読みに自動変換。読み推定のためのモデルはBigram, HMM, CRFを検討。英語の音素と日本語のカナ文字との間でアライメントを取るのはちょっと無理がある気が。評価はなぜか主観評価。3つの手法の中ではHMMがよいが、適合率としては0.1前後。この方法では一旦単語を音素列にしてからカナ文字列にしているが、graphemeから直接変換したほうが良いのではないかと思った。

3133238 journal
日記

aitoの日記: 5月10日(木)NL/SLP研究会@東京工業大学まとめ

日記 by aito

【学生セッション1:検索・要約・対話】
[13:00-14:30]
(1) 属性-評価ペアを単位とした評判情報の要約
   菊池悠太,高村大也,奥村学
製品レビュー文書の自動要約。属性語と評価後のペア(「吸引力―強い」等)を抽出し、それをクラスタリングして代表ペアだけを選ぶことによってレビューを要約する。属性・評価ペアの抽出は係り受け解析と簡単なルールに基づいていて、あまり凝ってはいないようだ。代表ペアの抽出を「施設配置問題」として定式化。代表ペアの数を決めたとき、他のペアとの類似度が出来るだけ高い代表ペアが選ばれるよう代表選択とクラスタリングを同時に行う。類似度としては、文字列上の一致、コーパスやWeb(Google Ngram)での共起等を比較した。評価対象は掃除機のレピューデータ約14000文。類似度として、表層的な一致を用いたものが最も高性能。

2103631 journal
日記

aitoの日記: EMM研究会@大阪大学 まとめ

日記 by aito

2012/03/16 09:34

・情報ハイディングと画質改善法を用いたJPEGカラー画像の圧縮効率の改善(九工大)
間に合わなくて聞けなかった。JPEGのカラー情報を濃淡画像に埋め込み、それを読める人だけがカラー画像を復元できるという枠組みらしい。

・副音響信号のハイディング機能を持たせた音楽電子透かし技術“ゲンコーダMark for COPY PROTECT”(第日本印刷)
茂出木さん。冒頭に著作権管理と電子透かしのわりと丁寧なレビューがあった。前回の提案はアナログ録音すると雑音が聞こえる電子透かしだったが、今回は折り返し歪みを利用して、ダウンサンプリングすると雑音が聞こえるという方法。アンチエイリアシングフィルタに対応するため、フィルタであまり減衰しない領域しない(fs/4付近)で折り返し先の信号をキャンセルするような信号を入れておいて、元信号を減衰させた上で雑音を発生させる。実際問題としてどの程度うまくいくのかなあというのが感想。

2103624 journal
日記

aitoの日記: 音響学会3日目午後 音楽音響&音声A

日記 by aito

音楽音響 音楽情報処理I

・楽曲間主観的類似度データの収集実験(名大)
武田研。80局の楽曲について主観的な類似度評価を行った。その結果の統計を分析。また、楽曲から抽出された短時間特徴量による特徴ベクトルをカテゴリごとにベクトル量子化し、そのコードベクトルの出現頻度の対数を特徴量とする。そのユークリッド距離と、主観的に似ていると答えた人数の相関を観測する。「楽器構成」の主観的類似度との相関が比較的高い。「似ている」の定義についてディスカッションがあった。

・旋律に潜むジャンルの特徴(東京都市大)
メロディーの塊(音高フレーズ)の形状を特徴として分析。音高フレーズは、上がって下がるメロディーを1つの単位としてみたもの。音高フレーズの形について、音符数・高さ・幅・非対象性などの特徴を抽出し、その特徴とジャンルの関係を調べる。

2103621 journal
日記

aitoの日記: 音響学会3日目午前 音声Aポスターセッション(聞いたものだけ)

日記 by aito

・音声認識誤り検出のための相対的意味信頼度(NEC)
コンフュージョンネットワークを使った単語信頼度推定手法だが、通常のような事後確率ではなく、ネットワークの各単語位置ごとに周囲の単語コンテキストから単語を識別する識別器を学習し、それを使って信頼度を推定する。認識される文の単語数分だけ識別機の学習をするという富豪的方法。

・話者や発話固有の特徴の違いに注目した認識性能の個人差の要因分析(静岡大)
さまざまな特徴(話速、母音間距離、構造歪など)から個人ごとの音声認識性能を予測する試みだが、いまいちうまくいかないので、ある認識精度より高いか低いかを識別してみた。その結果から、各特徴量で見る優劣と最終的な認識性能の高低の関係を調べた。目的がよくわからなかったが、声を聞いただけでわかるわけではない特徴(話者適応したあとのHMMを使う特徴とか)があって、もっと直接音声だけから観測される特徴を使ったほうがいいのかなと思った。

2086775 journal
日記

aitoの日記: 音響学会2日目午後 音声B&音声A

日記 by aito

音声B 信号処理・符号化
・ACELPゲインコードブックの可変長符号化(NTT)
「G.718符号化のゲインコードブックがもし可変長だったら」という研究。G.718ではGeneric Coding とVoiced Coding という2つの符号化モードがあるが、それぞれに対して改めてVQでコードブックを作り直すことでSNRがちょっぴり向上したが、ビットレートもちょっと増えてしまった。そこで、「エントロピー制約ベクトル量子化」(ECVQ)でVQをやってみた。これはVQの評価関数(2乗歪み)にエントロピーを加えたもの。ECVQによってちょっぴり性能向上。LBGでVQをするとエントロピーが増えるのが自然なので、そこに制約を入れるとどういうコードベクトルが学習されるんだろうか。

2086761 journal
日記

aitoの日記: 音響学会2日目午前 音声Aスペシャルセッション&音声B

日記 by aito

音声Aスペシャルセッション 音声研究におけるネット上の情報基盤の活用

最初に速水先生が趣旨説明。「集合知」「ソーシャル」あたりがキーワード。

○Web時代の音声言語処理(中村哲 (NAIST))
NICTでやってきた音声言語処理をまとめて紹介。全体としては、すでに存在するデータの利用というより、実サービスによってデータを収集しながらシステムを改良するという話のようだった。

【背景】
・インターネット上のデータ:膨大、非構造、多言語、マルチモーダル
・ネットワーク上の集合知 Wikipedia、各種SNSなど
・ネット上の様々な情報(音声、画像、映像、物体など)を結びつけるために言語タグが重要。E-commerceは物体に言語タグをつけて利益に結びつける
・ネット上の情報を探すためのインタフェース。ほしい情報がたくさんあるほど、不便なインタフェースでも我慢できる
・ネット上の知識によってコミュニケーションを支援する

2032812 journal
日記

aitoの日記: 2011年3月13日

日記 by aito

1年前の日記は12日までしか書かれていない。

このあと、13日には朝の新幹線で新潟まで移動し、新潟のドンキホーテと100円ショップで大きなカバンいっぱいものを買って、駅前のホテルで1泊。

14日には、咸さんと鈴木研のメンバーとバスで山形まで移動し、さらに山形から仙台へバスで移動。咸さんは韓国領事館が用意した便で一時帰国していった。自宅に戻ると、自宅の被害は軽微で、家族がひっそりと暮らしていた。

15日以降出勤。私の研究室があった建物は壊滅して立ち入り禁止。その日は一旦出勤したあとすぐ帰宅し、自宅で過ごす。

16日から、情報広報室の仕事を手伝うことに。災害用のホームページを作ったり、情報収集・広報のためのCGIを書いたりしてしばらく過ごすのだった。

2032630 journal
日記

aitoの日記: 2011年3月12日

日記 by aito

1年前の日記.途中までしか書いてないのでずっとお蔵入りしていたが、1年経ったのでそのまま公開.
------

3月12日(土)

意識がなく寝たのは3時間ぐらいだろうか。寝たり起きたりしながら、4時半頃活動を再開する。もう一度高速バスのカウンターに行ってみたが、東京仙台便の運行がどうなるかは3時頃わかる予定だそうだ。JRの各線が7時頃再開、山手線は8時頃再開というアナウンス。

さっきまでいた場所よりも、地下街の方が暖かいので、そっちに移動してもう少し休む。6時頃もう一度寝て、8時に係員に起こされる。せっかく具合よく寝ていたのに。列車が回復したから起きてどこか行けというのだが。駅の中はすごい混雑で、まだ再開していない山手線の階段には長い列ができている。休む場所もないので八重洲口から外に出て少し歩いてみたが、休める場所はない。しかたないので丸の内ビルにもう一度移動。

typodupeerror

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

読み込み中...