fslasht (3370) の日記

2004 年 02 月 10 日
午後 12:11

今日のニョキニョキ部 音声認識編

STATUS: 故障中

あなたのこと 嫌いじゃないの 嘘じゃないわ ほんとよ
らの調べが基本で飛び交 ってゆき良き 預金雪

夕焼けの街角で 初めて会った時
君たちから白い糸を紡いでいたあなた
うつむいた横顔が 寂しそうだったで
ときめきさえ知らなかった あのころが 同
四本目の意味がなくなるころ いつか見てた夢もあるわ

ぬは不死なら 絞った後に 塩漬けするレシピを
羅臼岳楽器モンデール理科 を抜き良き 雪雪

嘘でもいい 夢でも 花が 7mになれば

今季二.依頼して 富蒸作ったの
苫がなんて言わないでね 口癖だけど
コンサルタントみたいな メガネ式を 大好き
文化包丁振り上げて 追いかける 部
七本目の足が入る頃 ぬかりな事が運ぶの

 Microsoft Speech SDK5.1とランゲージパックをインストールしてみました。
 上の文章はニョキニョキの歌詞を朗読したものを音声認識させたものです。
(繰り返し部分は省略しました。またセリフ部分も入っています。)
 意外と正しく認識しています。ただ辞書にない言葉はぜんぜんだめですが。

あなたの小唄、いらいじゃないのが社会には本当にお
らずすら、来期の積んでるリッターや企業金融や金魚機

いう大やけどまあ地下道で始め、あーったった金い
指先からは白い息統合ツールーズに出たアンナタール
部西部に太陽光がポーカーく寂しいさわったった
年適齢期に賛成しあなたはカッターアーナを転がる工夫
四本目どういうビギナーを なあ、みな流行炉を 一年間に停滞有名もうはルアーは

七泊シンナーらしいぽーった後に治癒血流停止言いようが
うっすら米大き二個出るリターン抜きには紀伊預金に陥

るすべもいい夢でも 花が7mになれば

トン級二基にお願いし、都銀の融資に作ったの
とまだ断定はない一.年九チームセーター系同
コンサルタントを見たりになってが年収、八幡へ接近い
文化包丁を繰り上げ決定後、一家計十六ノ十
七本目の橋イヤーのアーチ形で強盗を メーカーになあ、強盗が発行ブドウを

 これは、ニョキニョキを歌ってみたものです。
 かなり厳しいです。もともとアレな歌詞でしたが、さらに病気が進んでしまった感じです。
 元の歌詞を知っていればなんとなく関連性はわかります。

、午後の鉄道を運営 倉庫群銀に上るのも防護軍をオープン土壌動物人 人の応援するのは自分のことで運営する鋳造品の群馬銀も充実、ルービンにそう思って気に続き、年々増え、みんな四分。みんな 十三人に 門が、軍は10:00の25万円へ 通うのはわずか15億 ペソを思 う輸入物価も同35分29分十―二年になる運輸相を維持し ながらも、何円で同29 円台で、伊藤さん夫婦別姓をウエハーう前年並み、もう十三号神戸線は十二年108,080 万円に沿って進 む中で思うようになるのは邦銀など二十電通 グループを退任、自然と人間を襲って彼らが1.6キロ年以降も売った誘致に熱心あったレンズのは、何年も何年も尾を八等 で第三の方もった理由で前年比十七分えない姿勢 半面二年。聯合晩報が四 班円也、と思わぬってヘッジ銀、ったですむ、ヤンゴンを訪問、八年中につづったものに相談しになってに沿っている った最も売り上げが4553ドル十二年にいったんロンドンは、こう思う 店も あ った。平和は難航、オウム関連記事十二年十―20万円、十―十年物のは10万円に上九

 これは、78姐さんのボーカルトラックを聞かせて認識させてみたところです。
 もはやなんだかわかりません。
※ 音声認識前に話者に合わせて認識エンジンをトレーニングする必要がありますので、その点でも不利です。

八日に陥る気持や強気預金八預金八口や知的に契約に増やすべき節目を強く非難しって気楽に圧力が強く約二年に新建屋に達しなくてに陥る企業に躍起だ、やっていう気持削減期限の安い一も2.18日付余地なく元気にやっていった理念に躍起になってやってい家賃を見ですが、約100日を期限によって飛躍に向き預金やってやっていくには、八期で、よく見て知った

 これはひたすらニョキニョキ…としゃべったものを認識させたものです。
 なんか受信してしまっています。
 ニョキニョキ言っているだけで、こんな複雑な事象を語っていたとは自覚していませんでした(お

● MS謹製音声認識エンジン(無償)を試してみよう

 音声認識ソフトはViaVoiceやDraganSpeechなどさまざまなソフトが販売されていますが、Microsoftの音声認識エンジンを使うことでも、音声認識(日本語対応)と読み上げ(現状英語のみ?)が出来ます。
 音声認識エンジンは、OfficeXPに付属または、Microsoft Speech SDKをダウンロード(無償)することで入手できます。
 
▼ ダウンロード・インストール

 ダウンロードと設定の仕方は、西村誠一氏のツール「音声認識-音声コマンドTool」の説明がわかりやすいです。
 実は、このツールを使うために認識エンジンをいれてみました。
 OfficeXPがインストールされている場合は、すでにインストールされていますが、入っていない場合は、「音声認識エンジンのダウンロード&インストール」を参考にインストールしてください。
 現状では、Microsoftサイト内でのダウンロードページのURLが変わっています。以下のURLからダウンロードしてください。
Speech SDK 5.1
 次のファイルが必要です。
・SpeechSDK51.exe (69606 KB)
・SpeechSDK51LangPack.exe (83492 KB)

 インストール後の設定は、音声認識-音声コマンドToolのマニュアルのとおり作業を行えばOKです。
(1) SpeechSDK51.exe をインストール
(2) SpeechSDK51LangPack.exe をインストール
(3) コントロールパネルから「スピーチ」(または「音声認識」)を選択
(4) 「言語」を「Microsoft Japanese ASR Version 5 Engine」に選択
(5) 「プロファイリングのトレーニング」ボタンを押してトレーニング開始

 トレーニングを行うことで、利用者に合わせて音声認識の調整が行われます。
 性別、年齢を入力後、例文をマイクで読み上げます(4,5分くらいの分量)。

音声認識-音声コマンドToolを使ってみる

 このソフトは、「コンピューター」と言った後、コマンドを話すことで設定されたプログラムを実行します。
 たとえば「コンピューター」(ピコーン※確認音)「電卓」と話すと、calc.exeが起動します。
 これはなかなか面白いです。
 コマンドは定義ファイル(テキスト)を編集することで追加できます。
 ただ試作品のため、厳密にコマンドを発声する必要があります。
 僕の場合「メモ帳」と発声したつもりが「メモ帳を」と認識されてしまい、コマンド実行できないことがありました。
 また辞書に載っていない単語は、認識されない(されづらい)ようです。
 「ニョキニョキ」で音楽再生開始するように設定してみしたが、どう発声しても「ニョキニョキ」と認識されませんでした。
 単語の追加はSDKの付属ソフトで出来ると思いますが、まだよくわかりません。

▼ SDK付属ソフトを使ってみる

 SDKには、サンプルプログラムが付属しており、インストール時にいっしょにインストールされますので、これを使うことで基本機能を利用することができます。
(サンプルプログラムにはVC用のソースが付いています)

・音声認識(シンプル)
 スタートメニューの「プログラム」→「Microsoft Speech SDK5.1」→「C++ Samples」→「Simple Dictation」
 起動するとテキストボックス1つだけのシンプルがウィンドウが開きます。
 マイクに向かって話をすると音声認識された文章が入力されます。

・音声認識(訂正機能付き)
 スタートメニューの「プログラム」→「Microsoft Speech SDK5.1」→「C++ Samples」→「Dictation Pad」
 認識結果を後から訂正したり指定箇所の認識もとのの音声を再生することが出来ます。

・文章読み上げ(英語)
 スタートメニューの「プログラム」→「Microsoft Speech SDK5.1」→「Tools」→「TTSApp」
 テキストボックスに入力した文章(英文のみ)を読み上げます。
 その場で再生するかWAVファイルに保存することが出来ます。(Flashの素材に使えるかも)
 また声(男声2種類,女声1種類)、読み上げ速度を選択できます。
 口調は平坦ですが文章に「!」マークがあるとイントネーションが変わります。

▼ おわりに

 Microsoft Speech SDKの音声認識は、結構実用的に使えることがわかりました。
 長文の認識は市販ソフトを使って方が良いかもしれませんが、適切な用途を選べばかなり使えそうです。
 サンプルプログラム(VC,C#,VB)もありますし、自作ソフトにもSDKを利用した音声対応を取り入れてみるのも面白そうです。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

最初のバージョンは常に打ち捨てられる。

処理中...