音声処理向け拡張タグ仕様「SALT」1.0版公開 36
ストーリー by yourCat
毎度の産みの苦しみ 部門より
毎度の産みの苦しみ 部門より
skimsr曰く、 "HTMLなどの既存のマークアップ言語の拡張タグとして用いる事で、音声応答によるブラウジングや読み上げ等を可能にする規格「Speech Application Language Tags (SALT)」の1.0版 (初版) が公開されました (記事1、記事2)。SALT Forumのページからダウンロードできます。
SALT Forumの設立メンバーにはMSも入っており、既にSALT仕様の音声応答ソフト開発環境のベータ版 (.NET Speech SDK) も提供されています。SALTは今後、標準化団体に提案されるとの事です。
一方、SALTと同様の (先に提案された) 規格として、W3CのVoiceXML Forumで標準化が進んでいるVoiceXMLもあり、先日Ver2.0のワーキングドラフトが公開されました。こちらはコールセンターやチケット電話予約における音声自動応答システムなどで既に使われています (沖電気の事例)。
SALTにはMSが積極的に参加しています (MS以外の多くの企業はSALTとVoiceXMLの両方に参加しています)。TabletPCでもペンだけでなく音声入力ができますが、MSとしては次世代I/Fとしての音声に注力していき、主導権を握りたいという事なのでしょう。
個人的には音声I/Fはまだまだ課題が多いものの、魅力的なI/Fだと思っています。/.Jの方々はどうお考えでしょうか?
VoiceXMLにせよSALTにせよ,標準化が順調に進み,音声I/Fを利用したアプリの開発環境が整えば良いなと思います。"
擬人化I/F (スコア:3, おもしろおかしい)
と会話しながら操作をするという研究をやってましたが、大変な
リソース喰いでした。音声認識エンジン立ち上げるだけでメモリ
30MB喰いましたから。今でも喰うのかな?
メールのチェックやファイル検索、アプリケーションの起動を音
声で行えるようにしましたが、結構気持ち良かったです。
たまに誤認してシャットダウン処理に入ってましたが。
Re:擬人化I/F (スコア:0)
「蒸着!」「赤射!」「がんばれ!鉄人!」
ああ、うるさい。
Re:擬人化I/F (スコア:0)
とりあえず、インターフェース部分は音声で。
#「最近オープンしたラーメン屋があるので,そこに行きましょう」
Re:擬人化I/F (スコア:0)
面白いことになっちゃったりするんでしょうか?
#歌詞に合わせて踊るとか、飛ぶとか、ダッシュするとか
話者認識くらいはするのかな?
Re:擬人化I/F (スコア:0)
誘った以上、一緒に味わっていただきたく。
だからってガソリンスタンドに誘われても嫌だけど(笑)
#車でwebブラウズする時とか、いいのかなぁ。
#日産のカーウィングスみたいな感じで。
#あの音声合成は勘弁だけど。
Re:擬人化I/F (スコア:0)
VoiceXML の記事修正 (スコア:3, 参考になる)
「W3C の VoiceXML Forum」という表現は違います. VoiceXML は,もともと VoiceXML Forum という W3C とは独立した組織で検討され,1.0 仕様が策定されました.この内容は W3C に submit され,Note として公開されています. (W3C で submission というのは,メンバー団体が策定した仕様を「ご参考」という形で提出することで,その結果公開されたものは Note という位置づけになります.Note は W3C の標準仕様ではありません.)
その後,仕様の検討作業が W3C の Voice Browser Working Group に移管され,2.0 仕様が Working Draft として公開されたのです. VoiceXML Forum 自体は,VoiceXML の普及活動を行う団体として存続しています.
ついでに言えば,XHTML+Voice [w3.org] という関連仕様 (これも Note) もあります. これは,XHTML と VoiceXML とを 組み合わせて使う使い方を決めたもので, 画面表示と音声対話とを同時に行うことが可能になります.
Re:VoiceXML の記事修正 (スコア:1)
誤りのご指摘ありがとうございました。参考になります。
# 標準化関連はややこしい…,なんて言い訳になりませんね。すいません。
お礼ついでに。
VoiceXMLとSALTについて解説したページ [fujitsu.com]がありました。
リンク先でも解説されてますが,VoiceXMLは元々,電話での音声応答ダイアログを記述するために検討されたという背景があります。そのため,より自由度の高い応答や,音声以外も扱えるマルチモーダルな記述言語への要望が高まっています。W3CでもMultimodal Interaction Activity [w3.org]で検討されていますし,国内でもマルチモーダル記述言語XISL [tut.ac.jp]などが研究されているようです。この辺の動きにも注目したい所です。
VoiceXMLの標準化に参加している研究者の方が,以前(昨年),「VoiceXMLの標準化がゴタゴタしているので,研究者としてはその間に一歩先を見据えた提案をしないと」と仰ってました。標準化には苦労がつきものなんですね…。
Re:VoiceXML の記事修正 (スコア:1)
# 恥の上塗り…。
自分はしゃべりたくないなあ (スコア:2, 参考になる)
自分がしゃべるのは嫌だなあ。
私の声は通りにくいので、人間相手でも聞き返されることが多いのよ。
なので、ボタンを押すようなI/Fのほうがよっぽど早い気がする。
ATMみたいに、慣れてるシステムなら数秒で入力できるので、
音声I/Fに取って代わられるのは嫌だな。
音声I/Fが好きな人もいるだろうから否定はしないけど、
通常のI/Fも残しておいて欲しい。
Re:自分はしゃべりたくないなあ (スコア:1, おもしろおかしい)
個人的には、私も従来のI/Fも残して欲しいと思う方ですが、共存出来れば問題なし。
昔っからある技術だけど、使いどころが難しくて、浸透してないと言うことなのかな>音声認識
#8ビットPCで作った、音声認識ブロック崩しとか、懐かしいw
#右、右、ミギー!とか叫んでパドル移動
Re:自分はしゃべりたくないなあ (スコア:2, 参考になる)
ここで書いたゲームなどには、ナショナルのJR-800 [nifty.ne.jp]ってマシンの音声認識機能を使ってました。
認識結果をシリアルで転送して、ドライバで拾い、BASICに渡してましたので、BASIC上ならすべての操作が、音声で可能でした。
マシン語ダンプの音声入力、入力結果を読ませての読み合わせなど、非常に使えるヤツでした。
Re:自分はしゃべりたくないなあ (スコア:1)
ファミスタ(オフトピ) (スコア:1)
Re:ファミスタ(オフトピ) (スコア:0)
普通(?)はやらん。
それとも、そうしないと勝てなかったのか?
または 心理攻撃のつもり?
使い分けされるでしょうねぇ。 (スコア:1, 参考になる)
音声入力が普及してもGUIやCUIが併用されるでしょうね。
個人的には、ショートカットに音声入力が使えると便利だと思う。
フォルダやスタートメニューの階層が深い時、目的のファイルや
フォルダの名前は分かってるのに、どこから辿るかど忘れする
ことがあるんですよね。こーいう時に音声でショートカットできる
といいかなぁ、と思うことがたまに。
技術的には本格的な音声入力より容易だと思うけれど…。
Re:使い分けされるでしょうねぇ。 (スコア:1)
病名とか口座番号なんかを叫ばれたら、多分困るのではないかと。
Re:使い分けされるでしょうねぇ。 (スコア:0)
Re:使い分けされるでしょうねぇ。 (スコア:1)
ショートカットとして使うなら十分実用的だと思います。
数字だけしか音声認識しないけど、登録したコマンドを実行できるとか。
132とか呼ぶと、slashdotのページを表示するみたいな。
複数のマシンを持ってると、
音声に対応して欲しいと思います。
自分でも作りたいけど、まだ技術がありません。
Re:自分はしゃべりたくないなあ (スコア:1)
サービスタグナンバー(アルファベット入り)を機械に向かって
発声しないといけないんですよね。
あれ、客先でちょっと恥ずかしかったりする。
Re:自分はしゃべりたくないなあ (スコア:1)
目の前で音声入力されたメールが、自分のPCで読み上げられたら・・・・イヤすぎる。
AMIGA4000T(60/50)使い
Re:自分はしゃべりたくないなあ (スコア:1)
-- 哀れな日本人専用(sorry Japanese only) --
Re:自分はしゃべりたくないなあ (スコア:1)
音声をやってる人たちは、取って代われるなんて思ってないから大丈夫ですよ。
実際、音声入力には向き不向きがはっきりしてますから、例えばATMのような場面で音声入力を使うことはほとんどないでしょう。
#ホームバンキングならありうるかもしれないけど。振込先口座の入力なんかには使えそう
音声が力を発揮するのは、例えばキーボードが使えないような機械であるとか、数百件のデータの登録された住所録から一発で目当ての人物を引っ張ってくるとか、そういうのですね。
#PDAとか電話とか…
私は滑舌があまりよくないので (スコア:0)
コンピュータ「OK、マイケル、ホロコーストですね」
(コンピュータ準備開始)
てなことになりそうで…。
そういやタグとは最早関係ないんですがスタートレックに出てくる
ピンバッジによる通信てあれも案外お間抜けだしセキュアじゃないよなあ…。
抜群の臨場感 (スコア:2, おもしろおかしい)
仕様を読んだわけではないけど,いずれはCSSのときみたいに「HTMLでは聴きばえを定義するべきではない」なんて意見が出てくるのでしょうか?
#パソコンは無口で素っ気無いくらいがかわいいと思うけど.
Re:抜群の臨場感 (スコア:1, 参考になる)
CSS2では、音声スタイルシート [kyushu-u.ac.jp]も定義されています。
Re:抜群の臨場感 (スコア:1)
ぱっと見た瞬間
古畑任三郎ボイスで読み上げるF1サイトとか
に読めた。
#絶対アクセスしたくない(-_-;)
Re:抜群の臨場感 (スコア:1)
# お約束だけど、人名ですからね
×古館一郎○古舘伊知郎
Re:抜群の臨場感 (スコア:1)
ご指摘ありがとうございます.
magicTalk (スコア:2, 参考になる)
General Magicという会社が携帯電話向けの
音声対話インタフェースのプロダクトをやって
ような記憶が...
調べてみると今はmagicTalk [generalmagic.com]と
いうものにまとまっているようです。
#この会社がまだ残っていたこと自体驚き(笑)
携帯電話と言えば... (スコア:1)
セルラー(現au)のヤツ持ってましたが、相手の名前をボイスコマンドで登録しとくと、勝手にダイヤルしてくれる機能がありました
「じたく」とか喋れば勝手に自宅へ電話かけてくれました
最初は面白がって使ってましたし、誤認識もあまり無かったのですが、電話を通して誰かと会話するというのではなく、まさに電話に向かって話し掛けるというのは何か虚しいものがあって使わなくなってしまった
<おふとぴ>
該当機種をWebで探したのですが、もう無くなっちゃってるようですね。
Webのページなんかは、紙のカタログと比べて段違いに保存コストが安いのですから、昔のページをそのまま残しておいて欲しいですね。 そうすれば、わざわざ歴史のページ [panasonic.co.jp]なんか作らなくても、昔のページそのものが歴史の一ページとして残るので。
たとえばIBM [ibm.com]なんかはかなり古い機種でもページを残してありますね。 携帯と違って旧機種を中古で手に入れて使う人もいるという面はあるでしょうが。
</おふとぴ>
Re:携帯電話と言えば... (スコア:1)
ボイスダイアルのことですね。うちの現役バリバリの携帯はP157ですが(古っ(^^;;)これにもついてます。
あとP209iとかにも付いてましたね。最近のにもあるんじゃないですか?
この機能、面白いんだけど、使う必然性をまったく思いつかないのが難点ですね。ソニーとかなら、うまい使い方を提案してくれそうなんだけど…
マルチモーダル (スコア:1)
VoiceXMLよりはPC向けっぽいし、PocketPCとかTabletPCあたりで使えると面白そう。
#国産で似たようなやつとしてはXISL [tut.ac.jp]なんてものがあるそうですね。
Re:マルチモーダル (スコア:1)
こちらのVoiceXML擬人化対話エージェントの開発 [kit.ac.jp]では,マルチモーダル向けのVoiceXMLの拡張案(その1 [kit.ac.jp],その2 [kit.ac.jp])を検討しているようです。
同じサイトに,VoiceXML 1.0の日本語版 [kit.ac.jp]もありました。
Re:マルチモーダル (スコア:1)
IBMとOperaがMultimodalブラウザを共同開発 [mycom.co.jp] だそうです。