パスワードを忘れた? アカウント作成
3415 story

音声処理向け拡張タグ仕様「SALT」1.0版公開 36

ストーリー by yourCat
毎度の産みの苦しみ 部門より

skimsr曰く、 "HTMLなどの既存のマークアップ言語の拡張タグとして用いる事で、音声応答によるブラウジングや読み上げ等を可能にする規格「Speech Application Language Tags (SALT)」の1.0版 (初版) が公開されました (記事1記事2)。SALT Forumのページからダウンロードできます。
SALT Forumの設立メンバーにはMSも入っており、既にSALT仕様の音声応答ソフト開発環境のベータ版 (.NET Speech SDK) も提供されています。SALTは今後、標準化団体に提案されるとの事です。
一方、SALTと同様の (先に提案された) 規格として、W3CのVoiceXML Forumで標準化が進んでいるVoiceXMLもあり、先日Ver2.0のワーキングドラフトが公開されました。こちらはコールセンターやチケット電話予約における音声自動応答システムなどで既に使われています (沖電気の事例)。
SALTにはMSが積極的に参加しています (MS以外の多くの企業はSALTとVoiceXMLの両方に参加しています)。TabletPCでもペンだけでなく音声入力ができますが、MSとしては次世代I/Fとしての音声に注力していき、主導権を握りたいという事なのでしょう。
個人的には音声I/Fはまだまだ課題が多いものの、魅力的なI/Fだと思っています。/.Jの方々はどうお考えでしょうか? VoiceXMLにせよSALTにせよ,標準化が順調に進み,音声I/Fを利用したアプリの開発環境が整えば良いなと思います。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 擬人化I/F (スコア:3, おもしろおかしい)

    by Tempel (3941) on 2002年07月17日 12時10分 (#126769) ホームページ
    コンピュータの操作に不慣れな人向けということで、マスコット
    と会話しながら操作をするという研究をやってましたが、大変な
    リソース喰いでした。音声認識エンジン立ち上げるだけでメモリ
    30MB喰いましたから。今でも喰うのかな?

    メールのチェックやファイル検索、アプリケーションの起動を音
    声で行えるようにしましたが、結構気持ち良かったです。
    たまに誤認してシャットダウン処理に入ってましたが。
    • by Anonymous Coward
      「はろーこんぴゅーた」
      「蒸着!」「赤射!」「がんばれ!鉄人!」
      ああ、うるさい。
      • by Anonymous Coward
        ナイト2000 [zdnet.co.jp]
        とりあえず、インターフェース部分は音声で。
        #「最近オープンしたラーメン屋があるので,そこに行きましょう」
        • by Anonymous Coward
          ところで、こういう装備の付いた車で音楽(歌つき)聴くと
          面白いことになっちゃったりするんでしょうか?
          #歌詞に合わせて踊るとか、飛ぶとか、ダッシュするとか

          話者認識くらいはするのかな?
        • by Anonymous Coward
          行きましょう、って言われても言った本人(?)は食えないし。
          誘った以上、一緒に味わっていただきたく。
          だからってガソリンスタンドに誘われても嫌だけど(笑)

          #車でwebブラウズする時とか、いいのかなぁ。
          #日産のカーウィングスみたいな感じで。
          #あの音声合成は勘弁だけど。
    • by Anonymous Coward
      こんな会話 [biglobe.ne.jp]が繰り広げられていたらかなりヤダ。(藁
  • by numa (4467) on 2002年07月17日 13時42分 (#126823) ホームページ 日記
    一方、SALTと同様の (先に提案された) 規格として、W3CのVoiceXML Forumで標準化が進んでいるVoiceXMLもあり、先日Ver2.0のワーキングドラフトが公開されました。

    「W3C の VoiceXML Forum」という表現は違います. VoiceXML は,もともと VoiceXML Forum という W3C とは独立した組織で検討され,1.0 仕様が策定されました.この内容は W3C に submit され,Note として公開されています. (W3C で submission というのは,メンバー団体が策定した仕様を「ご参考」という形で提出することで,その結果公開されたものは Note という位置づけになります.Note は W3C の標準仕様ではありません.)

    その後,仕様の検討作業が W3C の Voice Browser Working Group に移管され,2.0 仕様が Working Draft として公開されたのです. VoiceXML Forum 自体は,VoiceXML の普及活動を行う団体として存続しています.

    ついでに言えば,XHTML+Voice [w3.org] という関連仕様 (これも Note) もあります. これは,XHTML と VoiceXML とを 組み合わせて使う使い方を決めたもので, 画面表示と音声対話とを同時に行うことが可能になります.

    • タレコミした者です。
      誤りのご指摘ありがとうございました。参考になります。
      # 標準化関連はややこしい…,なんて言い訳になりませんね。すいません。

      お礼ついでに。
      VoiceXMLとSALTについて解説したページ [fujitsu.com]がありました。

      リンク先でも解説されてますが,VoiceXMLは元々,電話での音声応答ダイアログを記述するために検討されたという背景があります。そのため,より自由度の高い応答や,音声以外も扱えるマルチモーダルな記述言語への要望が高まっています。W3CでもMultimodal Interaction Activity [w3.org]で検討されていますし,国内でもマルチモーダル記述言語XISL [tut.ac.jp]などが研究されているようです。この辺の動きにも注目したい所です。

      VoiceXMLの標準化に参加している研究者の方が,以前(昨年),「VoiceXMLの標準化がゴタゴタしているので,研究者としてはその間に一歩先を見据えた提案をしないと」と仰ってました。標準化には苦労がつきものなんですね…。
      親コメント
  • by Joga (8113) on 2002年07月17日 11時23分 (#126756)
    コンピュータがしゃべってくれるぶんには別にかまわないけど、
    自分がしゃべるのは嫌だなあ。
    私の声は通りにくいので、人間相手でも聞き返されることが多いのよ。
    なので、ボタンを押すようなI/Fのほうがよっぽど早い気がする。
    ATMみたいに、慣れてるシステムなら数秒で入力できるので、
    音声I/Fに取って代わられるのは嫌だな。
    音声I/Fが好きな人もいるだろうから否定はしないけど、
    通常のI/Fも残しておいて欲しい。
    • by Anonymous Coward on 2002年07月17日 12時18分 (#126770)
       選択肢が増えて、キーボードが使えない&苦手な人の不利益が少なくなる分には歓迎ですね。
       個人的には、私も従来のI/Fも残して欲しいと思う方ですが、共存出来れば問題なし。

       昔っからある技術だけど、使いどころが難しくて、浸透してないと言うことなのかな>音声認識
      #8ビットPCで作った、音声認識ブロック崩しとか、懐かしいw
      #右、右、ミギー!とか叫んでパドル移動
      親コメント
    • by Anonymous Coward on 2002年07月17日 12時44分 (#126778)
      GUI全盛でも、CUIも併用することが多いように、
      音声入力が普及してもGUIやCUIが併用されるでしょうね。

      個人的には、ショートカットに音声入力が使えると便利だと思う。
      フォルダやスタートメニューの階層が深い時、目的のファイルや
      フォルダの名前は分かってるのに、どこから辿るかど忘れする
      ことがあるんですよね。こーいう時に音声でショートカットできる
      といいかなぁ、と思うことがたまに。
      技術的には本格的な音声入力より容易だと思うけれど…。
      親コメント
    • DELLのサーバーのサポート電話って、機械応答で
      サービスタグナンバー(アルファベット入り)を機械に向かって
      発声しないといけないんですよね。

      あれ、客先でちょっと恥ずかしかったりする。
      親コメント
    • すぐ前にいる人からメールが来て驚くことがありますが、
      目の前で音声入力されたメールが、自分のPCで読み上げられたら・・・・イヤすぎる。
      --
      AMIGA4000T(60/50)使い
      親コメント
    • 音声I/Fに取って代わられるのは嫌だな。

      音声をやってる人たちは、取って代われるなんて思ってないから大丈夫ですよ。
      実際、音声入力には向き不向きがはっきりしてますから、例えばATMのような場面で音声入力を使うことはほとんどないでしょう。

      #ホームバンキングならありうるかもしれないけど。振込先口座の入力なんかには使えそう

      音声が力を発揮するのは、例えばキーボードが使えないような機械であるとか、数百件のデータの登録された住所録から一発で目当ての人物を引っ張ってくるとか、そういうのですね。

      #PDAとか電話とか…
      親コメント
    • 「今日のホロスコープが見たいな」
      コンピュータ「OK、マイケル、ホロコーストですね」
      (コンピュータ準備開始)

      てなことになりそうで…。

      そういやタグとは最早関係ないんですがスタートレックに出てくる
      ピンバッジによる通信てあれも案外お間抜けだしセキュアじゃないよなあ…。
  • 抜群の臨場感 (スコア:2, おもしろおかしい)

    by hctom (8713) on 2002年07月17日 12時57分 (#126794) ホームページ 日記
    古館一郎ボイスで読み上げるF1サイトとか,稲川淳二ボイスで読み上げる恐怖サイトとかは面白そうだ.

    仕様を読んだわけではないけど,いずれはCSSのときみたいに「HTMLでは聴きばえを定義するべきではない」なんて意見が出てくるのでしょうか?

    #パソコンは無口で素っ気無いくらいがかわいいと思うけど.
  • magicTalk (スコア:2, 参考になる)

    by rajihkaa (9408) on 2002年07月17日 14時08分 (#126832) ホームページ
     その昔、MagicCap(とTelescript)を出していた
    General Magicという会社が携帯電話向けの
    音声対話インタフェースのプロダクトをやって
    ような記憶が...

    調べてみると今はmagicTalk [generalmagic.com]と
    いうものにまとまっているようです。

    #この会社がまだ残っていたこと自体驚き(笑)
    • by seldon (5637) on 2002年07月17日 17時56分 (#126937)
      Panasonicの携帯でボイスコマンドってのもありましたね。
      セルラー(現au)のヤツ持ってましたが、相手の名前をボイスコマンドで登録しとくと、勝手にダイヤルしてくれる機能がありました
      「じたく」とか喋れば勝手に自宅へ電話かけてくれました
      最初は面白がって使ってましたし、誤認識もあまり無かったのですが、電話を通して誰かと会話するというのではなく、まさに電話に向かって話し掛けるというのは何か虚しいものがあって使わなくなってしまった

      <おふとぴ>
      該当機種をWebで探したのですが、もう無くなっちゃってるようですね。
      Webのページなんかは、紙のカタログと比べて段違いに保存コストが安いのですから、昔のページをそのまま残しておいて欲しいですね。 そうすれば、わざわざ歴史のページ [panasonic.co.jp]なんか作らなくても、昔のページそのものが歴史の一ページとして残るので。
      たとえばIBM [ibm.com]なんかはかなり古い機種でもページを残してありますね。 携帯と違って旧機種を中古で手に入れて使う人もいるという面はあるでしょうが。
      </おふとぴ>

      親コメント
      • by N'gatt (9815) on 2002年07月17日 22時21分 (#127124) 日記
        Panasonicの携帯でボイスコマンドってのもありましたね。

        ボイスダイアルのことですね。うちの現役バリバリの携帯はP157ですが(古っ(^^;;)これにもついてます。
        あとP209iとかにも付いてましたね。最近のにもあるんじゃないですか?

        この機能、面白いんだけど、使う必然性をまったく思いつかないのが難点ですね。ソニーとかなら、うまい使い方を提案してくれそうなんだけど…
        親コメント
  • by N'gatt (9815) on 2002年07月17日 21時01分 (#127056) 日記
    先行するVoiceXMLがコールセンターなどをターゲットにしたものであったのに対して、SALTはマルチモーダルインターフェイス言語であるところが売りだと聞いています。ここ [fujitsu.com]とかの解説が分かりやすい。

    VoiceXMLよりはPC向けっぽいし、PocketPCとかTabletPCあたりで使えると面白そう。

    #国産で似たようなやつとしてはXISL [tut.ac.jp]なんてものがあるそうですね。
typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...