パスワードを忘れた? アカウント作成
253810 story
ソフトウェア

自然で滑らかな音声合成ソフト「ボイスソムリエ ネオ」 37

ストーリー by reo
ゆっくりしてられませんな 部門より

papa-pahoo 曰く、

日立ビジネスは、漢字仮名交じり文の入力だけで自然で滑らかな音声を合成する「ボイスソムリエ ネオ」を発売した。日立製作所中央研究所が開発した技術をベースにしているという (公式サイトITmedia News の記事より) 。

Twitter では発音の自然さに驚くユーザーのつぶやきが散見される。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2010年09月10日 11時52分 (#1823056)

    ・日立ビジネスソリューション「ボイスソムリエ ネオ」
    http://hitachi-business.com/products/package/sound/voice/ [hitachi-business.com]
    ・AI「AItalk 声の職人」
    http://www.ai-j.jp/product/voice.html [ai-j.jp]
    ・NTT IT 「FutureVoice EX」
    http://www.ntt-it.co.jp/goods/vcj/v-series/futurevoice-ex/index.html#demo [ntt-it.co.jp]
    ・東芝 「ToSpeak」
    http://tospeak.toshiba.co.jp/ [toshiba.co.jp]
    ・富士通研究所 大規模コーパスベース方式 (サンプルを聞くだけ)
    http://jp.fujitsu.com/group/labs/techinfo/techguide/list/voice-process... [fujitsu.com]
    ・NEC CSVIEW/VoiceOperator (サンプルを聞くだけ)
    http://www.nec.co.jp/middle/VoiceOperator/voicesample.html [nec.co.jp]

  • そら目 (スコア:3, おもしろおかしい)

    by Anonymous Coward on 2010年09月10日 11時43分 (#1823052)
    「ボイスソ ムネオ」に見誤り、
    また鈴木宗男のボイスで遊んでるのかと思った。
  • by NOBAX (21937) on 2010年09月10日 11時35分 (#1823043)
    音声合成エンジンは、NTT、富士通、HOYAサービスなんかが先行している
    感じだったけど、日立追いついて来たな。
    • by Anonymous Coward

      「ゆっくり」に比べて個性がないなと思ったってことは、自然に近づいているということなんだろうなぁ。

      所々外国人が話す日本語っぽく聞こえるけど、あんまり違和感はなかった。

      #デモページの推奨環境はWindowsしか書かれてないけど、MacOSX10.5.8+Fx3.6.10preでも動いた。
      #プラグイン入れろって表示は出てるけど無視でOK。

    • by Anonymous Coward

      NTTとKDDの研究所、そして電電ファミリー(NEC、富士通、沖、日立)は、昔からテキスト音声合成を研究・実用化してきた歴史があったような・・・
      沖のSMARTTALKには歌唱機能が付いていたが、いったい何処が何に使うのかワカランなぁと思ってたら、いつのまにか販売終了してた。

      しかしググってたらボーカロイドとして使った例が見つかったよ
      http://www.nicovideo.jp/watch/sm7424394 [nicovideo.jp]

    • by Anonymous Coward

      そして話題にも上らない小さな会社 [ai-j.jp]…

      • by Anonymous Coward
        その会社の主要株主にATRが名を連ねてるゾ。
        ってことは、ATRの研究成果を商品化するための会社ってことで、そこで使われている技術はATRのものってことだよ。

        音声合成・認識とかの研究をしている人でATRを名を知らない人はいないってくらい、すんごいメジャーな研究所。
  • これは自然な音声でいいですね。

    ところで以前アプリに音声合成を組み込みたいと、ライブラリとして提供されてる音声合成ソフトを調べてみたのですが、数十万~数百万コース…
    ボイスソムリエの場合は「ボイスソムリエ ネオ マリアージュ [hitachi-business.com]」ですね。(価格表 [hitachi-business.com])
    ノウハウの塊とはいえもっと手軽につかえる製品だして欲しいなぁ

    • by Anonymous Coward

      >ところで以前アプリに音声合成を組み込みたいと、ライブラリとして提供されてる音声合成ソフトを調べてみたのですが、数十万~数百万コース…
      Windows限定でよければ、はるかに安価に実現可能かと思いますが。
      (Windows本体とPC-Talker体験版(無料)があれば良いとか、
      Windows本体とMS-OFFICEがあれば良いとか、
      Windows本体だけあれば良いとか)
      以前調べたのを貼っときますね。
      http://nogue.cocolog-nifty.com/diary/2008/02/pctalker23_52e9.html [cocolog-nifty.com]

  • by gesaku (7381) on 2010年09月10日 12時07分 (#1823073)

    このソフトでゼロの使い魔とか読ませたら果たして萌えられるのでしょうか・・・・
    いやいやそれよりハーレクイーンとかパラダイムとかだったら(以下略

    #個人的には富士見美少女文庫をgesaku

  • by nue_nue (30719) on 2010年09月10日 14時14分 (#1823178)
    この技術で声優の藤田某の声でMCができるようにすれば
    ボカロとセガで100年たっても16歳、アイドル歌手初音ミク
    のできあがりっと。AKB48イラネ。
    --
    鵺の啼く夜は恐ろしい
    • by Anonymous Coward

      ボーカロイド技術にもVocaloid-Flexという、文章音読機能を強化したものがありますね。
      「メタルギアソリッド ピースウォーカー」で採用されている他、製品としては「がちゃっぽいど」と「月読アイ」がこれだったはず。

      #真面目な話、flexと(現在は実用化されていませんが)完全な裸眼3D投影やらAIやらを組み合わせて初音ミクをシャロン・アップル化しても
      #生身の人間と違ってスキャンダルを始めとする様々な話題を提供してくれないのではワイドショー的に面白く無いので、長続きはしないと思うのですが。
      #ファンの暴走なんて他のアイドル歌手でもある話だしねぇ。

      • by nue_nue (30719) on 2010年09月16日 14時39分 (#1826112)
        もう誰も読んでないだろうし、オフトピだけれども、
        スキャンダルをはじめとする様々な話題がほしいのは
        アイドルのファン以外の人でしょ。
        商売の観点から見るアイドルとしては成立しないかも
        しれないけれど、「俺の嫁」的な意味でのアイドルと
        しては不滅なわけで。
        例えばリアル?では舞台のコンサートをしたあとで、
        家ではDSの中から、「今日のコンサートはどうだった?
        てへ!」みたいな生活も考えられるわけで。
        いよいよ恋愛・結婚と無関係な少子化対策が急がれるというオチ。
        --
        鵺の啼く夜は恐ろしい
        親コメント
  • スロー再生すると (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2010年09月10日 14時16分 (#1823179)

    すげーバカにされているような物言いで発音されて、むかつく。
    特に男性音声。

  • 「ごめんなさい」とか「もうしわけございません」とか喋らせると。misakiさんの方が満足度が上。

    速度調節したいなら。こっちの方が・・・・・・。 (値段相応か度外視)

    --
    ==========================================
    投稿処理前プレビュー確認後書込処理検証処理前反映可否確認処理後……
  • by Anonymous Coward on 2010年09月10日 11時44分 (#1823053)
    >価格は、読み上げ専用の「パーソナルモデル」が3万1290円(10月8日発売)、
    >編集や音声保存が可能な「ベーシックモデル」が11万4450円など。

    やっぱり結構な値段がするものですね。
    初音ミクは編集・アウトプット可能で1万5千円くらいなので、8倍近いことになります。

    「歌う」と比べて「喋る」を再現するのは、
    それだけ難しいということでしょうか?
    • by kim339 (16339) on 2010年09月11日 9時26分 (#1823582) 日記

      「歌う」と比べて「喋る」を再現するのは、
      それだけ難しいということでしょうか?

       技術的には「歌う」の再現がはるかに難しいことだと思います。
       「喋る」のは意思伝達の手段であって、言語的に不自然でなければ目的は達成します。
       しかし、「歌う」のは歌詞の内容だけでなく、その表情・心境を発声方法を変えながら表現しているわけで、その人間ワザを機械で再現するのは大変なことです。

       この価格差は、現在時点のソフトの完成度(買った時点でのユーザビリティ)の問題だと思います。
       「与えられた文章を喋る」音声合成ソフトウェアはプリンタと同じ「出力装置」で、「打ち込んだ歌を歌う」歌唱ソフトはシンセサイザという「楽器」なんです。

       音声合成ソフトウェアはたいてい、漢字かな混じり文を渡せば、解析して音素合成の上、それなりの抑揚で喋ります。抑揚が不自然な場合は調整が必要ですが、シンセサイザのパラメータ設定に比べればはるかに簡単な内容です。
       音質とデフォルト時の抑揚の自然さ(と読み間違いの少なさ)が、結局開発費用に跳ね返ってくることや、技術が進んでアナウンサー吹き込みと差がなくなってきた昨今では実際にアナウンサーを雇って吹き込んだ場合とのコスト対比、そのソフトで生成した音声の二次使用権などから、音声合成ソフトの価格設定がされていると思います。
       機械に喋らせることによって得られる利益を考えれば、出力音声ロイヤリティフリーで10万円以上というのは高くないと思います。

       VOCALOIDはソフトとしては「歌詞(読み)と音程を入れれば歌っているような音声が出力される」楽器データを含んだシンセサイザ(シーケンサ)というレベルで、自然に聞こえるようにするには職人技に頼っているのが実態です。
       実際に開発にかかったであろうコストと販売戦略に基づく想定販売数、ユーザが手にした時点でのユーザビリティ、そして出力波形の解像度を考えれば、各社VOCALOIDシリーズの基本部分が1〜2万円台に収まっているのは、楽器としても高くないと思います。

       単純に額面で比較できるものではないのですが、現状を考えるとこの価格差は妥当であると思います。

      親コメント
    • Re:価格が……。 (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2010年09月10日 14時11分 (#1823176)
      歌唱用音声合成と読み上げ用音声合成は全く別分野だと思うんですよ
      歌唱用はあくまでも楽器、シンセサイザーの一形態であり、
      必然シンセサイザーとしての機能・自由度を求められます
      でも読み上げ用はどう考えたって楽器ではありません
      そもそも比べるものじゃないのではないかと
      親コメント
    • by Zephyr (17346) on 2010年09月10日 14時40分 (#1823193)

      この手のソフトの価格は、比較対象が肉声のアナウンス収録になると思います。
      アナウンサーやスタジオを押さえて収録を行うと、ちょっとした音声でも数万~数十万円の費用がかかりますし、ましてや専属アナウンサーを雇うとなるともっとかかるわけで、それにくらべると非常に安価という事になるんだと思います。
      まぁ、どこまでクォリティを求めるかという所ですかね。

      親コメント
    • by Anonymous Coward
      オモチャではなく実用品だからでしょう。それだけの価値があるってことです。
    • by Anonymous Coward
      文章を仮名に分解する為の辞書と文脈解析ルーチン、あとはイントネーションの辞書を用意するのが大変だと思います。
      しかし大変ながらも実用になっている音声合成に対して、歌は抑揚などの制御が人間頼みで、音程と歌詞だけ入れれば綺麗に歌い上げてくれるという段階まではまだ到達していません。
      • by Anonymous Coward on 2010年09月10日 13時48分 (#1823162)

        音声合成は音声認識と両輪なんです。

        たとえばNHKニュースの音声を10年分くらい買ってきて、音声認識によって「フリガナ」を振れば、比較的ローコストで大量に「お手本」となるサンプルが得られます。
        サンプルが大量にあれば、統計的な処理によって、イントネーション等の確率分布が得られますので、確率が高いものを正解として辞書に持てばいいわけです。
        NHKのアナウンサーは訓練によって話し方が統一されているので、お手本としてはピッタリです。

        では、歌声はどうか。

        歌声から歌詞を抽出する技術へのニーズは弱すぎて実用化されていないし、ボーカルのみの音声データを大量に手に入れるにはレコード会社による協力が必要になります。

        また、文字列をリアルタイムに音声に変換しなければ実用にならないのと違って、ボーカロイドの類いは何度でもやり直して調整が可能ですし、ただ1つだけの正しい歌い方などというものは無いわけですから、歌い方を人間が指示するのは必然だと思いますよ。

        ちなみに↓のサンプルを聞くと、2004年の時点でボーカロイドは2000年の音声合成のオマケ機能にも負けているような感じですが、これは辞書の有無によるものだと思いますよ。
        http://k-tai.impress.co.jp/cda/article/stapa/21999.html [impress.co.jp]

        親コメント
        • by Anonymous Coward
          私は専門外なので知らないのですが、本当にそうやっているんですか?
          確かに「カタカナ」に対するイントネーションのデーターベースは作れそうですが、
          「単語」に対するデーターベースにはならない気がします。
          それに音声認識の精度はまだ良くないです。

          音声合成としては「辛い」という文字をカタカナに分解する必要があって、
          前後の文脈から「ツライ」だったり「カライ」だったりするわけです。
          「辛い」は例として難し過ぎるかもしれませんが、読み方や単語の切れ目は音声だけ買ってきても分かりません。

          次にボーカロイドの話は、あまりにも人間
          • Re:価格が……。 (スコア:1, 参考になる)

            by Anonymous Coward on 2010年09月11日 5時59分 (#1823545)

            音声合成分野の仕事をしていたのは5,6年前までなので現在とはちょっと違うかもしれませんがコメントを・・。

            文章から音声を合成する場合には、基本的に以下の2つの処理をします。

              (1) 文章から単語やカナなどの構文情報を抽出(構文解析)
              (2) 構文情報を元に声を合成 (音声合成)

            (2)のデータベースに音声認識結果を使用することはよくある話です。
            (1)のデータベースは音声認識結果を使うこともありますが、より大量にデータを集めるため他の文章も用いることが多いです。

             例1:アナウンサーの声の認識のために、過去のニュースの原稿を学習する
             例2:日常会話の認識・合成のために、比較的話し言葉に近い文章の多いWeb上の文章データを学習する

            (1), (2)共に初期のデータベースとして手動で解析した少量データベース or 購入した信頼できるデータベースを作成します。
            その後は、自動的な構文解析や音声認識によりデータベースを増やしていく形になります。

            なお、精度が悪いって問題については、大体以下の3つの対策をとっていました。
            (1) 読み上げる文章をあらかじめ与えるorジャンルの近い文章で学習する
            (2) 音声認識をして信頼度の高いデータのみ使用
            (3) 人間が認識結果を修正する(ニュースの字幕などはリアルタイムでこれをやってる場合もある)

            最後に、ボーカロイドの調整が人間頼みということについてですが、これは仕方ないと思います。
            読み上げ音声と違い、変化が激しいですし、曲との僅かのずれ(速度, イントネーション, etc)が聞き手にとっては猛烈な違和感となります。
            テキスト音声合成で行われる調整程度では歌声の合成には力不足です。
            まぁ、開発にかけたコストも大きく違うかもしれませんが・・(一部の会社だと専門の研究所+多数の人員って所すらありますし・・)

            親コメント
          • by Anonymous Coward
            もともとシンセ(音源)の使い方は職人芸なんですよ。
            ギター演奏の再現なんかも大規模サンプルによってようやく多少の楽ができるようになり始めたところです。
            それでも1音1音どういう奏法で演奏するのかを人間が指示する必要はあります。
            別にVocaloidだけが人間だよりなのではなくシンセ(音源)っていうのは総じてそういうものなんです。

            この点通常の楽器であればわかりやすいですよね。
            打ち込みには打ち込みなりの演奏技術が必要なわけです。
            ほしい音を得るために楽はできないんです。
            もちろんデフォルトでそれなりに聞かせる機能があってもいいでしょう。
            でもその機能がない楽器を不完全とは呼ぶことはできません。

            あと人間の歌の代替である必要もないんですよ。
            ARP、MOOGといったシンセが既存楽器の代替ではなくそれ独自の音を求め使用されたように
            音声合成演奏も独自の音を目指したっていいんです。
            softalkの開発者はそういうスタンスのようです。
          • by Anonymous Coward

            歌に関しては、産総研がボカリスで研究してるって所ですね。
            歌声合成パラメーター推定技術 VocaListener(ボーカリスナー)を実現 [aist.go.jp]
            将来的には、上手く歌うことも研究されていくのではないでしょうか。
            【初音ミク研究】通常・ぼかりす・原曲比較音源「Survivor」 [nicovideo.jp]
            Youtubeへ転載された、ぼかりすのみ。
            【初音ミク】「Survivor」【ぼかりす×匿名希望の東京都在住】 [youtube.com]

  • by Anonymous Coward on 2010年09月10日 11時53分 (#1823057)
    15年以上前(Win3.1)のPC-98シリーズに搭載されていたものとそんなに変わらないなあ。
    確かにあれよりかはなめらかだけれど、どっちにしても機械音声の域を出ていないし、聞き取り易さにも違いは無い。

    15年経ってコンピュータは凄まじい進歩を遂げているのに、音声合成は進歩が無いという事なのか。
  • by Seth (1176) on 2010年09月10日 14時56分 (#1823202) 日記

     早くこの手のお仕事に来ないかな(走召糸色木亥火暴)

    --
    "castigat ridendo mores" "Saxum volutum non obducitur musco"
typodupeerror

UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア

読み込み中...