パスワードを忘れた? アカウント作成
8355 story

曲のサビを検出するアルゴリズム 137

ストーリー by Acanthopanax
サビをきかせて 部門より

igaiga 曰く、 "BioNewsFromNature記事によると、曲のサビをみつけてジャンプできる新しいプログラムを産業技術総合研究所後藤真孝研究員が米国音響学会で発表した。 Celine Dionの「マイ・ハート・ウィル・ゴー・オン」や、Jon Bon Joviの「ユー・ギブ・ラブ・ア・バッド・ネーム」などのポピュラー音楽のヒット曲でサビからサビへとジャンプできることを実演したという。 このアルゴリズムは音程(ドレミ)ごとの強さを基に繰り返しを検出し、サビに相当する可能性が高い部分を選ぶ。 分析時間は4分の曲で約1分、また80%の曲でサビを正しく選び出した。 音楽を扱うアルゴリズムは自然科学などの分野に比べればまだまだ発展途上、面白いアルゴリズムが今後たくさん生まれてくるのかもしれない。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 他のジャンルだと?? (スコア:3, おもしろおかしい)

    by jizou (5538) on 2004年06月13日 8時30分 (#568658) 日記
    コード進行をたどるようなので、J-POP とか 演歌なら大丈夫そうですが、ラップとかは、見つけられるのかな。
    # みんな同じに聞こえる。
    • by Anonymous Coward on 2004年06月13日 10時21分 (#568684)
      メドレーとかなると全部サビになるのでは?
      親コメント
    • Re:他のジャンルだと?? (スコア:2, おもしろおかしい)

      by one-one (17888) on 2004年06月13日 13時56分 (#568785) 日記

      えっ J-POP って検索するの 色々と [infoseek.co.jp] 大変そうな気がしますが:-p

      コード進行だけで見る場合, Deep Purpleの『Burn』とBeethovenの『運命』と区別は出来るんでしょうかね, とお約束のことを言ってみたりして

      親コメント
    • by Futaro (2025) on 2004年06月13日 12時11分 (#568743) ホームページ 日記
      演歌のように定型があるものだとうまくいくと思いますが、音楽と一言で言っても、世の中は大変に広いもので、楽譜使わない音楽とか、西洋音楽の音程そのものを使わない音楽もあるし、本当は音楽って、もっともっと多種多様なものだと思うのだけれども。もっとも、今の日本やアメリカで多くの人に聞かれている音楽のことしか考えていないのであれば、これでも使えるんでしょうが、一歩外に出るとほとんど使えない。小泉文夫先生が生きててこのニュースを聞いたら、なんて言うか聞いてみたいです。

      しかし、もっとも疑問なのは、そういうことがわかって、それでなにかいいことあるのか?って言うこと。音楽のサビってのは、サビでない部分があるからサビの部分が引き立つ。サビはサビ以外の部分も聞くからサビがサビたりえるわけで、音楽を楽しむ側からすると、サビだけ聞かされてもねぇ、と思うわけですし。

      「産業技術総合研究所」でしょ?元工業技術院も混ざってる「経済産業省」系でしょ?この研究がどんな「産業と経済に良い影響を与えるか」を説明して欲しいなぁ。これで雇用が増えるのかな?この研究自体よりも、この研究がどんなふうに産業と経済に良い影響を与えるか、というアプリケーションを考える研究のほうが、よほどコストがかかるように思うわけなんですけどね。純粋な基礎研究そのものも含め、研究所全体としては、方向違う(=その研究員の給与は税金の無駄)、ってことないですかね?

      この研究員は別の研究所に行ったほうが出世できるかも知れませんね。
      親コメント
      • しかし、もっとも疑問なのは、そういうことがわかって、それでなにかいいことあるのか?って言うこと。音楽のサビってのは、サビでない部分があるからサビの部分が引き立つ。サビはサビ以外の部分も聞くからサビがサビたりえるわけで、音楽を楽しむ側からすると、サビだけ聞かされてもねぇ、と思うわけですし。


        去年国内で発表 [itmedia.co.jp]した時にエピソードとしてとりあげていましたが,某CDショップの試聴ブースでは客が早送りボタンを押してサビの頭出しをしているのを見て「だったらボタン1つでサビの頭出しができればいいのに」と思ったのがこの研究のモチベーションの1つのようです.普段,普通に音楽を楽しむための技術ではないような気がします.

        産業面でのニーズとしては,サビの概念のある音楽に対するアノテーションをベースに,たとえば試聴システムの効率化などを睨んでいるのではないかと思います(えらい狭いニーズのような気もしなくはないですが……).エンドユーザにとってうれしい技術ではなさそう,というのが個人的な印象です.

        # 個人的に試聴ブースにはPIONEER CDJ PLAYER [pioneer.co.jp]のようなジョグダイヤル式早送り・巻戻し導入希望.
        親コメント
      • by oltio (3848) on 2004年06月13日 14時51分 (#568806) 日記
        日本の研究所が日本の経済産業のために研究開発しているんだから、その
        対象が日本の市場で支配力を持っている、「だいたい定型でサビを持つ」
        音楽であることに、なにか問題でもあるんですか?前半と後半で矛盾してますよ。

        「サビ抽出=サビだけ聞かされる」という短絡思考もすごい。この技術で、データ
        ベースに格納されている各曲をサビ部分と非サビ部分に(分けられる曲は)分けて
        特徴量計算などしておけば、「あの曲のタイトルなんだっけ?ほら、サビが
        『はーんふぅーんへー』てな感じの曲」とかいう需要に対応できる可能性もある
        のですよ。もちろんそんな曲ばかりではないとしても、8割の曲がこれで検出でき
        るなら商売としてはそれで充分でしょ。

        #タイプライターが発明されれば「なんだ筆記体は書けないのか。そもそもこれで
        #署名はできない。無駄な発明だ」と言い、日本語ワープロが発明されれば
        #「アラビア語の教科書を書くのには使えないね。#製作者は世界を知らなさすぎ
        #る」と言うような反論ですよ。
        親コメント
      • by Anonymous Coward on 2004年06月13日 18時03分 (#568869)
        人間が作ったものを扱うアルゴリズムの場合、その言語圏や、国などを一歩外に出たら役に立たないものが非常に多いけれど(文節解析エンジンとかその典型)、それでも役に立っているから、一歩外に出たらどう、ということはあまり関係ないと思う。このような場合、大抵はそのときに適切なアルゴリズムを選択すると思うし。

        一歩外に出たらその一歩でた先のものを解析できるアルゴリズムを作るればいい。技術的に応用ができる部分があれば、別の音楽を解析するアルゴリズムをを作るのもすこしは容易になるのでは?

        #感情や感性の話と、技術論は今のところ分離して論じた方がいいですよ。たしかに混同しやすい話ですが。
        #もしそこまで加味して完璧に解析できるアルゴリズムがあるなら……そのときはきっとそのコンピュータは人工知能をもっているでしょう;-P

        また、使い方も、音楽のさびのデータベースなど、自動でできる、とか応用範囲はいくらでもあると思う。的中率が七割でもあれば、人間が分類するときの手助けになるでしょう。
        今の機械翻訳ソフトと似たような感じでね。
        親コメント
      • 追補 (スコア:1, すばらしい洞察)

        by Futaro (2025) on 2004年06月13日 12時41分 (#568751) ホームページ 日記
        ただし、「君が代」をこれで分析して「この音楽は規格から外れてるのでダメですね」なんてコメントしたら、日本国内の研究所ではどこに行っても出世はできないかも知れません。お気をつけください。

        # もちろんジョークですからあまりお気になさらないよう。
        親コメント
    • アンビエントとか、ノイズミュージックとかでも、かなり厳しそう。
      サビどころか、音程まで無かったりして。
      親コメント
  • by Tsukitomo (22680) on 2004年06月13日 8時55分 (#568665) 日記
    もと記事 [appliedbiosystems.co.jp]によると
    曲をC、C#、D、・・・、Bの12のピッチ(音の高さ)に分解する。それから、各ピッチのパワー(強さ)を足し合わせる。つまり、高いBと低いBのパワーは足し合わされる。そして、これらの12 のピッチのパワーが1曲の間に時間とともにどのように変化するかを分析する。
    とありますが、これは音楽から得られる楽器の数だけ、あるいはそれ以上の数の周波数のうち、どの波形をモニタして分析してるんでしょう? やっぱり人の声のおさまる2~4KHzあたりを抽出しているんでしょうか? そうであれば、現段階では本文にもあるような、伴奏小さめで、しかも囁きぎみのメロディとサビの部分の差が大きいような曲にしか機能しないかもしれませんね。例えばアカペラとかだとどうなるんだろう。

    あとは、特にJ-POPに関してなら、サビ前のお約束の一瞬のタメ(無音)も分析に活用すれば、精度の上昇が望めそうな気がします。

    # 自分もおんなじようなことを研究してるつもりなのでID。
    --
    Your 金銭的 potential. Our passion - Micro$oft

    Tsukitomo(月友)
    • by tmiura (6268) on 2004年06月13日 14時57分 (#568809) 日記
      # 自分もおんなじようなことを研究してるつもりなのでID。

      だったらマスメディア報道でなく学会とか、 研究者が最初に、かつ詳細な発表をするところにアンテナを張ってないと。

      http://staff.aist.go.jp/m.goto/PAPER/SIGMUS200210goto.pdf

      文献によると、16kHzで4096点FFTして(中略)6オクターブぐらい足してますよ。

      音高に意味があるようなので、 上の方のノイズ成分に当たるところだけ捨ててるかも。 人の声と楽器の音とは区別してないでしょう。

      親コメント
    • 規格化 (スコア:2, おもしろおかしい)

      by Anonymous Coward on 2004年06月13日 9時57分 (#568680)
      サビ検出の為の、作曲方法が規格化されました。

      錆に突入する前には、必ず大きく息を吸い込んで、無音の時間を作る。
      他の楽器などの音が大きくて判別し辛い事を防ぐ為、吸い込む時の楽器の数を制限する。
      更に、息を吸い込むのは、吸い込み音が聞こえる位激しく吸い込む。
      例外が必要なら、必要に応じ協議の上てパターン化し、随時規格に登録する。
      ただしむやみに追加しまくってはいけない。既存の規格内で出来るよう、極力努力する。

      尚、これらは一括して、日本音楽著作権協会の100%子会社、
      日本音楽サビ検出協会がとりまとめる事にする。これで権利料ががっぽがっぽ。

      あまりに馬鹿馬鹿しいのでAC
      親コメント
  • by Anonymous Coward on 2004年06月13日 8時24分 (#568653)
    HDD&DVDレコーダーかなんかの機械のスポーツ中継のダイジェスト機能で、
    歓声の大きさでダイジェストを自動で作るってのを何日か前にテレビで見た。

    # スレ違い
    • by Anonymous Coward on 2004年06月13日 15時38分 (#568826)
      #同じくオフトピで、画像認識でもそんなのがありますね。 なかなか変わらない箇所を得点表示だと考えて、 それが変わったときに、直前に得点シーンがあったと推定して、 もうちょっと丁寧に画像認識させて、ほんとに得点シーンかチェックする ってしくみがありますね。
      親コメント
  • by nobuo (263) on 2004年06月13日 9時19分 (#568673) 日記
    昨年、NTTのオープンラボで拝見したパピプーーン: GTTMに基づく音楽要約システム [ipsj.or.jp]も興味深かったです。3分の曲を30秒ぐらいの長さに切り貼りしてその曲の「ダイジェスト版」を聴くことができました。

    それに加えて、この曲のサビを見つけていただいちゃうとなると、3分の曲を30秒で聴いて、サビを繰り返し聴くだけでカラオケの練習ができちゃったりするんでしょう。通勤途中に友人の結婚披露宴で唄う歌の練習なんかもできますね(私はいやだ)。

    そのうち、音楽配信にもこういう技術が使われていくんでしょうが、どうも音楽を聴くという行為を否定されているようで、いまひとつなじめないオヤジです。
    --
    nobuo * Who's gonna die first? *
    • by M52 (22441) on 2004年06月13日 10時50分 (#568704) 日記
      記事 [appliedbiosystems.co.jp]>お気に入りの曲のお気に入りのフレーズを見つけようと、プレイヤーの早送りボタンを何度も何度も押して、すっかりうんざりしていませんか。
      という記述が面白いと感じました。私はPCで音楽を聞くようになってから、曲を自由にシークしてザッピング的に聞くことも増えました。
      ある現代用語辞典のヘヴィーメタルというジャンルの音楽の説明に「ギターソロを聞かせる音楽」と有りまして、その直球な表現に感心した事が有ります。POPSは比較的サビは分かりやすいですが、サビを拡大解釈すれば音楽のエッセンスから何処が旨みであるか判断するのは大変難しいですね。
      しかしこういった研究は興味深い反面、オートメーション化は寂しい感じもしますなぁ。
      将来は応用的に半自動作曲など考えられるんでしょうね、抽象的な言葉で例えば「サビへの以降は雨上がりの様にに明るめに」など指定すれば自動的に沢山ある曲のパーツの中から候補が選ばれ人間が候補を選んで行くとか。
      上記の場合マイナーからメジャーへの転調など、音楽理論を知らなくてもある程度の品質の音楽が誰でも作れる時代は来そうですね。
      親コメント
      • by one-one (17888) on 2004年06月13日 13時28分 (#568775) 日記
        ある現代用語辞典のヘヴィーメタルというジャンルの音楽の説明に「ギターソロを聞かせる音楽」と有りまして、その直球な表現に感心した事が有ります。

        なんですと! と直球的に反応してしまいました.
        決してそんなことはないと思いたいんだけど, ひょっとしたらそうかもしれません:-p

        親コメント
    • by Anonymous Coward on 2004年06月13日 11時06分 (#568713)
      30秒に短縮できるのは重要なことです。
      なぜなら、音楽の30秒以内の引用は黙認されているため、30秒ならある程度自由に配信できるからです。実際、カウントダウンTVや TSUTAYA の@試聴機はこれをうまく利用して音楽を紹介することに成功しています。

      つまり、この技術がもし確立すれば、企業でなければできなかったこういったサービスが一般視聴者でもできるようになり、音楽の紹介方法の幅が広がりますから、そう悲観したものでもないのではないでしょうか。

      参考:http://www.syuppan.net/mura_HP/uzu/uzu_401.html
      親コメント
      • by chanbaba (13080) on 2004年06月13日 12時44分 (#568752) ホームページ
        >30秒に短縮できるのは重要なことです。
        >なぜなら、音楽の30秒以内の引用は黙認されているため、30秒ならある程度自由に配信できるからです。

        「黙認されている」って断言出来る状況とは思えないが....
        あるレコードメーカーがツタヤ等に30秒以内ならば黙認しているからといって、それが全ての著作権者があたかも黙認しているか如く述べるのは問題では?
        まして「30秒ならある程度自由に配信できる」なんて、「ある程度」とは断っているが何処に「自由に配信できる」なんて感じれるところがあるのだ?

        >つまり、この技術がもし確立すれば、企業でなければできなかったこういったサービスが一般視聴者でもできるようになり、音楽の紹介方法の幅が広がりますから、そう悲観したものでもないのではないでしょうか。

        「30秒ルール 音楽」でググれば分かると思うが、「著作権法上の引用に販売目的の一部分の視聴が含まれるのか?」と言うのがあり、その結果レコードメーカー等が黙認しているだけに過ぎない。
        紹介目的で一般の企業や個人に30秒ルールが適用されるなんて話は聞いた事が無いです。
        それは更に一歩踏み込んでいるのではないでしょうか?

        例えば、CDを販売するwebサイトではCDのジャケットの画像を販売目的で引用する。
        ジャケットを見て購入する奴も結構多いので、著作権の引用の条件に入っていると思う。
        購入するには、どんな曲か聴かなければ分からない面がある。だから視聴させるってのはこれも微妙ではあるが引用の条件に入っている可能性が高い。
        しかし、単なる紹介(記事)で、本当に曲の一部を提示する必要があるのかは、結構微妙なんじゃないの?
        どんな曲か実際に聴かせて紹介したいとレコードメーカーが思っていれば、レコードメーカーのサイトにアップされていると考えるべきなんじゃ?
        このさびの部分がどう良いかと言った論文でも書くのならば、本当にさびの部分だけを引用すればよく30秒も要らないでしょ。

        30秒OKなんて言ったら、25秒程度毎に分割して個々に紹介の論文を書けば良いとか誤解する奴が出てくると思う。
        「ある程度」がついても「自由に配信できる」なんて誤解を与えかねないのでは。
        親コメント
    • by RiskTaker (22824) on 2004年06月13日 9時46分 (#568677) 日記
      サビがsignalで他はnoiseってことになってくのですかね。

      単位時間当たりに多くの曲を聞けることになるので結果的に音楽自体は質があがるのではないでしょうか?
      サビを聞いてから、全曲を聞くっていう行為そのものはCMやらドラマの主題歌が売れるってことと同義だと思います。

      より多くのシグナルを得ようとするのは仕方ないことですかね。

      と普段technoしか聞かないのにいってみたり。
      親コメント
  • by Anonymous Coward on 2004年06月13日 11時24分 (#568723)
    SmartMusicKIOSK: サビ出し機能付き音楽試聴 [aist.go.jp]
    タレコミがなぜかここにリンクしてないから、文化がどうこうとか明後日の方向にいくコメントが続出するんだと思う。
    • これがこの技術のサビだったんですね。

      # しかし、何年も研究費かけた結果がこれではサビしい。
      親コメント
      • by tmiura (6268) on 2004年06月13日 13時54分 (#568784) 日記
        # しかし、何年も研究費かけた結果がこれではサビしい。

        「何年も」かけてはいないでしょ。 実作業時間としては、サビ区間検出の確立に半年かせいぜい1年(音情研での発表が2002年秋だな)、SmartMusicKioskなるUI作成に3ヶ月から半年くらい(インタラクション2003が2003年2月だな)じゃないかな。

        それやってる間も並行して他の仕事もしてるだろうから それなりに膨らみはするだろうけど、でも、そのくらいだと思う。

        で、少なくとも、最初の論文を書く直前にはシステムは完成しているというか、論文書く頃には研究は既に一段落しているわけ。 その後は、同じネタをあっちこっちに発表だけしているような感じだと思うよ。 その後も細かい改良はあるかもしれないけど、 本質的な進歩でなければそのために時間はかけない。

        最初の発表のあとは研究としては今はまだ発表していない別のことをやっているんではないかな。

        親コメント
  • by violet (21489) on 2004年06月13日 13時38分 (#568776)
    CDショップにCDのバーコードをかざすだけで登録のあるタイトルはすべて45秒くらい試聴できる端末 http://listeningstation.net/index_shouhin.html があります。バーコード情報に基づきセンターからデータがストリーミング配信されているらしいんですが、冒頭から45秒だと、サビで始まる曲以外は、イントロやAメロの途中で終わってしまい、便利な試聴機として機能しているとはいいがたいのが現状です。今回の技術を使って、サビが試聴できるようになるといいですね。
  • url (スコア:1, 参考になる)

    by Anonymous Coward on 2004年06月13日 9時15分 (#568672)
    http://www.itmedia.co.jp/news/0303/06/nj00_int_mkiosk.html [itmedia.co.jp]
    結構前からやってるのね。
  • サビを聞きたい人は、早送りでサビにすぐいくと思うんだけどね。

    ある曲の聞かせたい部分をサビとするなら、わたしらは聞きたい部分を聞いているのであって、聞かせたい部分を聞きたいわけではないと...

    聞き方まで強制(矯正?)しようっていうのが、そもそも間違っている様に思えたりするわけです。
    • サビを聞きたい人向けにボタンを増やしただけで、 なにも普通に聞きたい人にまでサビだけ聞くのを強制しているわけじゃないんですが。

      親コメント
      • by Anonymous Coward on 2004年06月13日 16時27分 (#568838)
        むしろ、大量のMP3なりCDなりのメディアからサビのインデックスを
        効率的に作ることで、ライブラリ「管理」の一助になるという考えで、
        サビだけ聞きたい、サビだけで満足なんて「聞き方」は滅多にある
        場面では無く、その用途を想定してボタンを増やした訳で無いかと。

        プロモーションとして、新譜の聞き所だけしかウェブに置かないとか
        CMで流さないなんてのは日常茶飯事で、小室哲哉氏などの逸話には
        サビだけレコーディングしてCMで流してから他を作るとかありました。

        元コメントの不満と言うのは、そういったサビを主軸にしたプロモで
        人為的に達成されている事を、リスナーまでが喜んで迎合する事に
        対するものでしょう。意図していない聞き所の、人為的統計的抽出の方が
        名曲を評価するという文化的に正確な評価手法でしょう。

        この技術は、楽曲に重みづけをするのではなく、コイン投げ程度の
        気楽さで目安を割り出すだけのつもりでしょうから、的外れと言えば
        的外れに違いないですけど。
        親コメント
  • えーっと、大量の音楽をこれで試聴できたら、私は大変うれしいですが……。
    私の場合、好みが激しく偏向している上に、どんな曲が気に入るか自分でもよくわからない(傾向的に好きなタイプのはずなのにNGだったり嫌いなはずなのに最上位ランクに喰い込んできたり)ので、こーゆーので片っ端から漁りたいですね。

    あと、amazonなどCD販売サイトや音楽ダウンロード販売サイトでは最初の数十秒だけ試聴させてくれますが、「最初」ではイントロすら終わってない曲もよくあります。これじゃどんな曲だかさっぱりわからんことがほとんどなので、以前から「サビだけ聴かせてくれりゃいいのに」と思ってたんですが、そーゆーのにも適用できそうです。

    amazonの利用者は多そうなので、特に後者については同じ意見の人も多いと思ったんですが……。
  • その楽曲の、サビだけでなく、ワビ(味わい)も検出してほしいね。
    まだまだそこまでは、技術が足りません。 もっと研究積み重ね。
  • by hmr (4234) on 2004年06月13日 15時50分 (#568830) 日記
     漏れが中学・高校のころ、Bon JoviはHR/HMコーナーにあったもんだが、いまやポピュラー音楽か。時代は変わるもんだ。
  • このアルゴリズムを「騙す」メロディーライン作りが流行ったりすれば、それはそれで面白いかも。

    --
    むらちより/あい/をこめて。
typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...