パスワードを忘れた? アカウント作成
468825 journal

kahoの日記: 国際癌ゲノムコンソーシアムについて,雑感

日記 by kaho

/.Jのストーリーにもなった国際癌ゲノムコンソーシアム (ICGC)について,コメントをつけるのもどうかと思ったのでこちらに書いておく.

このプロジェクトは,コメントにあるように治療や解析に直接結びつくものではなく,そのための基盤であるデータベースの整備を目的としている.
近年,様々な技術の開発により細胞の状態を安価,短期間での大量解析ができるようになってきたのだが,これらの技術を癌細胞に対して応用した結果であるデータを利用しやすい形で保存し,公開することになる.

例えば先日の日記で最近のシーケンサーの性能向上について触れたが,ヒトゲノムは既に解読されているので,そのリファレンスとの違いを調べることは比較的簡単に行うことができる(re-sequencing).
そしてどの遺伝子に変異があったかというデータを蓄積するとガンの原因となる遺伝子が見えてくるだろうということだ.
もちろんいくつかの既に知られている癌遺伝子に集中することは予想されるので,多分「この遺伝子に変異が多く起きている」という程度のデータはたとえガンの種類を分けたとしてもそれほど目覚ましい成果にはならないと思う.

私にとってこのプロジェクトが他のデータベース(SNPを集めたりマイクロアレイで遺伝子の発現をみたりするもの)と違う点は,配列の変化だけではなく,染色体レベルの変化も記録することを推奨し,現在細胞のガン化の原因と考えられているあらゆる変異を受け付け,利用可能にするというところにある.

癌細胞は普通の細胞と違い,染色体が融合したり多核化がおこったりといったマクロな変化がおきている.また単独のDNA塩基の変異ではなく,もっと大きい範囲で欠失や重複がおきたり(コピー数異常),2本ある染色体で本来(父母由来で)異なる配列のはずが同一になってしまったり(loss of heterozygosity;LOH)といった変異もよく知られている.更にミクロな変化でも,DNAのメチル化(配列は変わらないが化学修飾される)もガン化に影響するし,タンパク質として翻訳されない短いRNAの発現によっても影響をうける.

こういった別分野のデータは,これまでデータの観測方法ごとにデータベース化される傾向にあったのだが,今回のプロジェクトは実験ごと,対象とするサンプルごとにまとめている.この,全てを受け付けるということがデータの解析をする側には非常に大きな価値がある.メタアナリシス的な研究には最適だ.

ただ,ガイドラインを読んでもよく分からなかったのは,こういう様々な観測方法のデータを統一のフォーマットで提供できるのかということだ.
柔軟性をもたせるために生データの投稿を受け付けるそうだが,全ゲノムを対象としたデータとなればその量は膨大になってしまう.これはプロジェクト側の負担ということもあるが,利用者側としてもデータの再現実験一つするのにもTB級のデータをダウンロードしなければならないというのでは話にならない.
かといってサマリーを出せるように特定の形式のみに限定すれば新しい技術への対応が遅れてしまう.

まだレボジトリを公開していないのでどのような形になるか分からないが,公開されたらどのような仕組みになっているか実際にデータを取得してみる予定だ.

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...