パスワードを忘れた? アカウント作成

kahoさんのトモダチの日記みんなの日記も見てね。 あなたのタレコミがスラッシュドットを支えます。さぁ、タレこめ!

344060 journal

kahoの日記: Pogoplug software

日記 by kaho

Pogoplugには興味があったが購入までは至らなかった.(ビックカメラで売っていなかったので)
しかし最近Pogoplug Softwareが公開され,インストールしたところ大変よい印象を持ったので特に必要はないかもしれないがお布施としてPremiumアカウントの購入を行った.
なぜPogoplugを検討したかというとiDiskが来年までしか使えなくなったからだ.
解析データなどはいくつもためておくと数GになるのでDropboxなどのサービスは無料アカウントの範囲で使うことはできない.また,ダウンロードが遅い.
これまではiDiskで共有してファイルを送っていたのだが,iCloudへの移行にともなってiDiskサービスは使えなくなるわけで,代替手段が必要だった.
年会費が必要なサービスは手が出しにくいのでどうしたらよいかと思っていたが,Pogoplug Softwareが問題をほとんど解決してくれた.
共有URLは非常に長く,メールに張り付けると相手がダウンロードできないことがあるので(マイナス記号で改行される)URL短縮サービスを併用しなければならないが,ファイルがローカルにあるので転送は非常に高速だ.共同研究者とお互いファイルサーバーにログインする面倒もない.

MacではPPCに対応しているのもよいし,一度ライセンスを購入すると何台で使用してもWnidows/Macでも流用可能だから$29は高く感じられない.
プレミアムでは動画のストリーミングができるので自宅でPS3相手に試したところ,PS3 Media Serverよりもはるかに容易かつ快適に使用できた.
現在少し問題なのはDLNAのON/OFFがmy.pogoplug.comを通じてでないとできないことで,しかもすぐに見えなくなるので再起動が必要なことだ.
フォーラムではまだスタンドアロンのPogoplugについての話題がほとんどなので同様の問題点は見つからなかったがこの安定性が改善されると嬉しい.

Linux版のPogoplugサーバが使えるなら自宅に省電力のサーバーをおいてiOS機のディスクを空にしたいのだが,現在Windows/Macのみとのこと.
Mac mini (Lion server)が欲しくなる.

203538 journal

kahoの日記: 現世代シーケンサー雑感

日記 by kaho

後でもう少しまとめるつもりだが、覚え書き程度に。
2010年になって、第3世代と言われるシーケンサー(DNA解読機)の動向にも以前よりいろいろと変化がある。
現在の状況を簡単に言えばチャンピオンであるIlluminaに対してABが巻き返しを図り、Helicosが局地戦を仕掛けていると言えるだろうか。
Illuminaは最新のHiSeq2000でGenome Analyzerで築いた基盤をより強化している。余談だが成功したシリーズの名前を受け継いでGA IIIといった名称にしなかったのは、この分野が単なるゲノム解読にとどまらずに様々な応用分野を持つようになったためだと思われる。
これに対してApplied BiosystemsはSOLiD 4の導入でこれに対抗しようとしている。特にABが強調するのが解読した配列の精度が高いということで、疾患解析など精度が要求される分野での優位性を強調することで足場を築こうとしている。
また、Helicosはその手法(対象とする配列を増幅しない1分子解読)のため、エラーは原理的に多いのだが、PCRによる増幅を行わないためバイアスが入る余地が少なく、定量性が高いことを強調し、mRNAの観測などでの利点を主張することで生き残りを図っている。
また、pyrosequencingの先駆けであった454 Life Sciencesは、他の手法が20-70塩基の短い配列しか出力できないことに対して200-400塩基単位での解読ができることから、そのような性能が必要な分野では用いられるものの、他の陣営との正面切った競争はできない状況にある。

これとは別に、まだ製品となっていないPacBioのシーケンサーは、原理は誰もが感心するもののモノがいつまでもでてこない。また、全く違う原理を使ったnanoporeによるシーケンサーは、多くの人に応援されているにもかかわらず当初の発想にこだわりすぎて製品化に必要なブレークスルーが果たせないまま危うい状況にある。

個人的な感想を言えば、このままではIlluminaの独走状態が加速しそうな気がする。
ABがSOLiDに対してスループットを上げるために行うことのできる改善点はIlluminaの手法にそのまま適用できるから、両者の差はなかなか埋まらないし、あまり強調されないことなのだが、一定数の断片を読んだときにゲノム上の位置を特定するための計算コストがIllumina>AB>>Helicosだから、出力配列が増えれば増えるほど他陣営はコンピューター資源の方にも投資した上でシーケンサーにより高額のコンピューターをつけて販売しないと対抗ができない。
機械の販売台数がそう多くない特定分野ではスケールメリットが非常に強く働き、下手をすると独占状態にもなりかねない。
この状況があと1-2年でどうなるかは分からない(特にABが開発中の1分子シーケンサーがどうなるか)が、今のトレンドはIlluminaに強い追い風となっている。

139510 journal

kahoの日記: Google Code Jam 2009敗戦記

日記 by kaho

/.Jで紹介されていたGoogle Code Jamに参加してみたが,システムがよく分かっていなかったのでlarge問題の入力ファイルをダウンロードして放っておいた所,時間切れになっていて投稿できなくなっていた.24時間でやればいいと悠長に構えていた頭の悪さで敗退.
とりあえず自分がやった結果をメモとして記す.あまり長くならないように切り詰めたので読みにくいコードだが,その際にエンバグしていなければ少なくともsmall問題は通過するはず.

A.エイリアンの言語
与えられた辞書に適合する単語の数を数えるもの.()を[]に置換して正規表現にするだけという書くまでもないプログラムなので省略.

B.水系の区画
土地の高さデータから水の流れる方向を決め,それぞれの区画を出発点とした水流がどこに流れるかを決めるもの.
それほど大きなデータサイズではないので力技でできる.それだけにあまり工夫せず冗長なスクリプトで対処.
N x Mのデータに対して計算量はO(N x M).

#-*-coding:utf-8-*-
def propagate(lat, sinks, H, W, i, j, sink_num): # あるセルがどのsinkにつながるか調べる
    points = []
    while sinks[i][j] is None:
        points.append((i,j))
        l = lat[i][j]
        north = lat[max(0, i - 1)][j]
        west = lat[i][max( 0, j - 1)]
        east = lat[i][min(W - 1, j + 1)]
        south = lat[min(H - 1, i + 1)][j]
        if north < l and north <= west and north <= east and north <= south:
            i -= 1
        elif west < l and west <= east and west <= south:
            j -= 1
        elif east < l and east <= south:
            j += 1
        elif south < l:
            i += 1
        else: # 新しいsinkに到着
            sinks[i][j] = sink_num
            sink_num += 1
            break
    for r,c in points: sinks[r][c] = sinks[i][j] #経路を全て塗りつぶす
    return sink_num
 
def determine_flow(H, W, latitudes):
    lat = [map(int, line.split(' ')) for line in latitudes]
    sink_num = 97 # chr(97) = 'a'
    sinks = [[None] * W for i in range(H)]
    pattern = ''
    for i, j in [(h,w) for h in range(H) for w in range(W)]: #流れる先を決定
        sink_num = propagate(lat, sinks, H, W, i, j, sink_num)
        pattern += chr(sinks[i][j]) + '¥n '[j < W - 1]
    return pattern
 
if __name__ == '__main__':
    print(determine_flow(4, 5, ('7 1 8 6 7',
                                '8 0 6 5 2',
                                '3 2 3 4 1',
                                '7 5 9 2 3')))

C.特定の文字パターンの組み合わせ数
任意のスキップを入れつつ,あるテキストと同一のパターンをとる経路の数を数える問題.
シークエンスのアライメントを意識しつつ行が目的の配列で列が入力配列のマトリクスを作成し,集計した.
目的配列の長さがN,入力配列の長さがMのとき,計算量はO(N x M^2)

#-*-coding:utf-8-*-
def count_variants(text, correct):
    rows, columns = len(correct), len(text)
    matrix = []
    matrix.append([text[col] == correct[-1] for col in range(columns)]) #最初の行の初期化.末端と適合していれば1
    for row in range(1,rows):
        matrix.append([0 if text[col] != correct[-1 - row] else sum(matrix[row - 1][col + 1:]) % 10000 for col in range(columns)])
        pass
    return sum(matrix[rows-1]) % 10000
 
if __name__ == '__main__':
    print(count_variants('wwwelllcome tto code jjjjjamm', 'welcome to code jam'))

追記:特定の入力ファイルがないと何をしているか意味が分からなかったので修正.

105511 journal

kahoの日記: 実中研がJackson Labを訴える

日記 by kaho

先週見つけて読んでいなかったニュースだが,実験動物中央研究所がJackson Labを訴えるという記事があった.
実中所は川崎にある財団法人で,先日マーモセットにGFPを導入した論文の発表で注目を浴びたが,ここの成果で最も有名なものは免疫不全マウスである.
免疫不全マウスは免疫機能の解析よりも,ヒトなど別の生物由来の組織を移植しても拒絶反応を起こさないことから,ヒト化マウスを作成して実験を行うという需要が大きく,他の研究機関に配布し様々な研究に用いられている.

一方,Jackson LabはMGIというマウスの包括的なデータベースで有名な非営利の研究所であり,こちらも独自に免疫不全マウスを作製し,他の研究機関に配布している.
今回のニュースによると,実中所(免疫不全マウスの特許取得済み)はJackson Lab(免疫不全マウスの特許をとっていない)に対して訴訟を起こしたという話だ.
日本語のニュースが見つからなかったことと,英語の方は法律の用語/手続きが分からないので現状を把握できていないが,Jackson Labが作成したマウスが元々実中研が提供したマウスを(何代も繁殖させた後)使用したものであり,機能を改変させた遺伝子も同じであることから実中研の特許を侵害しているということらしい.
実中研の方は「名誉を求めている」と主張し,Jackson Labのマウスも実中研の試料/技術を元にしていることを明らかにせよということらしいが,今回のニュースに言うようにいきなり訴状を送りつけるような形だったら(実中研側からのニュースがないので真実は不明だが)穏やかではない.
とはいえ,日本人の研究者というのは権利に疎くて他国からはいいように扱われっぱなしというイメージがあるので,ちょっと珍しいニュースだし(実中研が大学などを母体にしていないといった組織上の特徴もあるだろう),今後の成り行き次第では日本の研究機関にとって興味深い実例を提供してくれるかもしれない.

87881 journal

kahoの日記: Phase4 flu

日記 by kaho

メキシコとアメリカで発生した豚インフルエンザが深刻な事態になっているようだ.
Google Newsでもこの件に関するニュースがうなぎ上りに増えている.
今回の患者には生きている豚に接触した可能性のない人が多いことからヒトからヒトへの感染が起きていることは疑えない.
ウイルスの型はH1N1で強毒性のため心配されていたH5N1ではないが,死亡率は数%ほどあり,予断を許さない状況だ.
Reuterによれば死者は25-45歳が多く,NYTやTimeのレポートではメキシコでは学校を閉鎖したことを報じている.
アメリカではまだ8例ではあるが時宜が悪いことにもうすぐGW中で多くの日本人がかカリフォルニアに行くだろうが
帰りにウイルスも持ち込まないように自衛しなければならない.

73844 journal

kahoの日記: 青空文庫 on Cloud

日記 by kaho

iPhone/iPod touchで青空文庫を読むアプリはいくつか出ているが,無料のものはないので,お金をかけずに青空文庫を読む方法を考える.
まず青空文庫のDVDがBittorrentで手に入れられるので,これを入手.
これをどのようにして閲覧するかだが,一つ一つのファイルサイズは小さいが全体はかなりの量になること,実際に読むのはごく一部であること,オフラインで閲覧できること,などからZumeDriveを使用することにした.
ZumeDriveは1GBまでは無料で使えるオンラインストレージであり,Windows/Mac/iPhoneでアプリケーションが利用でき,ローカルに存在するファイルは全てキャッシュという扱いになっているサービスである.

ただし日本語化どころかUTF-8も満足に扱えないので,UTF-8エンコーディングのファイルを開くこともできない.
しかし他のエンコーディングを試したところ,EUC-JPであればiPhoneのアプリから閲覧することができるということがわかった.

そのため,青空文庫のHTMLファイルをスクリプトで処理してiPhoneで見やすいHTMLに変換することにした.
そのままだと文字が小さ過ぎて読めないため,スタイルシートの挿入を行い,少しでもファイルサイズを小さくするためにルビを削ったり余分なタグを取り除いたりした.
これらは単なるHTMLであり,しおり機能はないので,適当な長さでページ区切りを入れるだけにしている.

外字対応がどうしてもうまくいかず,表示できないのが問題だが,変換済みのファイルを以下においた.

宮沢賢治 (790KB) (表示テスト用)
http://www.zumodrive.com/share/2FnZjQxZT
青空文庫全て (50MB)
http://www.zumodrive.com/share/2FmMWQyYT
青空文庫全て (90MB)
http://www.zumodrive.com/share/2GSMzhiYz

使用方法は,PC/MacからZumoDrive仮想ドライブの適当な場所に,これらのファイルを展開してできたフォルダをドラッグ&ドロップするだけで,しばらくした後iPhoneのSupersize Me(iTune Storeへのリンク)で自分のドライブにアクセスする(意外と他のデバイスで見られるようになるまでに時間がかかる).
短い文章ならこれでも十分読めるのだが,長文はかなりつらいのが正直なところ.
HTMLファイルは画像を埋め込めないのが残念だが,画像もインライン表示できるビューアーがないか探す予定..
日本語が表示できるのか分からないが,RTF化できないものかも試してみたい.

460482 journal

kahoの日記: 小ネタ

日記 by kaho

1. 始めての格安サーバー
ソフマップで安かったのでProliant ML110を購入.送料無料で13,800.
メモリ(nonECC, 相性保証)1GBx2にWindows XP Homeを入れても一式で3万円しなかった.
とはいえ(Windowsを入れてるように)自分で使うわけではなく,ちょうど仕事用に必要な知人に実費で譲った.
起動時にファンが全力で回ること以外は問題なく,自分でLinuxの開発機が必要になったらまた買うかもしれない.

2. OpenOffice 3.0beta
OpenOffice 3.0betaがリリースされていたので使ってみる.
MacでIM切り替えがアプリケーションにトラップされてしまう問題は解消されていた.
日本語パックがリリースされたらMacを使用している他の人にも勧められそうだ.
翻訳チームはにお疲れさまとしか言えないが,期待したい.

3. チキンなT-Rex
Natureにまとめ的な記事が載っていたが,/.Jでもストーリーがたっていた,恐竜のタンパク質がニワトリと似ているという話だが,
かなり怪しい雰囲気になっている.
この件に関しては何人もの研究者から問題が指摘され,その度に著者らは一部のタンパク質について内容を撤回したり
修正したりと後退を繰り返している.
一番問題が大きいのは質量分析器の生データを未だに公開しないことで,それがあれば他の研究者が調査できるのだが
何度文句が付けられてもやっていないようだ.得られたアミノ酸配列というのはバクテリアのタンパク質の断片を張り
合わせたものではないかとさえ言われている.
これは必ずしも隠蔽とか言うわけではなく,何を持って「生データ」と言うのかという判断の問題もあるのだが,最低限
第三者が検証できるだけのデータの公開を求めなかったScienceの問題はあると思う.
私も論文を読んで生データをあたり,そこから再現実験することがあるのだが(徒労に終わることも多い),いい加減な
実験をしていることがわかる場合,「生データ」といってもそのダイジェストである場合,ひどいときには著者の環境
でしか論文の結果を出力できないような特殊なデータ形式しか公開していない場合などがある.
素晴しい研究であるほどその元のデータに立ち戻って調べることは大事だと再確認した.(と徒労に対するモチベーションを
維持する毎日)

468208 journal

kahoの日記: カモノハシゲノム

日記 by kaho

Nature Web Newsより,単孔類ゲノムの解読が報告されていた.
カモノハシの奇妙な形態/生態はここで紹介するまでもないが,トリともほ乳類ともつかない得意な生物は発見当時から多くの謎を含んでいた.
RefSeqなどで遺伝子発現がそれなりに調べてられていてゲノムももうすぐ出るだろうと思っていたので,解読そのものは驚きではないのだが,その進化上の特異な位置づけから,解析内容はいろいろと面白い.

カモノハシもX染色体を持ち,それによって性別が変化するのだが,カモノハシのX染色体はほ乳類のX染色体とは全く違い,トリのZ染色体に近いのだそうだ.(ほ乳類ではXYがオス,XXがメスだが,トリはZWがメス,Z0がオスになる)
これはほ乳類のXY型の性決定システムが現れたのが単孔類との分岐の後であったことを意味している.つまり,我々の性決定システムはつい最近できたものだということになる.

他にも,カモノハシがもつ毒(犬一匹殺せるほどの量)は収斂進化によって獲得したもの(ヘビやトカゲとは起源が違う)など,興味深い点がいくつかあったが,私の興味のあったところはあまり解析されておらずちょっと肩すかしの気持ちもある.

私はエピジェネティクスの観点からいろいろと調べられるのではないかと期待していた.
ゲノムインプリンティング(遺伝子が父親由来か母親由来かをDNA修飾で区別する機構)の起源が単孔類にありそうだというのが,最近私が聞いた話なのだが,残念ながら特定の座位の遺伝子クラスターの位置を示しただけしか論文にはなかった.
今回示されているのはPrader-Willi Syndromeの原因となる場所なのだが,それ以外にもH19-Igf2クラスターでほ乳類と同じインプリンティングパターンがあるという話を聞いており,ほ乳類で知られているインプリンティングを受けるクラスターがどのようになっているのか,ゲノム全体で示して欲しかった(そしてできればメチル化のパターンも)のだが,今回は配列の解読と配列からわかることで全てのようだ.
多分他の研究者とかぶる上に手付けが遅いので自分の業績には全く関係しないが,趣味の一環として時間があれば調べてみたい.

468825 journal

kahoの日記: 国際癌ゲノムコンソーシアムについて,雑感

日記 by kaho

/.Jのストーリーにもなった国際癌ゲノムコンソーシアム (ICGC)について,コメントをつけるのもどうかと思ったのでこちらに書いておく.

このプロジェクトは,コメントにあるように治療や解析に直接結びつくものではなく,そのための基盤であるデータベースの整備を目的としている.
近年,様々な技術の開発により細胞の状態を安価,短期間での大量解析ができるようになってきたのだが,これらの技術を癌細胞に対して応用した結果であるデータを利用しやすい形で保存し,公開することになる.

例えば先日の日記で最近のシーケンサーの性能向上について触れたが,ヒトゲノムは既に解読されているので,そのリファレンスとの違いを調べることは比較的簡単に行うことができる(re-sequencing).
そしてどの遺伝子に変異があったかというデータを蓄積するとガンの原因となる遺伝子が見えてくるだろうということだ.
もちろんいくつかの既に知られている癌遺伝子に集中することは予想されるので,多分「この遺伝子に変異が多く起きている」という程度のデータはたとえガンの種類を分けたとしてもそれほど目覚ましい成果にはならないと思う.

私にとってこのプロジェクトが他のデータベース(SNPを集めたりマイクロアレイで遺伝子の発現をみたりするもの)と違う点は,配列の変化だけではなく,染色体レベルの変化も記録することを推奨し,現在細胞のガン化の原因と考えられているあらゆる変異を受け付け,利用可能にするというところにある.

癌細胞は普通の細胞と違い,染色体が融合したり多核化がおこったりといったマクロな変化がおきている.また単独のDNA塩基の変異ではなく,もっと大きい範囲で欠失や重複がおきたり(コピー数異常),2本ある染色体で本来(父母由来で)異なる配列のはずが同一になってしまったり(loss of heterozygosity;LOH)といった変異もよく知られている.更にミクロな変化でも,DNAのメチル化(配列は変わらないが化学修飾される)もガン化に影響するし,タンパク質として翻訳されない短いRNAの発現によっても影響をうける.

こういった別分野のデータは,これまでデータの観測方法ごとにデータベース化される傾向にあったのだが,今回のプロジェクトは実験ごと,対象とするサンプルごとにまとめている.この,全てを受け付けるということがデータの解析をする側には非常に大きな価値がある.メタアナリシス的な研究には最適だ.

ただ,ガイドラインを読んでもよく分からなかったのは,こういう様々な観測方法のデータを統一のフォーマットで提供できるのかということだ.
柔軟性をもたせるために生データの投稿を受け付けるそうだが,全ゲノムを対象としたデータとなればその量は膨大になってしまう.これはプロジェクト側の負担ということもあるが,利用者側としてもデータの再現実験一つするのにもTB級のデータをダウンロードしなければならないというのでは話にならない.
かといってサマリーを出せるように特定の形式のみに限定すれば新しい技術への対応が遅れてしまう.

まだレボジトリを公開していないのでどのような形になるか分からないが,公開されたらどのような仕組みになっているか実際にデータを取得してみる予定だ.

23767 journal

kahoの日記: 最近のシーケンサー事情

日記 by kaho

最近になってまたいろいろと進歩が激しく,自分でも整理する必要がでてきたので,備忘録的に,最近のシーケンサーについてまとめる.

順番的に最初に記すべきは,ネアンデルタール人のゲノム解読やJim Watson個人のゲノム解読など,自ら研究にも積極的に関わっていることで知られる454 Life Scienceのpyrosequencingである.
これまでの方法とpyrosequencingの違いはDNAの増幅のために個別の試験管を用いないということにある.
DNAの配列解読を行う場合,たった一つの配列では観測限界および精度の問題から解読が難しい(後述するようにごく最近はこれを乗り越えつつあるのだが).そのためABI PRISMなど,電気泳動を用いた方法ではまず個別の区画にライブラリ化した一種類のDNAを入れ,PCR反応で複製する.この方法では一度に複製することのできるDNAの種類に限界があり,最大のボトルネックとしての人手が必要であるという問題があった.
この問題に対して一種類のDNAにある物理的な空間を占有させることができれば手作業で行う必要はないということを示したのがpyrosequencingの方法である.
454の方法ではポリスチレンのごく小さいビーズに最初にDNAを結合させる.このとき一つのビーズにDNAが複数の種類結合しないよう濃度を調節する.このビーズ上でPCR反応が完結するようにすればあるビーズは特定の配列のDNAばかりに囲まれる構造になる.
PCR反応は単純にはビーズ同士の距離が遠くなるように大過剰の反応液中で行えばよいのだが,頭のよいことに疎水性の溶液と混合することで反応液の区画を分離させ,その中でPCRを行うemulsion PCRという方法によって効率化を行っている.
ある種類のDNAを周辺にまとわせたビーズは,ちょうどビーズ一個だけが入ることのできる穴が無数にあいたプレート(PicoTiterPlate)にばらまかられる.このようにするとある物理的な位置とDNAの種類を対応させることができる.
次に必要なのはこのような小さな区画に分散したDNAの配列の解読であるが,pyrosequencingでは蛍光ではなく,ルシフェラーゼによる発光反応を用いている.そしてこれが"pyro"という接頭詞がつく理由である.DNAの複製におけるポリメラーゼ反応において,結合したヌクレオチドは次の結合のためにピロリン酸(PPi)を放出する.PPiからATP sulfurylaseによってATPを生成させると,このATPを消費した発光反応が観測できる.
このとき,ACGTの4塩基のうち,どれか一つ(ここではdCTPとする)で反応を行ったとすると,Cと相補鎖をつくるGを持つ配列だけから発光が観測される.ある塩基で反応を行った後,反応液を除去して次の塩基で反応させ,発光を観測することで全ての塩基を解読できる.
この方法の問題点は電気泳動による解読よりも一度に読むことのできる配列が短いことである.一般的には電気泳動法の半分程度,300-500塩基とされている.

次に,最近ではよく論文でもみられるようになったSolexaである.
Solexaの特徴はDNAを結合する担体としてビーズではなくDNA断片を結合した基板を用いているということである.まず解読対象のDNAには5'末端と3'末端にアダプター配列を結合する.5'末端側のアダプターは基板に結合することができ,一定の濃度で基板と反応させるとランダムな位置(理想的には一定間隔で)にDNA断片が結合する.基板には3'末端に結合したアダプターと相補的な配列が既に結合してあり,基板に結合したDNA断片は両側を基板にとらえられて両方の断片に結合し橋渡しをしたようになる.この状態でポリメラーゼでDNAの伸長反応を行うと,2本鎖のDNAが生成するが,この後加熱すると相補的な結合をしていた部分は外れて基板に片方だけ結合した2本のDNAとなる.更にアダプターと相補的な配列をプライマーとしてPCRを行うことで最初は一本のDNAが結合していたある領域には特定のDNA配列の多数のコピーが作られるとされる.(この部分は文章よりも図 (PDF)を見た方がわかりやすい)
次にこの多数のコピー配列を読み取るのだが,これは電気泳動法のようなターミネーターを用いたものでもpyrosequencingを用いた発光反応でもなく,合成時解読(sequencing by synthesis; SBS)という方法で読み取る.SolexaのSBSがどのような試薬を使っているのかは調べていないが,SBSにおいてはやはり4つの塩基にそれぞれ別の蛍光標識を結合するのだが,リン酸基側に標識をもたせておき,励起光よりも更に短い波長の光を照射することで蛍光標識を除去することのできる合成ヌクレオチドが使われることがある.
このヌクレオチドを使うと,まず第一の塩基を結合させて蛍光の波長を観測し,塩基を同定した後で標識を切断し,次に同じ反応をすることで2番目の塩基を読み取ることができる.
454のビーズを用いた方法では,PicoTiterPlateの大きさ(直径44um)から一度に観測できる配列の数が限定されるが,Solexaではより緻密に観測点を配置することができるので効率の高い観測ができる.
ただし弱点があり,Solexaで読み取ることができるのは25-50塩基程度の短い配列だけだという点である.
このため,解読した配列の並び替えにコンピュータのパワーがかなり必要であり,また未知の配列の解読に用いるのは非常に難しいという問題がある.そのため全ゲノムが解読されている動物のre-sequencingや,ある条件で選択したゲノムの断片を集め,どこが濃縮されているかを調べるために使われる.

これまで主流であった電気泳動方式で有名なABIが販売しているのがSOLiDであり,これはライゲーション反応を応用した解読方法である.
個人的にはこの方法は454のアイデアを使いながら特許を回避するために開発された方式としか考えていないのだが(様々な種類のプライマーが必要な部分が特に気に入っていない),精度は多少よいものの,スループットと特徴はSolexaとあまり変わらない.
多分関係者の投稿だと思うがWikipediaに詳細な解説がある.

Helicos社のtrue single molecule sequencing (tSMS)法はSolexaと同じsequencing in synthesisである.Helicosのシーケンサーは今年になって最初の論文が出版された.
Helicosの方法の特徴は,解読の前に対象のDNA鎖を増幅する必要がないということだ.必然的に対象となる配列は一つしかない.そこで「一分子」解読となる.一つのDNA鎖から読み取れる塩基数は15-45塩基程度,スループットは25-90 Mb/hとされている.ヒトゲノム一度なら1-3ヶ月ということになる.
tSMS法ではDNAを担体に結合し,ポリメラーゼによって相補鎖の伸長反応を行う.このとき相補鎖に結合するヌクレオチドは更に次の段階の伸長反応を行なえないように蛍光標識を含む残基によって修飾されている.
一塩基の伸長反応が終了したら反応液を洗い流して遊離ヌクレオチドを除去し,励起光を照射してどのヌクレオチドが結合したかを解読する.解読が終了したら保護基を除去し,同じ反応を繰り返す.
このとき,DNAは一分子しかないことから蛍光強度もあまり期待できない.そのため他の方式のように4色の蛍光標識をつけて同時に読み取るのではなく,CTAGの順で別の塩基を反応させて,その度に読み取る形にしている.
つまり25塩基解読するためには100回の反応が必要であり,確かに他のpyrosequeincingに比べて効率が高いにしても,桁違いとまではいかない.
この方法もSolexaと同じで,短い配列を大量に出力するため,共通の長所と短所を持っている.

今年の1月に(衝撃的に)発表されたのが,Pacific BioscienceのSMRT (single molecule real-time)法だ.
この方法はHelicosと同様のsequencing by synthesisに属する方法になる.
ただしこの方法は他の方法と異なり,一度に千塩基以上の解読ができるという違いがある.ここではPacBio自身による解説(PDF)に従って説明する.
なぜ同じsequencing by synthesisでも一度に読めるのが長いのかというと,基板上に固定するのがDNAではなくポリメラーゼの方であるという違いによる.
ポリメラーゼによって切断されるリン酸基に蛍光標識をつけているので,伸長反応が起きるたびに蛍光が観測されるわけだが,ポリメラーゼが固定されていることで蛍光が観測される位置が固定されており,安定した観測が可能であることが利点となる.
ただし観測する画素において,複数の反応が混入してしまっては全く観測ができない.そこでポリメラーゼが一つだけ,DNA鎖も一分子だけが入ることができる直径数十nm,容量10^-21リットルのzero-mode waveguides (ZMW)を半導体製造の技術を応用して作成し,その極微量の反応系内で処理することで配列を解読するDNA鎖を限定している.
しかも大変巧妙なことに,このZMVはポリメラーゼ-DNAの反応系の限定だけでなく,蛍光の励起・発光にも本質的な影響をもたらす.
励起光の波長は青紫~紫外であり,発光波長は可視光であるので,どちらもこのZMVの大きさよりもはるかに波長が長い.ZMVの「底」の方から励起光を当てているとき,蛍光がみられるのは「底」のごく一部に限られる.このため他の方法ではバックグラウンドからの蛍光が多すぎて反応液を除去しなければ読めなかったものが,反応しているその時に読み取ることが可能になっている.もし洗浄が必要なら読み取るDNAが失われることを恐れてDNAの固定をまず考えなければいけないが,そのまま反応を続けられるならその必要はない.
この方式によるシーケンサーは2013年くらいの販売を目指して世界中で宣伝を行っているところだが,どこでも驚きを持って迎えられている.私も最初は眉唾だったが,解説を読んで舌を巻いた.
あらゆるアイデアが絡み合っており,どの一つも他と切り離しては成り立たない.こういうアイデアが最初はどこから出て来たのか不思議なくらいだ.
もちろんまだ製品化されていないので,最終的な評価は慎重になるべきだが,この技術がDNA解読の世界を変えてくれることを期待している.

typodupeerror

人生unstable -- あるハッカー

読み込み中...