「ほっ」と。キャンペーン
2011年 05月 12日

次世代解析の特に比較に便利なRパッケージ: DEseq

次世代シーケンスデータの解析には、配列情報を扱うものと、それに引き続く数値(発現量とか)を扱う段階がありますが、後者の方はまだあんまり王道がないです(と思ってます)。

mRNA-seqの発現比較方法として、Z検定を用いたもの、GLMを用いたものなんかがありますが、パッケージになってないと使い方分からないし、正規化の方法も何やってんだかわからないです。

Rのパッケージで使ってみて良さそうなのがあったのでメモメモ

Simon Anders* and Wolfgang Huber
Differential expression analysis for sequence count data
Genome Biology 2010, 11:R106

いつもお世話になってる門田先生のHP(Rで)塩基配列解析(主に次世代シーケンサーのデータ) by 門田幸二DEGseqっていうパッケージとDEseqっていうパッケージが紹介されていたので試しに使ってみました。

データ次第でしょうが、僕の手元のデータではDEGseqを使うとFDRが小さいものが大量に出てきてしまいました。発現変動遺伝子が多すぎて溺れそうです。一方、DEseqではFDRが小さいものが”ぼちぼち”出てきました。いい感じです。しかも計算が早い。途中、

sizeFactors(cds)

をして計算された正規化係数をみると、TMM正規化で出てきた正規化係数と近い値が出てきていました。TMM正規化では、そもそも細胞/組織中のtotalRNAの量なんて違うんじゃないの?発現の大きな一部の遺伝子にほとんどひっぱられてんじゃないの?という仮定に基づいていて、個人的に説得力があって好きです。

感動したのはこの一節。
"DESeq allows analysis of experiments with no biological replicates in one or even both of the conditions. While one may not want to draw strong conclusions from such an analysis, it may still be useful for exploration and hypothesis generation."
かゆいところに手が届きそうですw

人気ブログランキングに参加しています。
応援よろしくお願いします。
FC2 Blog Ranking

[PR]

by koretoki | 2011-05-12 05:13


<< D.m.由来セルラインの発現比較      SRAにハエセルライン45li... >>