2011年 05月 12日
次世代シーケンスデータの解析には、配列情報を扱うものと、それに引き続く数値(発現量とか)を扱う段階がありますが、後者の方はまだあんまり王道がないです(と思ってます)。 mRNA-seqの発現比較方法として、Z検定を用いたもの、GLMを用いたものなんかがありますが、パッケージになってないと使い方分からないし、正規化の方法も何やってんだかわからないです。 Rのパッケージで使ってみて良さそうなのがあったのでメモメモ Simon Anders* and Wolfgang Huber Differential expression analysis for sequence count data Genome Biology 2010, 11:R106 いつもお世話になってる門田先生のHP(Rで)塩基配列解析(主に次世代シーケンサーのデータ) by 門田幸二でDEGseqっていうパッケージとDEseqっていうパッケージが紹介されていたので試しに使ってみました。 データ次第でしょうが、僕の手元のデータではDEGseqを使うとFDRが小さいものが大量に出てきてしまいました。発現変動遺伝子が多すぎて溺れそうです。一方、DEseqではFDRが小さいものが”ぼちぼち”出てきました。いい感じです。しかも計算が早い。途中、 sizeFactors(cds) をして計算された正規化係数をみると、TMM正規化で出てきた正規化係数と近い値が出てきていました。TMM正規化では、そもそも細胞/組織中のtotalRNAの量なんて違うんじゃないの?発現の大きな一部の遺伝子にほとんどひっぱられてんじゃないの?という仮定に基づいていて、個人的に説得力があって好きです。 感動したのはこの一節。 "DESeq allows analysis of experiments with no biological replicates in one or even both of the conditions. While one may not want to draw strong conclusions from such an analysis, it may still be useful for exploration and hypothesis generation." かゆいところに手が届きそうですw 人気ブログランキングに参加しています。 応援よろしくお願いします。
by koretoki
| 2011-05-12 05:13
|
アバウト
以前の記事
2021年 02月 2018年 02月 2017年 12月 2016年 12月 2016年 06月 2014年 09月 2014年 05月 2014年 01月 2013年 12月 2013年 06月 2013年 02月 2012年 11月 2011年 07月 2011年 05月 2010年 11月 2010年 05月 2010年 04月 2009年 12月 2009年 09月 2009年 08月 2009年 07月 2009年 06月 2009年 04月 2009年 03月 2009年 02月 2009年 01月 2008年 12月 2008年 11月 カテゴリ
最新のトラックバック
タグ
その他のジャンル
ブログパーツ
ファン
記事ランキング
ブログジャンル
画像一覧
|
ファン申請 |
||