2014年4月10日木曜日

ChIP-seqデータのダウンロード

Adachi K, Nikaido I, Ohta H, Ohtsuka S et al. Context-dependent wiring of Sox2 regulatory networks for self-renewal of embryonic and trophoblast stem cells. Mol Cell 2013 Nov 7;52(3):380-92. PMID: 24120664のデータを用いて、解析を行ってみる。論文を見るとデータがある場所はGSE28455ということで、ページの下部にChIPのデータはGSE28453にまとまっている模様

リンク先は以下のようになっていてSamplesのmoreをクリックすると全体がでてくる。

今回は練習がてら、GSM703186 Sox2 ChIP-seq, Oct3/4KO Day0とコントロールにGSM703191 Sox2 ChIP-seq, Sox2KO Day2を使う。GSM703186 Sox2 ChIP-seq, Oct3/4KO Day0のデータをダウンロードするのでGSM703186をクリックし、下部へ移動すると

すでに著者らが解析済みのファイル(BW : BigWig形式)とシーケンサーから吐き出されただけのデータがあり、今回はSRX057755をダウンロードする。ただ、NCBIからこのままダウロードする事も可能だが、前回も言った通り(SRA Toolkitのインストール).SRA形式からいちいち変換しなくてはならない。しかし、DDBJのDRAならfastq形式であると言う事を聞いたので、DRAからダウンロードする。SRX057755とググればトップにでてきた。
リンクをクリックすると以下のようなページに飛ぶ。
FASTQと書いてあるところからダウンロードできるのだが、safariを使っている場合は、うまく出来ないので、ここからはターミナルで行う。ターミナルを開いてsrcに移動する。lftpと打ってから、FASTQのリンクをドラッグアンドドロップする。
lftp ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA035/SRA035367/SRX057755
とすると
cd 成功、cwd=/ddbj_database/dra/fastq/SRA035/SRA035367/SRX057755

lftp ftp.ddbj.nig.ac.jp:/ddbj_database/dra/fastq/SRA035/SRA035367/SRX057755>
となるのでlsで中身を確認する。
lftp ftp.ddbj.nig.ac.jp:/ddbj_database/dra/fastq/SRA035/SRA035367/SRX057755>ls
-rw-r--r--   1 51005    51005    723342854 Nov  1 05:09 SRR185892.fastq.bz2
fastqファイルが見つかったのでこれを転送する。
lftp ftp.ddbj.nig.ac.jp:/ddbj_database/dra/fastq/SRA035/SRA035367/SRX057755>get SRR185892.fastq.bz2
とすると転送が始まる。wgetでは無い事に注意。転送がおわったらexitすればftpから戻って来れる。 あとは解凍するだけ。~/local/shareというディレクトリを作成してここに解凍する事にする。だけど、bunzip2で解凍先を指定する方法がわからなかったので、とりあえずsrcで解凍ほんで~/local/shareにコピーしてSox2_ChIP-seq_Oct3_4_KODay0.fastqにリネーム
cd src/
bunzip2 -d SRR185892.fastq.bz2
cp ../local/share
cd ../local/share/
mv SRR185892.fastq Sox2_ChIP-seq_Oct3_4_KODay0.fastq
ls
Sox2_ChIP-seq_Oct3_4_KODay0.fastq
同様のステップをSox2 ChIP-seq, Sox2KO Day2のデータも行った。 これでfastqcにかけられるところまできた。

0 件のコメント:

コメントを投稿