０から始めるNGSデータ解析メモ

2014年4月4日金曜日

FastQCのインストール

HPはここhttp://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Download Nowをクリック

FastQC v0.10.1 (Win/Linux zip file)をクリックしてしまうとそのままPCにダウンロードされるのでターミナルにリンク先をコピペする。ターミナルへのリンクのコピペはリンクをドラッグアンドドロップすればできる

ターミナルを起動して、srcに移動する。

cd src/
wget "http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.10.1.zip"
--2014-04-03 23:36:07--  http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.10.1.zip
www.bioinformatics.babraham.ac.uk をDNSに問いあわせています... 149.155.132.143
www.bioinformatics.babraham.ac.uk|149.155.132.143|:80 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています... 200 OK
長さ: 596632 (583K) [application/zip]
`fastqc_v0.10.1.zip' に保存中

100%[======================================>] 596,632      103K/s 時間 5.9s

2014-04-03 23:36:14 (99.2 KB/s) - `fastqc_v0.10.1.zip' へ保存完了 [596632/596632]

次に解凍。zipなのでunzipを使う。 localに解凍する -dで解凍先を指定ちなみにコマンドやファイル名はtabキーで補完されるので使うと便利

unzip unzip fastqc_v0.10.1.zip ../local

解凍すると、FastQCディレクトリができるので移動してInstall.txtを見るとActually installing FastQC is as simple as unzipping the zip file it comes in into a suitable location. That's it. Once unzipped it's ready to go.fastqcとなっているのでそのまま使えるらしい。実際にやってみると実行権限が与えられていないのでfastqcファイルに実行権限を与える。与えたら-hでusageがでるか確認

cd FastQC/
chmod +x fastqc
fastqc -h

versionやoptionの説明がでればOK /home/kosugi/local/FastQCにパスを通す。

export PATH=/home/kosugi/local/FastQC:$PATH

ほんで、home ディレクトリに戻ってfastqc -hでうまくいくか確認

[kosugi@~]$ fastqc -h
FastQC - A high throughput sequence QC analysis tool~
〜以下usage〜

動いた！これで場所を選ばず実行できる。
再ログインしても良いようにパスを.bashrcに記述

vim .bashrc

ファイルが開いたらiを押すと書き込める。以下を一番下に追記する。追記したらescキーを押して:wq

## FastQC
export PATH=/home/kosugi/local/FastQC:$PATH  :$PATHを後ろに持ってくると今まで書かれたパスの前に記述という事らしい。

念のため再ログインしてwhichでどのパスでプログラムが実行されている確認する。

which fastqc
~/local/FastQC/fastqc

とりあえず、これでいいのかな・・・

2014年4月3日木曜日

ChIP-seq解析に必要なダウンロードするもの

ChIP-seqの解析に使う代表的なツールとしてなにが必要かな・・・

論文を参考にすると

シーケンスの配列クオリティチェックツール
FastQC : http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

マッピングツール

Bowtie 2 : http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
SAM/BAMファイルの操作ツール
Samtools : http://samtools.sourceforge.net

ピークコールツール
MACS : http://liulab.dfci.harvard.edu/MACS/index.html
もちろんゲノムも必要。Bowtie 2のサイトの右下にリンクからおとす。
（indexが含まれているようなので色々都合が良いと思われる。）
それぞれ、ダウンロード-解凍-インストール-パスを通す等という順番でやっていく。
ツール関係で超絶参考になるサイトは以下のNGS Surfer's Wiki
NGS Surfer's Wikiのツール情報

syntaxhighlighterを使ってコマンドを表示する事にした。

解析の話とは無関係だけど、見た目をすこしみやすくしたいのでsyntaxhighlighterをBloggerに対応させてみた。コマンドラインはsyntaxhighlighterを使って表示したほうが文章と区別できてよいかな。結構、はまった。
Syntax Highlighter Scripts Generatorで全てにチェックを入れてgenerateしてコピー
それをBloggerのテンプレート→カスタマイズの隣のHTMLの編集での直前にペースト-保存
以下にある一行目を削除

<link href='http://alexgorbatchev.com/pub/sh/current/styles/shCore.css' rel='stylesheet' type='text/css'/>

一番下から二行目のSyntaxHighlighter.all();の上に以下を追加すると右上にでる、はてなマーク消える。

SyntaxHighlighter.defaults['toolbar'] = false;

次にcss
shCore.css
にあるcssをメモ帳にでもコピペして以下の場所を適宜変更。

  margin: 0 !important;
  outline: 0 !important;
  overflow: visible !important;
  padding: 2px !important;//0から2pxに変更

と

  .syntaxhighlighter.ie {
  font-size: .9em !important;
  padding: 1px 0 20px 0 !important; // 1px->20pxに変更
}

これをBloggerのテンプレート>カスタマイズ>上級者向け>cssにコピペ-適用する
使い方はHTML編集でコマンドのところをpreでくくる感じ

<pre class="brush:言語名（コマンドならbash HTMLならhtml）">
//コマンド
</pre>

コマンドだとこんな感じになる

mkdir hoge hogeディレクトリを作る
cd ../     一つ上のディレクトリへ移動
less hoge  hogeの中身を見る
ls -la     ディレクトリの中身確認
wget "URL" ダウンロード

wgetの色変わらんのね。なんでやろ。
NGSの解析とは全く関係ないところにやや時間を費やしてしまった・・・。

2014年4月1日火曜日

ディレクトリの作成（2014/04/04追記パスの通し方）

無事にサーバーに接続できたので、マッピングツールやらゲノムやらダウンロードしたい！
けどその前に、ssh接続してすぐのディレクトリにはなにがあるやろ？
確認。という事でls
[kosugi@~]$ ls

何も無いw（実は隠しファイルはある。-a で.付きのものが見える。）

ダウンロード用、作業フォルダのようなものを作っておこう。
mkdir src　　　　　ダウンロード
mkdir work 　　　　作業
とした。
[kosugi@~]$ ls
src work
ディレクトリできた。

srcにツールやゲノムをとりあえずダウンロードしていこう。
<2014/04/03追記>
一般的にはlocalとするようなのでworkはlocal以下に作る。
binもlocal以下に作っておく。

[kosugi@~]$ ls
src  work
[kosugi@~]$ rmdir work
[kosugi@~]$ mkdir local
[kosugi@~]$ ls
local  src
[kosugi@]$ cd local
[kosugi@local]$ mkdir work
[kosugi@local]$ mkdir bin
[kosugi@local]$ ls
bin work

とりあえずこれでOK。
binにはパスも通しておく。パスについてはよくわからないけれどネットに色んな情報が書かれているのでそれを参考にする。パスを通した場所にプログラムを置いていないと自由にコマンドが使えない事だけは理解できた。さらに、サーバーで既通っているパスの上流にパスを通したい。普通はサーバーの/usr/local/binにパスが通っていて、そこにインストールされるかファイルをコピーする。今回は権限が与えられていないので自分のhomeディレクトリに作ったbinにパスを通しておく。

export PATH=/home/kosugi/local/bin:$PATH

とすれば通るはず。

echo $PATH
/home/kosugi/local/bin:/他の色んなパス/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin

と言う事で通った。ただこのままだと、ログオフしたら消える。

echo $PATH
/他の色んなパス/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin

なので毎回打ち直す必要が有るが、そんなめんどくさい事していられないのでひとまず.bashrcに書き込むといいらしい。するとこのログインした時の初期化問題が解決する。書き込むにはvimというコマンドを使うようだ。（emacsというのもあるらしい。）書き込むにはi 保存終了はescキーを押して:wqと打ち込む

vim .bashrc
ファイルが開いたら書き込める。以下を適当な位置に追加する。
## 自分のlocal/binにパスを通す。
export PATH=/home/kosugi/local/bin:$PATH  :$PATHを後ろに持ってくると今まで書かれたパスの前に記述という事らしい。

と書いて終了。ログインし直しても

echo $PATH
/home/kosugi/local/bin:/他の色んなパス/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin

先頭に/home/kosugi/local/binのパスが通っている。よかったよかった。

サーバーに接続するまでの流れ

サーバーで解析するにあたって

・サーバー構築（サーバー構築のLinux本を一通り読む必要あり）

初期設定
ユーザアカウント作成

・自分自身のPCからサーバーに接続する必要が有る。

ssh接続のための秘密鍵を作成する必要がある。

そこらへんの設定が終われば、コマンド一行でサーバにssh接続できるようになるとのこと。
今回は既にサーバーが準備されている状態であり、秘密鍵の作成までは、管理者にやってもらった。ssh-keygen -t dsaっていうのを使ってやるみたい。一般的らしいのでググると結構でてくる。

PCはmac book pro を使っていて、ターミナルを起動すると
kosugi:~ TK$
となる。そこでls -l（自分がいるディレクトリのファイルの情報をみるコマンド）を叩く。
kosugi:~ TK$ ls -l .ssh
total 16
-rw------- 1 TK staff 672 3 31 15:22 id_dsa
-rw-r--r-- 1 TK staff 801 3 31 22:38 known_hosts
とid_dsaがちゃんとある事がわかる。ここにssh接続に必要な秘密鍵がある。

kosugi:~ TK$ ssh -i ~/.ssh/id_dsa kosugi@サーバー名とコマンドを叩くと
kosugi:~ TK$ ssh -i ~/.ssh/id_dsa kosugi@サーバー名
Last login: Tue Apr 1 02:11:06 2014 from 〜
[kosugi@サーバー名~]$
というわけでサーバーにssh接続されるようになったヽ(ﾟ∀ﾟ)ﾒ(ﾟ∀ﾟ)ﾒ(ﾟ∀ﾟ)ﾉ

ただ、Linuxをあつかった事がない人がまず行き詰まるのは、おそらくこのステップ。
よーわからん。って言うのが私の感想。やってもらわなかったらなかなか難しいと思う。時間がある時に、virtual boxなどの仮想環境で秘密鍵の作成はやってみようと思う。けどMac単体で解析する場合や、仮想環境を立ち上げている場合なら基本的にssh接続する必要がないと思われるので、ここの詳細は今はとりあえず省略。

Linuxのお勉強

ほとんどコマンドも知らないので、覚える必要あり。
以下の資料を教科書にしてみる。
LPIC：Linux標準教科書（Ver2.0.0）
http://www.lpi.or.jp/linuxtext/text.shtml
PDF版はアンケートに答える必要あり。
Android版もあるみたい。
https://play.google.com/store/apps/details?id=com.lpijapan.linux

コマンドをひたすら頭に叩き込む。
めっちゃ使うやつは少したってからまとめる。

解析するプラットフォーム

やり方はいろいろあるようです。

GUIソフトで解析（例えば、CLCbio Genome Work bench )

比較的簡単。見た目にわかりやすい。パソコン普通に扱えればできそう。

お金かかる。1ライセンス、60万程度。
導入されているプログラムしか使えない。

Macで解析 (Unix)

OS Xを生かして、仮想環境無しで始められる。参考資料転がってそう。
緒方さんが作成した、お家でできるMac Bookでやる次世代シーケンスデータ解析がわかりやすい（http://www.ipad-zine.com/b/1520）

PC性能に解析スピードが依存するので、比較的解析時間かかる。

Linuxで解析

仮想マシーン（Linuxに慣れるにはちょうどいい。virtual box・VM等）

PC性能に解析スピードが依存するので、比較的解析時間かかる。

サーバー → いわゆる本番環境（PC性能高いので解析スピードが早い。）

サーバーが必要。→環境がないならお金かかる。
セキュリティやサーバーの構築に知識が必要。

Galaxyで解析

webベースのツールで必要なツールが大体そろっている。

webでやるとuploadにやたら時間かかるときがある。
使いたいツールが使えない。

サーバーにシステムごと導入できる。

サーバーに一から導入するのは結構大変そう。

2, 3 (4も？）については以下の知識が必要と思われる。

Unix/Linux
ネットワーク（インターネット）
ハードウェア

これらは、必要に応じて、少しずつ勉強していく。まずはLinuxのコマンドをざっと覚える。

幸いにもラボにサーバーが存在する事、基本的な構築が済んでおり管理者にUserアカウントを作成してもらえたので、すぐサーバーを使える！

サーバーを使うデメリットがだいぶ減ったので3-2の本番環境で始める事にした。

0から始めるっていう割には環境整ってるやん！
環境というよりも、解析した経験がゼロってことですね。

登録: 投稿 (Atom)