Fastqファイルの前処理 - kgnmg's science blog

Contents

1. Fastqファイルの前処理とは
2. Fastqファイルのトリミングツール
3. References

1. Fastqファイルの前処理とは

ダウンロードしてきた（もしくは自分で取得した）Fastqファイルは、いわば不純物を含んだ「原石」の状態で、そのまま解析に使うのは好ましくありません。

@DRR212438.35 35 length=101
CTTGACAGGAAGTCTGGTTGGTACAGCAAAAGAAATGTGATGATATTTGATTTAGGTGGTGGTACTTTAGATGTTTCACTACTTACCATAGCTGATAGCGT
+DRR212438.35 35 length=101
<AFFFFJJJJJJ7AJFF-FJJFJFAJJ-AFFJJAFJF7<<FF7FJJFFA-<AFFJ--F-FA<FFJFJJJ<AFAJFAJFAAFJ<-<F<FFFFF-AF7A<<F-

例えば上記のリードでは、左から17塩基目まではクオリティスコア20を超えていて問題ありませんが、18塩基目以降は「-」（クオリティスコア12）が出現するなど、あまり信頼できない配列が目立ちます。このように、信頼度の低い塩基は解析から除外しておく必要があります。

また、Illuminaによるシークエンスでは、「アダプター配列」と呼ばれる、DNA断片をフローセルに結合させたり、シークエンシングプライマーを結合させたり、複数サンプルを同時に解析したりする際のバーコード（目印配列）の役割をする配列をライブラリ調製の段階で結合させており、それがFastqファイルにも残っている場合があります。このようなアダプター配列も解析の邪魔になりますので、除去する必要があります。

2. Fastqファイルのトリミングツール

Trimmomaticが有名です。これ一つでアダプターの除去からリードのトリミングまでを実行することができます。オプションが豊富で、トリミング条件を細かく設定することができます。しかし、慣れない頃はこれが逆に悩みの種になってしまったりします。特に、アダプタートリミングを行うためにアダプター配列を指定しないといけないところは初心者泣かせです。そこで、本稿ではPEATを用いてアダプタートリミングを行い、その他のクオリティトリミングをTrimmomaticで行う方法を紹介します。

2.1 PEATのダウンロード

PEATの特徴は何といっても「アダプター配列を自動で検出してくれること」です。これによりFastqファイルの作成者（実験者）がライブラリ調製時に用いたアダプターの種類が不明であっても、頻出する配列を自動で探し出してトリミングを行ってくれます。

Releases · jhhung/PEAT

An ultra fast and accurate paired-end adapter trimmer that needs no a priori adapter sequences. - jhhung/PEAT

上記のgithubサイトからコンパイル済のバイナリファイルをダウンロードできます。v1.2.4が最新版のようです（2022年9月3日現在）。

#Linux用
$wget https://github.com/jhhung/PEAT/releases/download/v1.2.4/PEAT_linux_v1.2.4
#Mac用
$curl https://github.com/jhhung/PEAT/releases/download/v1.2.4/PEAT_mac_v1.2.4

2.2 PEATの使い方

Linux版の使用法を例に示します。PEATのパスとfilenameの部分を自身のものに変更してください。

$PEAT_linux_v1.2.4 \
paired \　　　　　　　　　#ペアエンドの場合（シングルエンドの場合はsingle）
-1 filename_1.fq.gz \　　 #Fastqファイルはgzip圧縮していても可
-2 filename_2.fq.gz \
-o filename \ 　　　　　　#トリミング済Fastqのファイル名を指定
-n 2 \　　　　　　　　　　#解析に使用するCPUコア数（PCの能力以上を指定した場合は自動調整）
--adapter_min_bp 10 \　　 #アダプターとして検出する最小の塩基数
--adapter_contexts \　　　#検出されたアダプター配列を10位まで表示
--verbose 　　　　　　　#解析の進捗をリアルタイムで表示

アダプタートリミング済のFastqファイルは、「filename_paired1.fq」および「filename_paired2.fq」という名前で出力されます。これらを更にTrimmomaticを用いたクオリティトリミングにかけていきます。

2.3 Trimmomaticのダウンロード

USADELLAB.org - Trimmomatic: A flexible read trimming tool for Illumina NGS data

上記の配布サイトからVersion 0.39（2022年9月3日時点で最新）のbinary版をダウンロードします。

$wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
$unzip Trimmomatic-0.39.zip
$cd Trimmomatic-0.39
$ls
LICENSE  adapters  trimmomatic-0.39.jar

2.4 Trimmomaticの使い方

一例を示します。トリミング条件の意味も合わせて示しますので、慣れてきたらいろいろと条件検討してみて下さい。

$java -jar trimmomatic-0.39.jar \
PE \                                 　                                #ペアエンドの場合
-threads 2 \　　　　　　　　　　　　　 #使用CPUコア数
-trimlog filename_trimmolog.txt \　　　#ログファイル名
filename_paired1.fq \                  #1つ目のFastq（アダプタートリミング済）
filename_paired2.fq \　　　　　　　　　#2つ目のFastq（アダプタートリミング済）
filename_cleaned_1.fq \                #1つ目のFastqのクオリティトリミング済出力（paired）
filename_unpaired_1.fq \               #1つ目のFastqのクオリティトリミング済み出力（unpaired）
filename_cleaned_2.fq \　　　　　　　　#2つ目のFastqのクオリティトリミング済出力（paired）
filename_unpaired_2.fq \               #2つ目のFastqのクオリティトリミング済出力（unpaired）
LEADING:20 \                           #リードの先頭からクオリティスコアが20未満の塩基を除去
TRAILING:20 \                          #リードの後尾からクオリティスコアが20未満の塩基を除去
SLIDINGWINDOW:10:20 \　　　　　　　　　#10塩基毎に平均クオリティスコアを計算し、20未満であればそれ以降のリードを除去
MINLEN:20                              #20塩基未満のリードを除去

「filename_cleaned_1.fq」および「filename_cleaned_2.fq」がトリミング済のfastqファイルのペアになります。

3. References

Anthony M. Bolger, Marc Lohse, Bjoern Usadel, Trimmomatic: a flexible trimmer for Illumina sequence data, Bioinformatics, Volume 30, Issue 15, 1 August 2014, Pages 2114–2120, https://doi.org/10.1093/bioinformatics/btu170

Li, YL., Weng, JC., Hsiao, CC. et al. PEAT: an intelligent and efficient paired-end sequencing adapter trimming algorithm. BMC Bioinformatics 16 (Suppl 1), S2 (2015). https://doi.org/10.1186/1471-2105-16-S1-S2

Follow me!