FASTA

FASTA は、DNA の塩基配列とタンパク質のアミノ酸配列のシーケンスアラインメントを行うための、バイオインフォマティクスのソフトウェアパッケージである。

FASTA と同様にシーケンスアライメントを行うためのソフトウェアとして、BLAST なども知られる。

最初のバージョンは FASTP という名前であり、デヴィッド・J・リップマンとウィリアム・R・ピアスンが、1985年に開発して論文を発表した^[1]。

当初はタンパク質のアミノ酸配列のシーケンスデータベースに対して、アミノ酸配列の類似性 (similarity) の検索を行うように設計された。FASTA の1988年のバージョンでは、DNAの塩基配列の類似性を検索する機能が加えられた^[2]。FASTA は FASTP よりも精巧なアルゴリズムで処理を行い、統計上の有意性を評価する。FASTA ソフトウェアパッケージには、タンパク質のアミノ酸配列やDNAの塩基配列のアライメントを行うための、いくつかのプログラムが含まれている。

FASTA は、"FAST-Aye"（ファストエー）と発音する。FASTA は、"FAST-P"（Protein; タンパク質）アライメントと "FAST-N"（Nucleotide; ヌクレオチド）アライメントの総称である、"FAST-All" を意味している。

FASTA ソフトウェアパッケージの現在のバージョンでは、次のようなことができる。なお、シーケンスデータベースに与える検索のシーケンスをクエリーという。

塩基配列クエリーで塩基配列データベースを検索
塩基配列クエリーをアミノ酸配列に翻訳してアミノ酸配列データベースを検索
アミノ酸配列クエリーでアミノ酸配列データベースを検索
アミノ酸配列クエリーで塩基配列データベース（アミノ酸配列に翻訳）を検索
複数のペプチド（短いペプチド鎖）をクエリーとしてアミノ酸配列データベースを検索

フレームシフト突然変異を考慮した検索も可能である。Smith-Watermanアルゴリズムを実装した SSEARCH でのシーケンスデータベースの検索・比較をすることもできる（処理速度は遅くなる）。

FASTA ソフトウェアパッケージの主な用途は、類似性の精密な統計値を計算することである。類似性の統計値を計算することにより、生物学者は、どのアライメントが妥当性が高いかを判断することや、相同性 (homology) を推測することができる。

FASTA ソフトウェアパッケージは、ヴァージニア大学のFTPサーバから提供されている。

FASTAフォーマット

FASTA では、シーケンスデータの記述形式として FASTAフォーマットという形式を使う。FASTAフォーマットはプレーンテキストである。1つのシーケンスのデータは、">" で始まる1行のヘッダ行と、2行目以降の実際のシーケンス文字列で構成される。ヘッダ行では、">" の次にシーケンスデータを識別するための文字列を記述し、続けてそのシーケンスデータを説明する文字列を記述する（両方とも省略してよい）。ヘッダ行の ">" と識別文字列の間にスペースを入れてはいけない。FASTAフォーマットの全ての行は、80文字未満とすることが推奨される。">" で始まる別の行が出現すると、そこでシーケンスデータが区切られ、別のシーケンスデータが始まる。

FASTA ファイルフォーマットの例を示す。

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

FASTAフォーマットでは、IUB/IUPAC で規定されているアミノ酸コードもしくは核酸コードで、シーケンス文字列を記述する。ただし、小文字で記述した場合は FASTA内部で自動的に大文字に変換される。また、"-"（ハイフン）でギャップを、"U" でセレノシステインを、"*" で翻訳終止を記述する。FASTAでは、クエリーのシーケンスに数字が含まれていると正しく処理をすることができない。FASTAで処理を行う前に、数字は、除去しておくか、適切な文字列（"N" は不明な核酸塩基、"X" は不明なアミノ酸を意味する）に置き換えておく必要がある。

FASTA で使える核酸のコード
核酸のコード	意味
A	Adenosine （アデニン）
C	Cytidine （シトシン）
G	Guanine （グアニン）
T	Thymidine （チミン）
U	Uracil （ウラシル）
R	G A （puRine, プリン）
Y	T C （pYrimidine, ピリミジン）
K	G T （Ketone, ケトン）
M	A C （aMino group, アミノ基）
S	G C （Strong interaction, 強い結合）
W	A T （Weak interaction, 弱い結合）
B	G T C (not A) （B, A の次の文字）
D	G A T (not C) （D, C の次の文字）
H	A C T (not G) （H, G の次の文字）
V	G C A (not T, not U) （V, U の次の文字）
N	A G C T （aNy, 不明）
-	ギャップ

FASTA で使えるアミノ酸コード
アミノ酸コード	意味
A	アラニン
B	アスパラギン酸もしくはアスパラギン
C	システイン
D	アスパラギン酸
E	グルタミン酸
F	フェニルアラニン
G	グリシン
H	ヒスチジン
I	イソロイシン
K	リシン
L	ロイシン
M	メチオニン
N	アスパラギン
P	プロリン
Q	グルタミン
R	アルギニン
S	セリン
T	スレオニン
U	セレノシステイン
V	バリン
W	トリプトファン
Y	チロシン
Z	グルタミン酸もしくはグルタミン
X	不明 (any)
*	翻訳終止
-	ギャップ

参考文献

^ Lipman, D. J.; Pearson, W.R. (1985). "Rapid and sensitive protein similarity searches." Science 227 (4693): 1435–1441. PMID 2983426.
^ Pearson, W.R.; Lipman, D. J. (1988). "Improved tools for biological sequence comparison." Proc. Natl. Acad. Sci. USA 85 (8): 2444–2448. PMID 3162770

外部リンク

FASTAフォーマットの説明（英語）
ヴァージニア大学のFASTAサーバ - FASTAソフトウェアパッケージを配布している
GenBank to Fasta conventer

[1] Lipman, D. J.; Pearson, W.R. (1985). "Rapid and sensitive protein similarity searches." Science 227 (4693): 1435–1441. PMID 2983426.

[2] Pearson, W.R.; Lipman, D. J. (1988). "Improved tools for biological sequence comparison." Proc. Natl. Acad. Sci. USA 85 (8): 2444–2448. PMID 3162770

[1]

[2]