DECIPHER:local sequence context to improve protein multiple sequence alignment

ベンチマークのための高品質の参照アライメントの選択

異なるベンチマークは、しばしば最適なパラメータ(例えば、ギャップ開口部と拡張ペナルティ)とアライメントプログラムの互換性のないパフォーマンスランキングを これらの理由により、選択肢のベンチマークは、重合の開発との比較アルゴリズム配列のアライメントを実施します。, 選択配向のベンチマークこの研究では、比較の二次構造のコンコーダンス界共通のベンチマーク この比較方法では、参照配列の二次構造が利用可能であることが必要であり、ほとんどのBAliBASE配列の対応する二次構造が不明であるため、一般的なBAliBASEベンチマークを除外する。 二次構造契約だけでは、高品質のベンチマークを確保するには不十分ですが、合意の欠如は、アライメントの不正確さの兆候である可能性があります。,より良い参照整列は、同一の二次構造を有する整列された残基のより大きな割合を有することが予想される。 しかしながら,二次構造の割り当てにおける本質的な困難と,遠くに関連する三次構造の整列に固有の課題の両方により,二次構造におけるいくつかの不一致が予想される。 図1は、四つの一般的なアミノ酸ベンチマークのためのペアワイズ配列同一性対二次構造一致の割合を示しています。, SabmarkとPREFABのベンチマークには、20-35%のシーケンス同一性の”トワイライトゾーン”以下のシーケンスの最大の割合が含まれていますが、OXBenchの重点はあまり挑戦的なアライメントにあります。 プレハブが大幅により揃えてよSABmarkものの、両方参照を同様の配列としてのアイデンティティー 同一性が10%未満のシーケンスの場合、PREFABはSABmarkよりも13.4%大きい構造同一性(p<1e-15)を持ちます。, これらの知見は、PREFABがMSAプログラムを比較するために特別に設計された最良のベンチマークであることを発見した以前の研究と一致していますが、PREFAB

アラインメントのすべての列は、典型的には大文字で描かれているコアブロック(相同領域)のみを使用するのではなく、各ベンチマークの全体的な精, アライメント全体を使用する選択は、(i)コアブロックの定義がベンチマーク間で異なること、(ii)いくつかのスコアリング手順がアライメント全体を使用すること、(iii)ペアワイズ距離がアライメント全体を使用して計算されること、(iv)HOMSTRADベンチマークとSABmarkベンチマークがコアブロックを描写しないことから行われた。 コアブロックプレハブたとの合意に基づき二つの異なる構造配置。, この思いから、元のベンチマークと同じ配列を再構築の配列を独立構造の配向プログラムマスタングです。 マスタングとの再調整は、HOMSTRADの場合を除いて、元のベンチマークよりも大きな二次構造的合同を示した(Fig. 1). 特に、SABmarkはマスタングとの再整列後11.2%高い二次構造同一性を持っていた(p<1e-15)。, この結果は、もともとこの目的のために意図されていなかったにもかかわらず、homstradデータベースをアライメントベンチマーク

既知の構造を持つ配列の数は、利用可能な配列の数に比べて少ないため、ほとんどのベンチマークには、スコアリングでは考慮されない追加の未配 プレハブ参照配列は、参照配列とのPSI-BLAST検索を使用して見つかった追加の配列で補完されます。 ホムスタッド配列は、一般に、同じPfamファミリーに属する他の配列で補完される。, 比較したこれら二つの手法によるランダムに選択配列からPfam家族に対応するプレハブを参照dnaの塩基配列を決定した。 同じ数の補助シーケンスを持つアライメントを生成した後,追加シーケンスの幅を決定するために隣接結合木を構築した。 平均ツリーの長さは、プレハブに含まれるものよりもランダムなPfamシーケンスの1.6倍長かった(p<1e-15)。, これは、参照系列に直接依存しない方法で入力セットを拡張すると、補足系列の最大の多様性がもたらされることを示した。

どの参照ベンチマークが典型的なユーザーのシーケンスを最も適切に反映しているかは不明であり、MSAアプリケーションの幅広い多様性は、おそらくベンチ SABmarkセットはシーケンスidの狭い範囲をカバーし、OXBenchは整列しやすい密接に関連するシーケンスに焦点を当てています。, アライメントの質とシーケンスアイデンティティの幅の両方のために、私はPREFAB-modとHOMSTRAD-modと呼ばれる元のPREFABとHOMSTRADデータセットのわずかに変更されたバージョンでこの研究の残りの部分を続けることにしました(方法を参照)。 修正されたベンチマークを補完するために、同じPfamファミリーに属する完全長配列を追加しました。 アライメントをより困難にし、より多様な潜在的な使用シナリオを表現するために、共有ドメインのみではなく、フルレングスシーケンスが使用され, 整列される配列は、遺伝子の重なり合う領域をカバーするため、または各末端での品質スコアに基づいて異なるトリミングされるため、さまざまな長さ

アライメントに二次構造のスケーラブルな取り込み

二次構造とシーケンスアライメントの間の密接な接続にもかかわらず、最も人気のあるタンパク, 二次構造予測の主な欠点は、正確に計算するのが遅く、妥当な時間内に数百のシーケンスのアライメントにスケーリングすることができないことです。 あまり正確でない二次構造予測は、相同配列との多重アライメントの構築に依存しない単一配列アプローチを使用して非常に迅速に得ることができる。 GOR法は、単一のシーケンスを与えられた最も正確なものの一つです。, この方法では、二次構造は、残基を取り巻く局所配列の文脈に基づいて、ヘリックス(H)、シート(E)、またはコイル(C)の三つの状態のいずれかに割り当てられる。 このアプローチには、非常に高速で(<アライメントに必要な時間の1%)、各状態の確率値を提供し、約65%の精度を提供するという,

二次構造予測をプロファイル-プロファイルアライメントの動的計画法フレームワークに統合するために、あるシーケンスのH、E、またはCを、別のシーケンスのH、E、またはCに割り当てられた位置に整列させる対数オッズを表す新しい3×3対称行列を追加しました。 カップリングこのマトリックス、確率への構造状態を許可プロファイルの配列を二次構造。, 二次構造プロファイルの整列から得られたスコアは、一次シーケンスから決定された従来の置換行列ベースのスコアを増強した(追加ファイル1テキス このようにして、一次構造および二次構造の一致を同時に最大化することができる。

図2は、乳酸/リンゴ酸デヒドロゲナーゼタンパク質ファミリーのアライメントの例を示しています(Pfamアクセッションno. PF00056;HOMSTRAD”ldh”ファミリー)は、このアプローチを用いて得られた。, DSSPの割り当ては、これらのタンパク質の既知の三次構造に基づいているホムストラッド-modアライメント全体で一般的に一致しています。 GOR法で行われた予測は,いくつかの不一致を伴うこれらの二次構造割り当てを反映する。 GOR予測は、コアブロックとして定義された領域における参照アライメントと正確に一致する解読アライメントをガイドし、図の上部アライメント 2., コアブロックの外側にある参照アライメントの領域は、精度の決定には使用されず、一部の列の解読出力とは異なります。

図。 2

乳酸/リンゴ酸デヒドロゲナーゼタンパク質ファミリーのアライメントのC末端末端(Pfamアクセッションno. PF00056)は、二次構造によって着色されている。 トップアライメント(PDB IDによって命名されたシーケンス)は、DSSP割り当てによって色付けされたHOMSTRAD-modベンチマークからのものであり、大文字はコアブロックを表, 下のアライメントは、同じ配列(生物によって命名された)を解読して再調整し、GOR法によって予測された3状態確率に従って着色したものを示す。 太字の下の整列の列は、上の参照整列の列と正確に一致します

小さな3×3の二次構造行列を使用する利点の一つは、フリーパラメータの数が有益なデータポイントの数よりもはるかに多くなり、推定誤差が無視できることです(追加ファイル1:図S1)。, 行列内の6つの異なるパラメーターのそれぞれに最適な値を見つけるために、238の参照セットからなるHOMSTRAD-modのサブセットでQ-scoreとM-scoreの合計に基づいて最 オーバーアライメントとアンダーアライメントの間の最適では、Qスコアの任意のゲインは、Mスコアの対応する損失によって上回り、万力-その逆です。 最適化された二次構造行列を図に示す。 3a, 二次構造スコアに対するE/Eペアリングの大きな寄与に反映されているように、E状態は整列する可能性が非常に高い。 GOR法はβシートを過小評価する傾向があり,ほとんどの配列においてE状態の割合が低い。

図。 3

ヘリックス(H)、βシート(E)、またはコイル(C)状態間のペアリングのための最適化された構造行列。 行列が対称であるため、Bの繰り返し値はグレーアウトされます。, この行列をアライメントに組み込んだ後、ペアワイズアライメントのQスコアの平均改善は、遠いペアのために大きかった。 構造行列(オープンシンボル)を使用したcアライメントは、入力シーケンスの数が構造予測なしで行われたアライメント(閉じたシンボル)に対して増加する すべてのアライメントサイズにわたって、二次構造の使用はQスコアを改善しました(p<1e-5すべて)。, 同様に、Qスコアの改善(開いたシンボルと閉じたシンボルの分離)は、より多くのシーケンスが整列されるにつれて増加しました

次に、二次構造の取り込みがシーケンスのアライメントを改善するかどうか、そしてこれが整列されるシーケンスの数に応じてどのようにスケーリングされるかを尋ねました。 シーケンスセットのすべてのサイズにわたって平均し、二次構造の取り込みは、プレハブ-mod上のQスコアの5.3%の改善とHOMSTRAD-mod上の2.1%をもたらした。 Qスコアのこの大幅な増加は、0を犠牲にして来ました。,PREFAB-modではMスコアが4%減少し、HOMSTRAD-modでは0.3%減少しました。 したがって、正しく整列された相同性の割合はわずかに減少し、正しく整列された相同性の総数は実質的に増加した。 当然のことながら、最大の利益は改善の余地が最もある発散参照セットであり、ペア間の平均距離が60%未満の参照では本質的に利益はなかった(Fig。 3)。, 二次構造予測は、その参照配列のより大きな割合が60%以上の距離であるため、プレハブmodに大きな利点を提供しました。

興味深いことに、二次構造を組み込むことによる改善は、より多くの配列が整列するにつれて増加した(Fig. 3c)。 2つのシーケンスの最小セットでは、PREFAB-modで3.4%、HOMSTRAD-modで1.2%の改善がありました。 大規模な4,000シーケンスでは、それぞれ8.5%と3.3%に増加した利点を設定します。, したがって、二次構造を組み込むことは、典型的にはより大きな整列で観察されるスコアの減少を部分的に打ち消した。 この挙動は二次構造予測の挙動を反映しており,計算により多くのシーケンスが使用されるにつれて精度が増加する。 このため、最も正確な二次構造予測アルゴリズムは、複数の整列を使用します。 同様に、ここでは、初期の二次構造予測は、単一のシーケンスから得られるため、精度に欠ける。, として、配列が揃って、これらの確率値の平均を高精度に仕上げ、より良いガイドにアライメントを実施します。 これは、追加のシーケンスが必然的により多くのあいまいさをもたらすプライマリシーケンスとは対照的であり、部分的にはあいまいなプロファイルの,

ギャップ位置を改善するためのindel確率のモデルを含む

二次構造予測を介してローカルシーケンスコンテキストを組み込むことから得られた改 以前の研究では、挿入および欠失(インデル)は、特定のアミノ酸に隣接して、露出したコイル領域で発生する可能性が高いことが明らかになっています。, このため、親水性伸張の隙間を開くコストを減少させるか、またはタンパク質の拘束されたコアに埋もれる可能性が高い疎水性領域のコストを増 私の知る限 この目的のために、私はOne Gapデータベースを使用して、中央ギャップの左右の残基に基づいてindel事象の相対頻度を計算しました。, 次いで、この頻度情報を、各アミノ酸の背景頻度に従って対数オッズスコアに変換した。

図4は、位置ゼロでのギャップの可能性に対する近くのアミノ酸の寄与を示しています。 予想されるように、疎水性残基(FMILYW)は、ギャップの可能性を大幅に減少させる。 親水性および”構造破壊性”(例えば、P)残基は、疎水性残基よりも効果は少ないが、隣接する隙間の可能性を増加させる。, 対数オッズスコアは置換行列(サードビット)と同じ単位であるため、ローカルシーケンスコンテキストに基づいて任意の位置でのギャップオープニングコストとギャップクローズコストを変調するために直接適用することができる(追加ファイル1:テーブルS1)。 この情報を含めるためにさまざまなウィンドウサイズを評価し、最良のウィンドウが中央のギャップに対して位置-4から+4まで伸びていること したがって、任意の位置にギャップを作成するコストは、元のギャップコストに、ギャップの両側の残基に基づいて変調されたスコアを加えたものです(追加ファイル1を参照)。,

図。 4

アライメントのギャップを開くコストに対するローカルシーケンスコンテキストの寄与。 疎水性残基はギャップの可能性を大幅に減少させ、一方親水性残基および”構造破壊性”残基はギャップの可能性を増加させる。, Gapモデルでは、四つの残基内に位置する位置を使用して、位置ゼロでギャップを開くコストを調整しました

次に、ギャップに反対する残基(ギャップなし配列)のログオッズスコアを計算し、これらの位置がアミノ酸content有量に小さなバイアスを示すことを見出しました(追加ファイル1:表S1)。 ギャップの左または右の位置の対数オッズスコアとギャップに反対する残基(それぞれR2が0.69および0.64)との間には中correlationの相関があった。, しかし,この場合,ギャップ領域内の位置間に明らかな差はなかった。 この理由から、私は単に位置に依存しない方法で”ギャップ”残基の平均スコアに基づいてギャップ延長コストを変調することを選択しました。 全体として、ギャップを開いて拡張するこの確率モデルは、各位置で約+/-20%の範囲内でギャップペナルティを調整します。

局所配列コンテキストに基づくギャップ配置のこのモデルを拡張するために、次に短い配列パターンの効果を調べました。, 繰り返しは生物学的配列における長さの変化の主要な源であり、一般的に生命のすべての枝にわたって見出される。 リピートは、単一のコドンの短いマイクロサテライトリピートや、時間の経過とともに不一致になるために突然変異によって進化する可能性のある領域の長いタンデムリピートを含む多種多様な形態を有する。 長繰り返しアライメントすることが可能で専門的なプログラムを採用するタンデムリピートの発見アルゴリズム 短いパター, しかし、ChangとBennerは、短いジペプチドリピート(例えば、AA)がギャップの周りで予想よりも一般的であり、潜在的にギャップコストを調節する手段を提供するこ この効果を調べるために,One Gapデータベースにおける異なる配列パターンの発生を調べた。

ジペプチドリピート(2つの同一アミノ酸の実行)周囲のギャップはわずかに可能性が高かった(<1サードビット)偶然予想よりも。 しかし、追加ファイル1:図S2に示すように、ギャップは三つ以上の実行(例えば、AAA)の周りに実質的に発生する可能性が高かった。, この効果は、ギャップのない配列で特に顕著であり、ある配列が別の配列よりも長い実行を有するため、ギャップがしばしば存在することを示して 驚くべきことに、隙間は、ランの長さに関係なく、対向するシーケンス(例えば、AA/A-)におけるランの開始後の位置で発生する可能性が低かった。 この発生のためのメカニズムは未知であるが、保存で起因するジペプチドの繰り返しのための生物的役割が原因であるかもしれません。 周期性2を持つヘテロペプチドリピートの同様の調査(例えば,,ACAC)to6は、ギャップに対する強いバイアスを明らかにしなかった(追加ファイル1:図S2)。 したがって、私はギャップモデルを拡張して、反対のシーケンスでの実行開始前と直後の位置でのギャップ開口コストを変調することを選択しました。

全体として、このギャップ配置モデルを採用すると、PREFAB-modでは0.5%(p<1e-4)、HOMSTRAD-modでは0.3%(p<1e-3)のわずかな改善 Qスコアの改善は、両方のベンチマークでMスコアの0.2%の増加と一致しました。, これらのスコアの変化は、構造ベンチマークではほとんどのギャップ領域を考慮していないため、重ね合わせることが困難な構造の部分でしばしば起こり、繰り返しは無秩序なタンパク質領域で見られる傾向があるため、予想外であった。 が進化のシミュレーションを提供する手段と採点のギャップを含む地域でのこのようなシミュレーションはどうしたらいいなどのコンテキスト依存モデルのギャップ尤度, したがって、ギャップの配置は、スコアのわずかな増加によって反映されるよりも改善された可能性がありますが、洗練されたギャップモデルをアライメントに組み込むことの実際の利点を測定す

MSAのための他のプログラムとの解読の比較

シーケンスアライメントのための解読ソフトウェアにコンテキスト認識を統合することに成功したので、私は次に他の最先端のアライメントプログラムとその性能を比較しました。, まず、思いのベンチマーク解読に対気能を効率的に整数千人の配列:Clustal Omega,MAFFT、筋からなります。 これらのプログラムは、様々な異なる研究で定期的に採用されており、ベンチマークでの比較の事実上の標準となっています。 図5に示し、各プログラムの対比で読み解くための多くの入力dnaの塩基配列を決定した。, パフォーマンスランキングはHOMSTRAD-modとPREFAB-modのベンチマークの間で強く一致していますが、PREFAB-modのプログラム間では、トワイライトゾーン内またはそれ以下のシーケン

図。 5

HOMSTRAD-mod(H-mod)およびPREFAB-mod(P-mod)ベンチマークでの解読に対する一般的な複数のシーケンスアライメントプログラムのパフォーマンス。 プロマルは二つのシーケンスの最小セットで最高の性能を示した。, MAFFTは、125シーケンスの小さな入力セットで最高のパフォーマンスを持っていました。 筋肉はより大きい順序セットの最も悪い性能を示した。 DECIPHERの他のプログラムに対するパフォーマンスは、より多くのシーケンスが整列されるにつれて改善されました

各ベンチマークから二つのシーケンスのみが整列された場合、アライメントプログラムはすべて同様の結果を示し、MAFFTは最も低い精度を示しました。 125のシーケンスのセットでは、DECIPHERはMAFFTに次いでランク付けされています。, このサイズの入力セットの場合、MAFFTは、より大きなシーケンスセットにスケーラブルではない最も正確な一貫性ベースのアルゴリズム(L-INS-i)を使用します。 125の入力シーケンスを超えて、DECIPHERは他の三つのプログラム(追加ファイル1:表S2)よりも明らかに優れており、より多くのシーケンスが整列されるにつれて 5). これは、解読の精度がシーケンス数の増加とともに比較的一定にとどまるという事実を反映している(Fig. 3)、直線の間に二次構造の使用に部分的に帰することができる。, Clustal Omega、MAFFT、およびDECIPHERはすべて、入力サイズの範囲にわたって同様のMスコアを持ちます(追加ファイル1:図S3)。 MUSCLEは最もパフォーマンスが悪く、最小の入力シーケンスセットを除くすべてのQスコアとMスコアが大幅に悪化しました。 さらに、Qスコア、合計列スコア(TCスコア)、クラインシフトスコアは、パフォーマンスランキングが矛盾することがありますが、これらの三つの統計は、両方のベンチマーク(追加ファイル1:図S4とS5)で強く一致しています。,

単一の参照セットへのオーバートレーニングは、ここで使用される両方の参照セットが同様の結果を示したが、いくつかのアライメントプログラム しかし、その他のプログラムされておく方が良いかもしれない教育を受けて独自のベンチマークは、出力のマスタングの構造の配向プログラム。 DECIPHERがMUSTANGの出力に過度に訓練されていないことを確認するために、私はMUSTANGとは独立して整列した元のプレハブ参照ペアを使用して分析を繰り返しま, 未修飾のプレハブ参照配列は強い二次構造一致性を示し,したがって高品質の代替ベンチマークを提供した。 それにもかかわらず、結果(追加ファイル1:図S6)は、両方の参照シーケンスセットで非常によく似ており、DECIPHERの性能がMUSTANGの出力と密接に結びついていな

次に、DECIPHERをPASTAと比較しました。, PASTAは、デフォルトではMAFFTのl-INS-i一貫性ベースのアプローチによって、それぞれが正確な戦略に整列している重複するサブ問題にアライメントを分割することで機能します。 これらのサブアライメントを合併用語の他動性のプロセスを繰り返しから開始いたします。 興味深いことに、PASTAはHOMSTRAD-mod上の125および250シーケンスのセットで解読を上回っていました(Fig. 5)、しかし、より大きなセット(追加ファイル1:テーブルS2)で統計的に区別できませんでした。 しかし、DECIPHERはPREFAB-modのPASTAを大幅に上回り、より多くの配列が整列するにつれてその鉛は増加した。, さらに,PASTAは整列サイズの増加とともに精度が大きく低下した。 表1は、アライメントサイズが増加するにつれて、DECIPHERのパフォーマンスがすべてのアライメントプログ

表1整列されているシーケンスの数に応じた平均Qスコアの変化

最後に、DECIPHERのパフォーマンスをPSIPREDから得られたより正確な二次構造予測に依存するプログラムであるPROMALSと比較しました。, PROMALSは、まず入力セットからの代表的なシーケンスを使用してPSI-BLAST検索を実行し、一貫性ベースのアプローチで正確な二次構造予測を使用してシーケンスを揃 PROMALSは、二つのシーケンスの最小セット上の他のアライメントプログラムのすべてを大幅にアウトスコアリングしましたが、他のシーケンスが入力セットに 5). さらに、他のアライナよりも数桁遅かった(Fig. 6)、およびテストの入力セット大きいより125の順序は法外に時間のかかる証明しました。, 解決されたタンパク質構造を利用するより最近のアプローチは、PROMALS3Dのように利用可能である。 しかし、参照配列はこれらのプログラムで使用される同じ構造データベースに存在する可能性が高いため、構造ベンチマークでこのようなアプローチをどの

図。 6

整列されるシーケンスの数に応じた平均実行時間(軸のブレークとログスケールに注意してください)。, PROMALSは、シーケンスの大規模な外部データベースに依存しない他のプログラムよりも大幅に遅かった。 MAFFTた最速のプログラムのための大型の配列。 パスタの送プログラム試験に揃える大型の配列を設定し、要求の平均2.7h揃え4,000dnaの塩基配列を決定した。 複数のプロセッサを使用することにより、DECIPHERで注目すべき速度向上が得られました

DECIPHERは、各シーケンスセットを整列させるためのベンチマークされた最も遅くも最速のプログラムでもありませんでした(図。 6)., MAFFTは一般的に最速のプログラムでしたが、最小のシーケンスセットを除いて、より遅く、より正確なアライメント戦略を使用します。 経過時間の変化は、より効率的な戦略が使用された250シーケンスを超えたMAFFTおよび筋肉にとって劇的である。 PASTAは最も遅いプログラムであり、平均2.7時間で4,000の配列を整列させる必要がありました。 Clustal OmegaとDECIPHERはどちらも平均して約半分の時間で4,000個の配列を整列させることができました。 ガイドツリー計算は大きなシーケンスセットの制限要因であるため、並列化はそのような状況で有用であり得る。, 例えば、解読は8つのプロセッサが使用されたときに約二倍速かった(Fig. 6). DECIPHERの最大メモリ使用量は2GBで、4,000個のシーケンスを整列させたときでした。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です