Maklumat

Mencari motif protein dengan menjalankan analisis jujukan dalam protein BLAST

Mencari motif protein dengan menjalankan analisis jujukan dalam protein BLAST


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya telah menjalankan urutan berikut (bahagian bawah halaman) dalam NCBI protein BLAST dan ia telah dikenal pasti sebagai dehidrogenase alkohol yang bergantung kepada Zn. Seterusnya saya ingin melihat apakah motif protein dalam protein ini. Di mana dalam program ini mungkin untuk melihat motifnya?

Terima kasih terlebih dahulu!

Urutan:

MDRNRLAIVFPIFARCISAADFSTDLYLSEIYQQKVVTMKAAVITKDHTIDVKDTKLRPLNYGEALLEIE YCGVCHTDLHVKNGDFGDETGRISGHEGIGIVKQDGEGVTSLNAGDRASVAWFFKGCGHCEYCVSGNETL CRNVENAGYTVDGAIAEECIVVAEYSVRVPDGLDPAVASRITCAGVTTYKAVKVSQLQPGQWLAIYGYGR FRQSSPSICQDMYFNAKDEQLAYYAKELGGADMVINPKNEAAKIIQEKLGGAHATVVTAVAKSAFNSAVE AIRAGGRVVVVVAVGLPPPEKMDLSIPPRLVLVGIEVLGSLVGTREKEAFQFAAEGKVKPKVTKRKVEEI NQIFDEMEHGKFTGRMILPTHHIWIVIGWQSFSLYSQDVSQPQIFRLTSISPRYINKRSPKQPSLLKIIR STKTPNYALITGKRFWKSNIAGYVIPISMKTGISAMKPAEFQGMKVVSSSRTGKGLLLMPVTAPVLHGSS KAAAIANIVSAGMKRFAATLKMPVIRLTALQKNASSSPNTRSACQMVLILRLPAGSLARVPPIKQRFLSY SPDNGWPSMATGGLGNLALRYAKTCISTPKMNSSHTTPKSWAAQIWSSIRKTKLPKSFRKSSGEHTRRWR LLPNPPLTRLLRLSARVAVLLLLSPLVCLLLKKWIAFLLVWCLSVSKSVPWSERGKRRPSSLQPKVRSSR KLPSVKSKKSTKSLTKWNMVNSQAVYYQPITYGSSAGNRFPYIRKMYLSRRFFDPLSLRDISTKGSHHES SRHYRSYDRRERHQITPSELRGSASGNRILRGMSYRSPCEKRGFRRNRQNFRARYRYRQAGRGRGYFSEC RPRQCCMVLQRLRPLRILCQRENALPQRKCRLYGRRYSRRMHRRRRILGPRARWSSCGCQQDHLRGCNHL SSKGFSATARTMAGHLWLRAVAIPFDMETPRHVFQRQRTARILRQRVGRRRYGHQSEKRSCQNHSGKARG STRDGG DGCCQIRLLGCGYPRGWPCCCCCRRWSASSKNGFEHSSSFGACRYRSPRFLGRNAGKGGLPVCS RRGQAESYQASRRNQPNLRNGTWIHRPYDITNPSHILYVMGWYHTACEFTMFHFVKDLVDFFDFTLGNFR LDLTFGCKLEGLLFPRSDQGTDFDTDKHQTRRNAQIHFFRRRQTNGDNNNNTATRADSLNSRVKGGFGNS RHHRRVCSPELFLNDFGSFVFRIDDHICAAQLFGVVCELFIFGVEIHVLAYRRARLPKPPVAIDGQPLSG LLRNLYCFIGGYTRASDPAGNRRIKTIWHADRVFGDDDAFFCYSAVNRITGIFNVAAKRFIPADTIFAMA AAFEEPCNTGAVTGIQRSNPFPVLLDDTYTFMPNSAGFIAEIPVFHMEIGMTYPAIFDFQKRFPVIQRAF GVFHVDRMIFSNDGCFHGDYLLLIYLGEIEVSRKICGDTSCEYRENDCQPITIHYMWVGNIIRPVNLPCS ISSKIWLISSTLRLVTFGLTLPSAANWKASFSRVPTKEPRTSIPTSTKRGGMLKSIFSGGGRPTATTTTT RPPARIASTAELKADLATAVTTVACAPPSFSMILAASFFGLMTISAPPNSLAYASCSSLALKYMSWHIEG LDCLNRPPMASHCPGCSETFTALVVTPAQVILLATAGSRPSGTRTEYSATTMHSSAIAPSTVPAFSTLRQ SVSFPLTQYSQWPQPLKNHATLARSPAFREVTPSPSCLTIPIPSCPEILPVSSPKSPFFTWRSVHTPQYS ISRSASPFRGRNLVSFTSIVSLVMTAAFMVTTFCYISERRSVEKSAAEIHLANIGKTIASRLRSICDGLV ISYGLIYHVPFRQRFGFLRLYAWLSAPYLRLQTGRPPFPAFRPRNLGLRYRQAPNEEECSNPFFQEEADQ RRQQQQHGHPRGPQQPSRRIWQQPSPPSRVLPRAFPEFWQLRFSDPYLRRPTLWRSMRAVHLWRNTCLGI SKGIATARSHRW PAIVRAVAEKPLLLYRWLHPRKSCWQPQDQDHLARGPSIRRRRCILLLRRQPYNRHFQ RCGKAFHSRHNIRNGRSLRTMQHWRGHRHSEKPLPRPARYLYLHALKFCRFHRRNPRFSHRRRNRRRNRRRNRRNRRNRRNFRRNRRNFRRNFRRNFRRNFRRNFRRRNFRRNFRRFRFRRNYR


carian MOTIF
Pertama sekali ini tidak boleh dilakukan dalam BLAST (sekurang-kurangnya nog direclty). Terdapat banyak alat untuk mencari motif mengikut urutan anda. Saya fikir cara yang baik untuk memulakan adalah menggunakan carian MOTIF. Ini mencari motif mengikut urutan anda berdasarkan infomasi di: Pfam, NCBI-CDD, PROSTIE PATTERN dan PROSITE PROFIL (anda boleh memilih mana yang anda mahu gunakan). Selanjutnya anda juga dapat menggunakan INTERPRO (yang juga mencari melalui pangkalan data serveral, perhatikan bahawa pencarian INTERPO boleh memakan masa agak lama tetapi akan memberikan pandangan grafik yang bagus). Jika anda ingin mencari motif baru anda boleh menggunakan MEME (seperti yang dicadangkan oleh @mxwsn). Walau bagaimanapun untuk melakukan ini, anda perlu mencari (atau mempunyai) satu set urutan yang menyerupai urutan anda untuk mencari motif. Kerana tentu saja algoritma tidak dapat mencari motif dalam satu urutan kerana perlu membandingkan sekumpulan urutan untuk mencari beberapa motif yang sering berlaku, yang mungkin menarik bagi anda.
Jadi untuk Meringkaskan anda boleh menggunakan carian MOTIF (atau INTERPRO dll ...) untuk mencari motif mengikut urutan anda sudah dikenali. Atau kumpulkan sekumpulan urutan dan cari motif baru di dalamnya menggunakan MEME atau alat serupa.


Namun begitu, bagaimana anda membuat kesimpulan bahawa urutan anda ialah aDehidrogenase alkohol yang bergantung kepada Zn? Kerana BLASTing urutan yang anda berikan akan memberi padanan dengan enzim ini tetapi hanya meliputi ~ 17%. Walau bagaimanapun, cara yang baik untuk mencari maklumat tentang jujukan anda adalah dengan mencari motif dan membandingkan jujukan dengan protein HMM atau PSSM yang diketahui. Sebagai contoh, carian MOTIF akan memberikan hasil berikut:

PROSITE: Tanda tangan alkohol yang mengandungi zink dehidrogenase. PFAM: Dhydrogenase alkohol dehydrogenase yang mengikat zink Domain seperti GroES DAN BANYAK LAGI >>>

Mencari PFAM akan memberi anda ini:

Perhatikan bahawa domain kedua (Dehidrogenase mengikat zink) tidak hadir sepenuhnya, lebih banyak maklumat dapat dilihat dalam gambaran keseluruhan terperinci:

Saya akan menasihati untuk melihat juga betapa pentingnya sisa "hilang" ini (cth. menggunakan MSA dan melihat pemuliharaan). Kerana urutan anda boleh mengandungi domain ini tetapi itu tidak semestinya bermaksud demikian IALAH Dhydrogenase alkohol yang bergantung kepada zn. Ini mungkin tidak berfungsi misalnya.


Untuk mencari de novo motif yang terdapat dalam urutan protein anda, anda harus menggunakan MEME atau beberapa alat mencari motif lain dan bukannya BLAST.

MEME menemui motif baru, corak yang belum dibuka (berulang, corak panjang tetap) dalam urutan anda.


CABRA: Algoritma Keputusan Letupan Kluster dan Anotasi

Pencarian alat carian penjajaran tempatan asas (BLAST) sering digunakan untuk mencari urutan homolog dan memberi penjelasan mengenai protein pertanyaan, tetapi peningkatan ukuran pangkalan data protein menyukarkan untuk menyemak semua hasil dari carian kesamaan.

Dapatan

Kami membangunkan alat web yang dipanggil Cluster and Annotate Blast Results Algorithm (CABRA), yang membolehkan carian BLAST pantas dalam pelbagai proteom rujukan yang dikemas kini, dan menyediakan cara baharu untuk menilai hasil secara berfungsi melalui pengelompokan hits dan anotasi yang berikutnya gugusan. Alat ini boleh diakses daripada sumber web berikut: http://cbdm-01.zdv.uni-mainz.de/

Kesimpulan

Algoritma Hasil Klaster dan Anotasi Ledakan mempermudah analisis hasil carian BLAST dengan memberikan gambaran keseluruhan anotasi hasil yang disusun dalam kelompok yang dapat diubah secara berulang oleh pengguna.


Pencirian biokimia protein GH70 dari Lactobacillus kunkeei DSM 12361 dengan dua domain pemangkin yang melibatkan aktiviti sukrase bercabang

Bakteria fruktofilik Lactobacillus kunkeei mempunyai aplikasi yang menjanjikan sebagai probiotik yang menggalakkan kesihatan kedua-dua lebah madu dan manusia. Di sini, kami melaporkan sintesis dextran yang sangat bercabang oleh L. kunkeei DSM 12361 dan pencirian biokimia enzim GH70 (GtfZ). Analisis urutan menunjukkan bahawa GtfZ mempunyai dua teras pemangkin yang terpisah (CD1 dan CD2), yang masing-masing diramalkan mempunyai glukansucrase dan kekhususan sukrase bercabang. GtfZ-CD1 tidak dicirikan secara biokimia kerana ungkapannya yang tidak berjaya. Dengan hanya sukrosa sebagai substrat, GtfZ-CD2 didapati terutamanya memangkin hidrolisis sukrosa dan sintesis leukrosa. Apabila dextran tersedia sebagai substrat penerima, GtfZ-CD2 memaparkan aktiviti transglycosidase yang cekap dengan sukrosa sebagai substrat penderma. Analisis kinetik menunjukkan bahawa reaksi transglikosilasi yang dikatalisa oleh GtfZ-CD2 mengikuti mekanisme Ping Pong Bi Bi, yang menunjukkan pengikatan secara bergantian substrat penderma dan penerima di laman aktif. Pencirian struktur produk menunjukkan bahawa GtfZ-CD2 memangkinkan sintesis cabang yang dihubungkan glukosil tunggal (α1 → 3) ke dextran, sehingga menghasilkan produk α-glukan seperti sisir yang sangat bercabang. Cawangan (α1 → 3) ini boleh dibentuk pada kedudukan bersebelahan, seperti yang ditunjukkan apabila isomaltotriosa digunakan sebagai substrat penerima. Pemodelan homologi struktur protein GtfZ-CD1 dan GtfZ-CD2 sangat menunjukkan bahawa perbezaan asid amino dalam motif terpelihara II, III dan IV dalam domain pemangkin menyumbang kepada kekhususan produk. Kajian semasa kami menyerlahkan keupayaan bakteria asid laktik yang berfaedah untuk menghasilkan α-glukan yang kompleks secara struktur dan memberikan pandangan baru tentang mekanisme molekul sucrase bercabang (α1 → 3).

Ini adalah pratonton kandungan langganan, akses melalui institusi anda.


3. Bahan dan Kaedah

3.1. Pertimbangan Teknikal PepFun

Fungsi Pepfun pada asalnya direka di bawah sistem pengendalian Ubuntu 16.04. Walau bagaimanapun, projek ini dapat dipasang di mana-mana persekitaran maya Conda dengan kebergantungan yang diperlukan, iaitu alat pihak ketiga untuk menjalankan analisis bioinformatika dan cheminformatics seperti Biopython dan RDKit. PepFun boleh digunakan di bawah sistem pengendalian lain dengan laluan sepadan yang disediakan. Panduan untuk menjalankan pelbagai contoh boleh didapati di repositori kod https://github.com/rochoa85/pepfun diakses pada 12 Mac 2021.

3.2. Fungsi PepFun

3.2.1. Fungsi Berasaskan Jujukan

Bahagian ini dibahagikan kepada tiga kategori utama: penjajaran, sifat dan ramalan konformer. Penjajaran melibatkan pelaksanaan matriks pemarkahan khusus kedudukan untuk melakukan padanan kedudukan demi kedudukan antara pertanyaan dan peptida subjek [28]. Di samping itu, fungsi blastp dalam talian disediakan dengan parameter yang dioptimumkan untuk menyelaraskan peptida terhadap pangkalan data besar [36]. Ini berbeza dengan parameter umum yang digunakan untuk penjajaran urutan protein, yang bergantung pada membuka dan mencetak jurang yang berkaitan dengan peristiwa evolusi, yang tidak diperlukan untuk analisis berasaskan peptida.

Sifat peptida dikira menggunakan strategi bio dan informatika kimia yang telah diuji dan disahkan secara meluas pada masa lalu. Secara khusus, urutan asid amino digunakan untuk mendapatkan maklumat dari parameter asid amino yang dilaporkan, termasuk hidrofobisiti [23], cas, dan sifat dari projek ProtParam seperti aromatik, indeks ketidakstabilan dan titik isoelektrik [9]. Urutan asid amino juga boleh digunakan untuk mengira peraturan empirikal yang berkaitan dengan sintesis peptida dan daya maju keterlarutan. Pengenalpastian corak tertentu dalam urutan peptida dapat menunjukkan jika ia dapat menyekat analisis eksperimental [26]. Semakin besar bilangan peraturan yang dilanggar, semakin rendah kemungkinan untuk berjaya disintesis dan dilarutkan. Contoh peraturan tersebut adalah jika bilangan asid amino hidrofobik yang terisi dan / atau melebihi 45% dari urutan, atau jika jumlah cas peptida mutlak pada pH 7 lebih dari 1, maka tidak mungkin untuk mensintesisnya. Senarai penuh peraturan diperincikan dalam fail README kod dan laporan yang dijana. Akhirnya, representasi SMILES peptida digunakan sebagai rujukan untuk mengira sebilangan sifat yang tersedia dari pakej RDKit, termasuk jumlah penderma dan akseptor hidrogen, berat molekul dan pekali Crippen logP [24], yang merupakan anggaran pekali pembahagian oktanol / air menggunakan pendekatan Ghose / Crippen yang terdapat dalam projek RDKit.

Dengan maklumat urutan juga memungkinkan untuk meramalkan penyesuaian peptida menggunakan protokol yang terdapat di RDKit. Khususnya, SMILES peptida digunakan sebagai input, yang dijana mengikut konvensyen piawai penomboran atom’, membolehkan penciptaan fail PDB dengan sisa bernombor dan disusun mengikut ikatan peptida mereka [37]. Kaedah yang digunakan dalam RDKit untuk meramalkan konformer adalah pendekatan geometri jarak [38]. Ia terdiri daripada mengira matriks jarak jarak yang dilicinkan menggunakan algoritma pelicinan segitiga-sempadan. Kemudian, matriks jarak rawak yang memenuhi matriks batas dihasilkan. Matriks jarak tertanam dalam tiga dimensi, menghasilkan koordinat yang sesuai yang dibersihkan menggunakan medan daya seperti Medan Angkatan Molekul Merck (MMFF94) [39].

3.2.2. Fungsi Berasaskan Struktur

Memandangkan ketersediaan struktur kompleks peptida dan protein-peptida (cth., daripada PDB), satu set fungsi PepFun telah direka bentuk untuk menganalisis sifat dan interaksinya. PepFun menggunakan pakej DSSP v3 untuk mengekstrak elemen struktur sekunder, serta pengiraan kawasan pelarut boleh diakses relatif untuk setiap sisa dalam peptida [40].

Analisis interaksi melibatkan pengiraan potensi ikatan hidrogen dan hubungan tidak terikat antara peptida dan protein merentasi antara muka. Ikatan hidrogen yang berpotensi dikira dengan DSSP, dan visualisasi interaksi dijana menggunakan modul igraph python [41]. Khususnya, residu peptida dan protein yang berinteraksi diwakili oleh nod, dan ikatan hidrogen yang berpotensi diwakili oleh garis dan lebarnya bergantung pada bilangan ikatan hidrogen yang dikesan setiap pasangan residu. Susun atur grafik boleh berubah bergantung pada peptida linier atau siklik. Kenalan tidak terikat dikira menggunakan modul Biopython yang dapat mengesan semua atom asid amino yang berinteraksi menggunakan jarak di antara atom. Ambang mesti disediakan untuk menentukan kenalan. Biasanya, ambang 4.0 digunakan.

3.2.3. Fungsi untuk Menyesuaikan Perpustakaan Peptida

Sebagai tambahan kepada kelas yang dirancang untuk menjalankan urutan atau fungsi berdasarkan struktur, satu set fungsi tersedia untuk menghasilkan dan menganalisis kandungan dari perpustakaan peptida. Perpustakaan - dari awal - boleh dibina mengikut pengedaran asid amino yang seragam, atau berdasarkan corak yang diperlukan dalam urutan. Modul gabungan yang terdapat dalam python berguna untuk menjana populasi urutan dengan cepat, yang merangkumi penggunaan asid amino bukan semula jadi (iaitu asid D-amino), sebagai usaha untuk versi masa depan untuk mengkaji peptidomimetik.

3.3. Uji PepFun dengan Set Pengikat Peptida Terkenal

Untuk menguji pelaksanaan PepFun, dua sistem protein-peptida yang terkenal dengan set pengikat peptida yang tersedia telah digunakan. Satu melibatkan Kompleks Histokompatibiliti Utama (MHC) kelas II, yang mempunyai kumpulan data besar pengikat peptida yang tersedia untuk alel yang berbeza [42]. Satu set peptida dengan data bioaktiviti (I C 50 & # x0003c 50 nM) dipilih untuk menganalisis taburan pelbagai sifat dalam set data [43]. Perpustakaan mempunyai 655 peptida yang terdiri daripada 15 asid amino panjangnya. Struktur peptida dimodelkan dalam kompleks dengan alel MHC kelas II DRB1 * 0101, dengan PDB id 1t5x. Pemodelan terdiri daripada menghasilkan urutan baru dengan penggantian tunggal templat peptida berulang. Mutasi dilakukan menggunakan fixbb paket dari Rosetta [44], yang dipilih berdasarkan penanda aras protokol mutasi lain yang tersedia sebelumnya [45]. Selepas setiap penggantian, rotamer yang paling mungkin dari kamus penyesuaian yang bergantung pada tulang belakang dipilih, dan atom rantai sisi dilonggarkan dengan tulang belakang tetap.

Sistem kedua adalah protease serin, granzyme B, yang mempunyai data substrat aktif secara fisiologi [46], yang disimpan dalam pangkalan data MEROPS [47]. Sebanyak 599 peptida daripada 8 asid amino dipilih. Semua peptida telah dimodelkan menggunakan struktur dengan PDB id 1iau sebagai rujukan, berdasarkan metodologi yang dijelaskan untuk sistem sebelumnya.


MUSCLE

MUSCLE bermaksud MUberkali-kali Sequence Cperbandingan oleh Log- Expectation. MUSCLE didakwa mencapai ketepatan purata yang lebih baik dan kelajuan yang lebih baik daripada ClustalW2 atau T-Coffee, bergantung pada pilihan yang dipilih.

Nota PENTING: Alat ini dapat menyelaraskan hingga 500 urutan atau ukuran fail maksimum 1 MB.

Jika anda menggunakan perkhidmatan ini, sila pertimbangkan untuk memetik penerbitan berikut: API alat carian dan urutan EMBL-EBI pada tahun 2019

Sila baca Bantuan & Dokumentasi dan Soalan Lazim yang disediakan sebelum meminta bantuan daripada kakitangan sokongan kami. Jika anda mempunyai sebarang maklum balas atau menghadapi sebarang isu, sila maklumkan kepada kami melalui Sokongan EMBL-EBI. Sekiranya anda merancang untuk menggunakan perkhidmatan ini semasa kursus sila hubungi kami. Baca Notis Privasi kami jika anda bimbang dengan privasi anda dan cara kami mengendalikan maklumat peribadi.

EMBL-EBI, Wellcome Trust Genome Campus, Hinxton, Cambridgeshire, CB10 1SD, UK +44 (0) 1223 49 44 44


Latar belakang

Banyak projek jujukan genom keseluruhan telah disiapkan atau sedang dijalankan, merangkumi pelbagai spesies antara pesanan yang berbeza. Urutan genom memberikan pandangan baru mengenai evolusi dan peraturan gen yang tidak mungkin dilakukan tanpa usaha penjujukan skala besar ini. Walaupun pelbagai strategi penjujukan telah diterapkan, strategi yang paling umum digunakan saat ini dan strategi yang dipilih untuk genom sapi bergantung terutamanya pada penjujukan keseluruhan senapang genom (WGS) dan pemasangan pembacaan penjujukan berdasarkan pertindihan kesamaan urutan. Perhimpunan lembu akan ditambah dengan liputan jujukan yang jauh lebih rendah daripada klon sisipan besar (Bacterial Artificial Chromosome, BAC) untuk menyediakan sambungan antara contig jujukan tidak bertindih yang mewakili lokasi kromosom yang berdekatan antara satu sama lain. Pembentukan urutan genom yang lebih komprehensif menambah maklumat dari peta fizikal dan genetik ke urutan WGS dan BAC untuk memerintahkan bersambung pada skala yang lebih besar. Tahap resolusi pertengahan dan pemeriksaan kritis terhadap ketepatan kaedah lain dapat diberikan dengan menentukan apakah orientasi, susunan, dan jarak ekson yang tepat pada gen yang dinyatakan dapat dipertahankan dalam binaan. Pendekatan ini memerlukan pengetahuan mengenai urutan transkrip yang dinyatakan untuk dibandingkan dengan binaan genom.

Penggunaan urutan transkrip lain adalah dalam penjelasan, kunci untuk kegunaan penjujukan genom keseluruhan. Projek penjujukan cDNA panjang penuh sebelumnya telah membuktikan pentingnya urutan mRNA yang dihasilkan secara eksperimen untuk menghasilkan model gen yang menetapkan batas ekson-intron yang tepat [1-5]. Projek-projek ini memberikan maklumat penting tentang bentuk sambatan alternatif produk gen yang menjana variasi dalam bentuk dan fungsi yang dianggap sebagai penyumbang utama kepada kepelbagaian dalam ekspresi dan fenotip. Urutan FLIC juga membantu dalam membezakan antara penyambungan alternatif dan pertindihan gen atau pseudogenes, prosedur yang sukar dan terdedah kepada ralat jika hanya berdasarkan urutan EST berkelompok.

Penggunaan utama urutan FLIC yang lain adalah generasi urutan protein yang diramalkan, menyediakan sumber untuk menyokong pendekatan proteomik dan analisis perbandingan untuk mendedahkan perincian fungsi protein. Tujuan ini memerlukan penyusunan semula bahagian CDS transkrip bonafide yang tepat yang dinyatakan dalam tisu sasaran, yang mungkin bermasalah dengan EST berkelompok seperti yang disebutkan di atas.

Usaha ini telah diambil untuk menyokong semua potensi penggunaan data bFLIC. Konsortium Penjujukan Genom Bovine Antarabangsa [6] yang diketuai oleh Kolej Perubatan Baylor baru-baru ini mengeluarkan pemasangan genom liputan 6 kali ganda kedua (Worley, K. komunikasi peribadi). Penyempurnaan pemasangan akan difasilitasi dengan memasukkan bFLIC dalam pemodelan gen dan proses pemasangan, serupa dengan kegunaannya dalam pemasangan genom organisma lain. BFLIC juga akan menyokong usaha di NCBI dan ENSEMBL untuk memperoleh model gen yang tepat, dan memperoleh pangkalan data urutan protein yang diramalkan. Dalam pengertian ini, kajian ini serupa dengan projek cDNA panjang penuh sebelumnya yang dilakukan untuk manusia [1], tikus [3], dan spesies lain [5,7]. Walau bagaimanapun, pendekatan yang berbeza digunakan untuk menghasilkan data daripada usaha yang telah dijelaskan sebelumnya, kerana langkah pertama projek ini menggunakan urutan perpustakaan-jaringan, perpustakaan normal [8,9] yang belum dibina oleh prosedur untuk memperkaya sepenuhnya- klon panjang, kerana prosedur sedemikian berpotensi menimbulkan bias yang akan mengurangkan kepelbagaian mRNA yang diperhatikan. Lebih-lebih lagi, tujuan utama projek ini adalah untuk mengembangkan kaedah untuk memilih secara konsisten klon CDS penuh dari perpustakaan ini berdasarkan perbandingan urutan akhir, single-pass, 5 'ke pangkalan data mRNA Rujukan Sequence manusia [10] (RefSeq).

Laporan ini mencirikan urutan klon CDS penuh bovine yang dipilih dengan kaedah menggunakan data urutan EST 5 'sebagai input. Kaedah ini dengan berkesan mengenal pasti homolog sapi yang jelas dari urutan mRNA RefSeq manusia, mengumpulkan urutan sisipan penuh, dan memberi penjelasan bFLIC yang dihasilkan dengan GeneID, produk, elemen berulang, dan ramalan urutan protein. Kaedah yang dijelaskan harus sangat berguna untuk menghasilkan CDS penuh dan urutan protein yang diramalkan untuk organisma dengan pangkalan data matang urutan dari spesies lain mengikut urutan (mis. Mamalia lain) tetapi tidak termasuk dalam projek urutan genom yang lengkap. Kejayaan kaedah itu dicirikan oleh perbandingan jujukan bFLIC kepada mRNA Refseq manusia dan UTRdb mamalia, [11]. Kerana siasatan dimulakan sebelum pembebasan genom bovine yang dipasang, perbandingan langsung antara genom bovine dan urutan bFLIC bermasalah.

Tanpa urutan cDNA genomik atau CDS penuh, adalah kebiasaan untuk bergantung pada kelompok gen seperti Unigene [12] atau TIGR Gene Indices [8,9,13,14] untuk ramalan transkrip. Perhimpunan konsensus yang diperoleh dari komputasi ini yang mengandungi bingkai bacaan terbuka (ORF) dihasilkan dari bacaan lulus tunggal melalui perpustakaan cDNA. Kelompok ini menyediakan sumber yang sangat penting untuk model dan produk gen yang diduga. TIGR Bos taurus Indeks Gen (BtGI) dibandingkan dengan urutan CDS penuh bovine untuk mengesahkan adanya transkrip yang ditentukan secara eksperimen dalam kelompok yang dikira. Pencirian kelompok gen ini untuk urutan CDS penuh dapat membantu penyiasat menafsirkan kepentingan pencarian mereka terhadap pangkalan data kelompok gen.


2. Bahan-bahan dan cara-cara

Dalam bahagian ini, kami akan menerangkan gambaran keseluruhan pendekatan pengesanan dan pembetulan kami. Kemudian, kami menerangkan penjanaan set data dan bagaimana kami menghasilkan pokok filogenetik dari penugasan taksonomi. Seterusnya, kami membincangkan algoritma pengesanan kami untuk mencari urutan yang salah diklasifikasikan. Kemudian, kami menerangkan pendekatan kami untuk mencadangkan tugasan taksonomi untuk jujukan yang dikenal pasti sebagai salah klasifikasi. Akhirnya, kami akan menerangkan analisis kepekaan terhadap perubahan parameter yang berbeza untuk mencadangkan penugasan taksonomi.

2.1 Gambaran keseluruhan kaedah

Rajah 1 menunjukkan gambaran keseluruhan pendekatan kami. Fail pangkalan data NCBI'NR telah dimuat turun dari (ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/) pada 20 Oktober 2018. Maklumat taksonomi diperoleh dari fail XML di NCBI (https: / /ftp.ncbi.nlm.nih.gov/blast/temp/DB\_XML/). CD-HIT (Fu et al., 2012) (versi v4.6.8-2017-1208) digunakan untuk mengelompokkan jujukan protein NR ke dalam kelompok pada persamaan 95% menggunakan parameter berikut (-n 5 -g 1 -G 0 -aS 0.8 -d 0 -p 1 - T 28 -M 0). Parameter ini menggunakan panjang perkataan 5 dan memerlukan penjajaran urutan pendek sekurang-kurangnya 80% daripada panjangnya. Pemerolehan data, praprosesan dan pengelompokan berlangsung sekitar 3 hari. Bahagian pengesanan dan pembetulan mengambil masa sekitar 8 jam.

Gambaran keseluruhan arsitektur kaedah yang dicadangkan untuk mengesan urutan yang salah diklasifikasikan secara taksonomi dalam pangkalan data NR. Rajah menunjukkan set data mentah dan langkah-langkah untuk kerja yang dicadangkan

Seni bina gambaran keseluruhan kaedah yang dicadangkan untuk mengesan urutan taksonomi tersalahklasifikasi dalam pangkalan data NR. Rajah menunjukkan set data mentah dan langkah-langkah untuk kerja yang dicadangkan

Kami mengambil fail NAS protein NR yang mempunyai garis definisi yang mengandungi anotasi dari pangkalan data yang berbeza dan menghasilkan format BoaG yang memakan masa sekitar 2 jam. Setiap baris definisi dalam data mentah termasuk ID protein, nama protein diikuti dengan nama organisma dalam kurungan segi empat sama, mis. ‘& GtAAB18559 produk protein tanpa nama [E coli str. K-12 substr. MG1655] ’. BoaG adalah bahasa khusus domain yang menggunakan infrastruktur berasaskan Hadoop untuk data biologi (Bagheri et al., 2019). Program BoaG diserahkan ke infrastruktur BoaG. Ia disusun dan dilaksanakan pada kluster Hadoop yang diedarkan untuk melaksanakan pertanyaan pada pangkalan data berformat BoaG dari data mentah. BoaG mempunyai agregator yang boleh dijalankan pada keseluruhan pangkalan data atau subset pangkalan data yang memanfaatkan reka bentuk skema berasaskan protobuf yang dioptimumkan untuk kelompok Hadoop untuk kedua-dua data dan pengiraan. Agregator ini serupa dengan tetapi tidak terhad kepada agregator yang biasanya ditemui dalam pangkalan data SQL dan pangkalan data NoSQL seperti MongoDB. Skrip BoaG memerlukan lebih sedikit baris kod, menyediakan kecekapan storan dan analisis skala besar yang selari secara automatik.

2.1.1 Penjanaan set data

Untuk menerangkan set data kami, biarkan D menandakan protein dan set data kelompok dalam kajian kami: D = < P , C , τ , Ϝ >⁠ . Di sini, P =

adalah sekumpulan semua protein dalam pangkalan data NR. C = < C 1 , C 2 , … , C n >mewakili set semua kelompok pada 95% persamaan. | P | dan | C | dalam dataset kami adalah kira-kira 174 M dan 88 M, masing-masing. τ ialah satu set tugasan taksonomi untuk protein, dan Ϝ ialah satu set fungsi dalam pangkalan data NR. Dalam karya ini, kami memberi tumpuan untuk meneroka penugasan taksonomi.

Dalam Definisi 1, setiap urutan protein tergolong tepat dalam satu kelompok pada 95% kesamaan, dan setiap kelompok mempunyai satu urutan yang mewakili. Sekiranya protein tidak sama mengikut urutan dan panjangnya, ia akan tergolong dalam kelompok tanpa anggota lain.

2.1.2 Menghasilkan pokok filogenetik dari penugasan taksonomi

Kami mendapat senarai penugasan taksonomi yang berasal dari pangkalan data yang berbeza (dikaji secara manual dan dibuat secara komputasi) dan membina pohon filogenetik dengan menggunakan perpustakaan ETE3 (Huerta-Cepas et al., 2016). Perpustakaan ini menggunakan pangkalan data taksonomi NCBI yang kerap dikemas kini.

Contohnya, urutan protein AAB18559 mempunyai penugasan taksonomi ‘511 145’ dan ‘723 603’ yang masing-masing muncul sekali.

Dalam Definisi 3, anotasi dari GenBank, trEMBL dan PDB dikira secara komputasi, sementara anotasi dari RefSeq dan SwissProt disemak secara manual. Sebagai contoh, prov ( 511145 ) = GenBank bermaksud id cukai '511 145' untuk jujukan AAB18559 berasal daripada pangkalan data GenBank.

Kebarangkalian Anotasi

Dalam Definisi 4, A i , a ∈ Comp mewakili anotasi yang dikira secara pengiraan (Comp) daripada pangkalan data iaitu GenBank, trEMBL, PDB dan A i , a ∈ Rev menandakan yang disemak (Rev) daripada RefSeq, SwissProt. Satu anotasi mungkin berasal daripada pangkalan data yang dibuat semakan dan pengiraan. Kami menggunakan faktor pemberat konservatif, w, untuk menyatakan kepentingan anotasi percubaan (disemak secara manual) di mana w ialah nombor bulat dan w ≥ 1 ⁠.

Untuk protein tertentu Pi, kami mendefinisikan anotasi yang paling mungkin (MPA) sebagai MPA (P i) = A i, j sebagai anotasi dengan kebarangkalian tertinggi di antara kumpulan anotasi. Di samping itu, kami mentakrifkan anotasi berkemungkinan terkecil (LPA), dengan kebarangkalian terendah, yang berpotensi disalahklasifikasikan sebagai LPA ( P i ) = A i , k ⁠ , di mana i ≠ j ⁠ .

2.2 Pendekatan untuk mengesan salah klasifikasi taksonomi

Algoritma 1 Algoritma pengesanan salah urus NR. Input datang daripada pertanyaan BoaG ( Bahan Tambahan )

1: prosedur Mengesan Salah Tugasan D

2: NR Panjang ← | P | ▹ m = 174 M protein

3: sementara i ≤ NRLpanjang buat

5: Sekiranya salah ditugaskan (filo) && tidak dipelihara(Pi) kemudian

6: cetak (salah tugas dijumpai di Pi)

7: prosedur PhyloTreePi

8: ncbi ← ncbiTAXA () ▹ digunakan untuk menghasilkan pokok filogeni

9: phyloTree ← ncbi. dapatkan _ topologi (P i) ▹ Dari senarai taksa

10: untuk A i , a dalam τ ( P i ) buat

11: V a ← prob (A i, a), list (freq (A i, a), prov (A i, a))

12: kembali phyloTree.

Pendekatan kami adalah seperti berikut: pertama, kami menjalankan pertanyaan BoaG (Gambar Tambahan S1) pada pangkalan data NR. Pertanyaan ini dijalankan pada pangkalan data NR penuh dalam kelompok Hadoop. Algoritma 1 menerangkan pendekatan pengesanan untuk urutan yang salah diklasifikasikan. Ia berulang ke seluruh pangkalan data NR. Dalam baris ke-4, ia memerlukan protein Pi dan menghasilkan pokok filogeni dari kumpulan penugasan taksonomi untuk Pi. Kemudian, pada baris 5, ia memeriksa apakah ia mempunyai salah klasifikasi. Jika moyang sepunya terendah (LCA) ialah tahap akar, ini bermakna terdapat jarak yang agak jauh antara penetapan taksonomi untuk jujukan protein tertentu itu. Oleh itu, terdapat kemungkinan penyalahgunaan antara senarai penugasan taksonomi kerana pencemaran dalam sampel, kesilapan dalam kaedah pengiraan, atau kemasukan data oleh penyelidik yang menyimpan urutan. Kami menyebutnya sebagai pelanggaran atau konflik akar. Kami juga mempertimbangkan pelanggaran superkingdom, filum, kelas, perintah dan keluarga. Di samping itu, kami melihat protein yang sangat terpelihara untuk menghilangkan positif palsu kerana protein yang dipelihara mungkin muncul dalam spesies yang berada jauh di antara satu sama lain, iaitu milik domain yang berbeza di pohon filogeni. Kami tidak membuang senarai protein terpelihara dalam set data, kerana mengandungi maklumat taksonomi yang digunakan untuk mencadangkan penugasan taksonomi untuk urutan yang salah diklasifikasikan. Anggaplah Pi kepunyaan Cj. Sebaik sahaja kami mengesan pelanggaran dalam Pi, kita melihat kluster Cj dan menganggap penugasan taksonomi yang paling kerap sebagai taksa yang betul. Butiran ditunjukkan dalam Bahagian 2.3.

Algoritma 1 memerlukan masa O (| P | * | τ |). Di sini, | P | ialah saiz protein dalam pangkalan data NR dan | τ | ialah sempadan atas bilangan tugasan taksonomi bagi setiap protein. Dalam baris 5, disalahgunakan(filo) mengesahkan jika LCA pokok yang dihasilkan menunjukkan pelanggaran akar atau pelanggaran lain. Ekspresi terpelihara (P i) memeriksa sama ada urutan protein adalah yang terpelihara (Persamaan 6). Ini memerlukan masa O ( 1 ) kerana ini adalah pengambilan lurus ke hadapan, dan kami mempunyai penuding ke akar pokok untuk menyemak LCA. Dalam baris 5, untuk memeriksa sama ada protein tidak berada dalam senarai terpelihara, Definisi 5, ia memerlukan ujian keahlian dan mengambil masa O ( 1). Senarai terpelihara ini adalah senarai pra-komputasi dari set data kami yang ditunjukkan di repositori kami. Kami menulis kod Python berbilang benang, dan jumlah masa larian untuk algoritma ialah 7 jam untuk keseluruhan pangkalan data NR pada iMac (Retina 5 K, 27-inci, Lewat 2015) dengan teras i7 dan 32 GB RAM. Untuk prosedur kedua, dalam baris 11, algoritma memerlukan O (| τ |) untuk mengira kebarangkalian setiap daun di pohon filogenetik yang dihasilkan.

Algoritma 2 Pembetulan anotasi: MPA untuk urutan yang salah diklasifikasikan. Input dari pertanyaan BoaG (Bahan Tambahan)

1: prosedur paling mungkin P i, p, c

2: atas _ ann ← maks ( prob ( τ ( P i ) ) ) ▹ Taksa yang paling mungkin

3: sekiranya prob ( atas _ ann ) ≥ hlm kemudian

4: kembali ( ⁠ atas _ ann ⁠ ).

6: kluster ← C j di mana P i ∈ C j

7: teratas _ ann ← ClusterMostProbable (kluster, p, c) ⁠.

8: kembali teratas _ ann ⁠.

9: prosedur ClusterMostProbablegumpalan, hlm, c

10: sekiranya saiz ( gugusan ) ≥ c kemudian

11: untuk A i , a dalam τ ( gugusan ) buat

12: V a ← prob ( A i , a ) , senarai ( freq ( A i , a ), prov ( A i , a ) )

13: atas _ ann ← max ( prob ( τ ( cluster ) ) ) ▹ Taksa yang paling berkemungkinan

14: sekiranya prob ( atas _ ann ) ≥ hlm kemudian

15: kembali teratas _ ann

17: kembali batal ▹ Tidak boleh membetulkan salah klasifikasi

2.3 Penetapan taksonomi yang paling berkemungkinan untuk kesalahan pengelasan yang dikesan

Untuk urutan yang salah diklasifikasikan, kami menentukan kriteria untuk mencadangkan penugasan taksonomi (MPA) yang paling mungkin. Mula-mula, kami menjalankan pertanyaan BoaG (Tambahan Rajah S2) untuk mendapatkan anotasi dan maklumat pengelompokan pada persamaan 95%. Seperti yang ditunjukkan dalam Definisi 4, kami mempertimbangkan asal usul atau pangkalan data asal, kekerapan anotasi untuk menghitung kemungkinan taksonomi taksiran (MPA), yang merupakan kebarangkalian tertinggi. Mari kita anggap itu Pi tergolong dalam kluster Cj. Jika algoritma tidak menemui MPA dalam ambang tertentu, kebarangkalian hlm, kemudian kita melihat sekumpulan 95% kesamaan urutan. Kedua, kami menemui penugasan taksonomi paling mungkin di Cj. If a particular taxonomic assignment was the most frequent one in Cj then we return that annotation as the MPA for the protein sequence Pi. For example, in cluster Cj, 7 sequences out of 10 sequences have a specific annotation. Then, we consider this annotation to be the MPA protein sequence Pi with 70% confidence.

Details are shown in the Algorithm 2. In line 2, for a particular protein Pi, it returns the most frequent taxonomic assignment within a certain threshold hlm. Let’s assume we want a taxonomic assignment that appears more than 70% of the time. If the algorithm does not find the MPA, it checks the cluster Cj with 95% similarity that this sequence belongs to and finds the one with a certain probability, hlm and a cluster size, c (line 7). In line 9, ClusterMostProbable takes the cluster id and finds the most probable taxonomic assignment in the cluster (line 13).

The Algorithm 2 requires O ( | τ ( P ) | ) time, Definition 2, to find the top(1) or maximum probability of an annotation in the list of annotations.

2.4 Simulated and literature dataset

To evaluate the performance of our taxonomic misclassification approach, we generated a simulated dataset. We took a subset of one million proteins of the reviewed dataset, i.e. RefSeq database and randomly misclassified 50% of the proteins in the sample by adding a taxonomic assignment from another phylum or kingdoms. Then, we tested if the approach can detect these sequences. We also tested our approach for detecting misclassified sequences and correcting them on the real-world data, presented in the literature ( Edgar, 2018 Kozlov et al., 2016). These works have focused on the RNA dataset, and they quantified misclassified RNA sequences. We also used CD-HIT to cluster RNA databases based on 95% sequence similarity. Further details on the simulated dataset, scripts and data files can be accessed from https://github.com/boalang/nr.

2.5 Sensitivity analysis

We define sensitivity analysis as a way that an input parameter affects the output of the proposed approach. Here, probability based on annotation frequencies and the cluster size are the two input parameters that affect what percentages of detected misclassified sequences that we can fix, i.e. MPA, as shown in Algorithm 2 on the NR dataset. The algorithm will not give the same suggestion for changes in parameters. For example, if we change the cluster size, number of proteins in the cluster, it may or may not find correct taxa. We conducted a sensitivity analysis based on the probability of each annotation that we defined in Definition 4 and the size of the cluster of 95% that the sequence belongs to. We run the algorithm to find the most probable taxonomic assignments (MPA) with different clusters size, c and with different probabilities, hlm. As it is shown in ( Supplementary Fig. S3 ), with a probability of 0.4 and without giving more weight to the annotations that verified experimentally, we could provide a most probable taxonomic assignment to about 60% of the proteins that we detected as misclassified. We also extended sensitivity analysis by giving more weight to the experimental taxonomic assignment with the probability of 0.4 we could provide the most probable taxonomic assignment for more than 80% of the sequences that were identified as a misclassification.


Finding protein motifs by running sequence analysis in protein BLAST - Biology

Extracellular signal-regulated kinase 8 (ERK8) is the most recently identified member of the ERK subfamily of MAPKs. Although other members of the ERK subfamily are established regulators of signaling pathways involved in cell growth and/or differentiation, less is known about ERK8. To understand the cellular function of ERK8, a yeast two-hybrid screen of a human lung library was performed to identify binding partners. One binding partner identified was Hic-5 (also known as ARA55), a multiple LIM domain containing protein implicated in focal adhesion signaling and the regulation of specific nuclear receptors, including the androgen receptor and the glucocorticoid receptor (GR). Co-immunoprecipitation experiments in mammalian cells confirmed the interaction between Hic-5 and both ERK8 and its rodent ortholog ERK7. The C-terminal region of ERK8 was not required for the interaction. Although the LIM3 and LIM4 domains of Hic-5 were sufficient and required for this interaction, the specific zinc finger motifs in these domains were not. Transcriptional activation reporter assays revealed that ERK8 can negatively regulate transcriptional co-activation of androgen receptor and GRα by Hic-5 in a kinase-independent manner. Knockdown of endogenous ERK8 in human airway epithelial cells enhanced dexamethasone-stimulated transcriptional activity of endogenous GR. Transcriptional regulation of GRα and interaction with its ligand binding domain by ERK8 were dependent on the presence of Hic-5. These results provide the first physiological function for human ERK8 as a negative regulator of human GRα, acting through Hic-5, and suggest a broader role for ERK8 in the regulation of nuclear receptors beyond estrogen receptor α.

This work was supported in part by National Institutes of Health Grant HL073132 (to M. K. A.). Kos penerbitan artikel ini telah ditanggung sebahagiannya dengan pembayaran caj halaman. Oleh itu, artikel ini mesti ditandakan dengan “iklan”Sesuai dengan 18 U.S.C. Seksyen 1734 semata-mata untuk menunjukkan fakta ini.

Kedua-dua penulis memberikan sumbangan yang sama dalam karya ini.

Present address: the Whitehead Institute, Cambridge, MA 02142.

Supported in part by National Institutes of Health Training Grant HL07605.


CONSTRUCTION OF THE ANNOTATION SYSTEM

The way we designed our GO annotation system was mainly inspired by personal experience with the use of GO terms for annotation of in-house EST projects for model organisms like amphioxus or sea urchin. A common problem in these projects is how to compare large transcript libraries represented by ESTs (e.g. from different embryonic stages or different species) with respect to global functional classes like transcription regulation, energy metabolism, in order to find fundamental differences.

Typically in cases where no GO annotation is available it is imported by sequence similarity searches against data sets with existing links to GO terms. This procedure generates a wealth of information of high specificity, which is not always convenient for a more general classification. Here the well defined hierarchical structure of GO is an excellent resource, since all parent terms for a specific GO-Id can be traced up to the more general ontology classes like binding, enzyme, transcription regulation, cell communication, which are more suitable for a survey annotation of large data sets like whole cDNA libraries or complete genomes (1,4,15). An optimal automated annotation system should therefore use a broad data set of protein and gene sequences connected with GO terms and it must contain parsers, which allow effective screening of the GO hierarchy up to any level of specificity.

While the vast majority of data sets published on the GO web site has evidence code IEA (inferred from electronic annotation), which normally means that the annotation was based on sequence similarity searches without inspection by a curator, there is also a significant amount with more confident evidence codes (indicating that annotation was controlled by a curator). Especially the Gene Ontology annotations (GOA) for yeast (11), C.elegans (16), Drosophila (17), mouse (18) and the human GOA (www.ebi.ac.uk/GOA/) maintained by the EBI have a large number of high-confidence evidence codes. The largest GOA set (as of February 2003) covers 566 342 protein IDs from SWISS-PROT (19) and TrEMBL from almost 50� taxa and is also provided by the EBI, but here the majority of entries only has evidence code IEA. We imported all these data sets into local protein databases (1 per GOA set), which contain the respective GO terms, and made them accessible by a local BLAST (6,7) server. Similarity searches can now be performed with any level of sensitivity, with DNA or protein sequences as query. The protein databases are regularly updated and build the core of the annotation system. Once a BLAST run is finished the relevant GO terms are extracted from the BLAST output files together with the functional description of the respective database proteins (Fig. ​ (Fig.1 1 A).

(A dan B) Excerpts of a GOblet result web page for an Amphioxus RNA for caspase-6. Note that in the figure the original output is truncated for easier display. (A) Upper part of result page. The protein matches are shown in the order of their significance. Links to external databases and to the BLAST alignments are provided and the GO-Ids associated with the respective target protein are displayed. (B) Bottom of result page. All GO-Ids positive with the query sequence are condensed into a summary tree. Contributions of single database proteins are displayed. The numbers in brackets give the amount of distinct protein contributions for that branch.

The complete gene ontology (i.e. the hierarchy of GO identifiers and their description) is available in various formats from the GO consortium (www.geneontology.org). Since we wanted to set up a fully integrated local analysis system we developed a GO parser, which maps the GO hierarchy onto a set of linearised trees, with terms and nodes connected by hash tables, so that any partial hierarchy (starting backwards from a single GO-Id) can be easily reconstructed. For each query sequence the complete set of relevant GO-Ids (obtained from the BLAST output) is used then for construction of a summary tree (Fig. ​ (Fig.1B), 1 B), that lists all the single proteins leading to a specific leaf of the tree. Furthermore, the total counts per GO-Id are given, which allows easy identification of the most significant GO terms.

All the procedures described above are combined in a package of perl scripts. The web server handles the queries via Perl-CGI modules.


Perbincangan

It is known that prior assumption regarding the MI calculation critically affects MI results ( Fernandes and Gloor, 2010). In this study, a sequence profile, equivalent to the independently estimated marginal probability, was utilized as prior information for the joint probability estimation. We showed that our novel ways to utilize sequence profile greatly improve the accuracy and usability of detecting coevolving residues. Our promising result has two important aspects. First, sequence profile information is valuable prior knowledge. The estimation of a joint probability that has 399 independent parameters requires MSA consisting of a large number of sequences ( Martin et al., 2005 Ashkenazy et al., 2009), which may not be feasible in many cases. On the other hand, a sequence profile that has only 19 independent parameters can be reliably estimated with a relatively small number of aligned sequences, and many accurate ways to calculate sequence profile have been developed ( Durbin et al., 1998). Therefore, incorporating a sequence profile as prior knowledge is a reliable and efficient way of improving joint probability estimates and is, subsequently, beneficial to the detection of coevolving residues. Second aspect is that joint probability is adjusted to have the same marginal probability as the independently estimated value, whereas conventional methods do not account for such consistency constraint. In a previous study ( Fernandes and Gloor, 2010), it has been demonstrated that consistency is a critical assumption in MI estimates. Likewise, our study revealed that the consistency assumption is critically important in MI calculation in the detection of coevolving residues.

As the profile-based joint probability estimate can be used with any form of MI-based measure, we expect similar level of performance improvement for all MI-based measures that may be required for various applications using correlated mutation information. In this study, we showed that the use of sequence profile in state-of-the-art MI variants improves the prediction of intra- and inter-residue contacts. However, the use of correlated mutation is not limited to the described applications. Because the correlated mutation analysis has been applied to various biological studies solely or in combination with other techniques ( Göbel et al., 1994 Pazos et al., 1997 Wu et al., 2003 Shackelford and Karplus, 2007 Lee et al., 2008 Liu et al., 2008 Skerker et al., 2008 Aurora et al., 2009 Halabi et al., 2009 Jeong and Kim, 2010 Kowarsch et al., 2010 Zhang et al., 2010), the improvement achieved by the present method is still effective for those applications. Moreover, the strong robustness of the present method can expand the applications.

A fully automated web server, named CMAT (Correlated Mutation Analysis Tool), was developed based on the present method. The only input prepared by the user is a target sequence. Subsequently, the analysis procedure including MSA construction, redundancy removal and coevolution score estimation is automatically conducted. After the analysis is completed, the outputs including MI, MIp and MIc scores are reported. Additionally, the associated amino acid types are listed with their pointwise MI values, which might be helpful to users who are interested in experimental mutation studies for choosing targeting amino acids. The web server is freely available on the web at http://binfolab12.kaist.ac.kr/cmat/. Besides, for users who want to analyze a large amount of MSAs, the standalone program is also freely available.

Although the present method shows significant improvements over other methods in detecting coevolving residues, the factors that directly cause the coevolution are not easily identifiable without additional knowledge. It is known that a variety of structural and functional factors are related with correlated mutation ( Fitch and Markowitz, 1970 Lee et al., 2008 Skerker et al., 2008 Chakrabarti and Panchenko, 2009, 2010 Halabi et al., 2009 Kowarsch et al., 2010). However, covariation analyses including the present and conventional algorithms have been focused on the quantification of residue–residue coevolution with less regard to the underlying biological mechanism. To be meaningful, the calculated coevolution scores need to be mapped onto additional features such as spatial distance and functional annotations. To overcome this limitation, prior knowledge related with biological background would be helpful ( Fernandes and Gloor, 2010). For example, coevolving residues at protein–protein interfaces have been effectively detected by using physicochemical compensation as prior knowledge ( Madaoui and Guerois, 2008). That is, meaningful coevolution signal for particular studies can be extracted by taking account of the relationship between correlated mutation and additional biological knowledge.

For future study, we will comprehensively investigate the structural and functional factors that induce residue–residue coevolution, and utilize them as prior biological knowledge for the detection of coevolving residues. Although some previous studies have performed the large-scale analyses ( Chakrabarti and Panchenko, 2010 Kowarsch et al., 2010), their results are based on insufficient data due to the algorithmic limitations such as the MSA diversity and gap fractions. The present method is suitable for a large-scale analysis because of its robustness and reliability. Therefore, the comprehensive study based on the present method can reveal meaningful biological knowledge underlying correlated mutation, which also leads additional improvements in the detection of coevolving sites.


Tonton videonya: How to find nucleotideprotein sequence of a gene in NCBI (Disember 2022).