Maklumat

Bagaimana menggunakan swiss-mod untuk meramalkan struktur sekunder dan struktur 3D protein?

Bagaimana menggunakan swiss-mod untuk meramalkan struktur sekunder dan struktur 3D protein?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya cuba meramalkan struktur sekunder protein dan 3-D untuk urutannya [Q1NN20] dan memerlukan sedikit bantuan agar bola bergolek.

Saya semakin keliru dengan cara dan bila untuk menggunakan Jpred, swiss-mod dan PDB. Setakat ini, saya mendapat urutan daripada scanprosite, memasukkannya ke dalam swiss-mod, tetapi apa seterusnya? Bilakah jpred masuk?


Struktur 3D.

Menggunakan PDB untuk mengenal pasti struktur yang serupa dengan struktur yang anda temukan (anda boleh menggunakan BLAST untuk mencari PDB). Padanan 30% atau ke atas adalah selalunya boleh diterima, dan banyak penjajaran tentu berguna pada skor perlawanan yang lebih rendah. Jika struktur wujud yang cukup serupa, anda boleh menggunakan pemodelan homologi untuk menjana struktur 3D (inilah yang dilakukan oleh pelayan SWISS-MODEL, dan saya fikir ia mengautomasikan penjajaran BLAST daripada PDB). Sekiranya tidak ada struktur yang serupa, anda boleh menggunakan ab initio pemodelan jika anda mempunyai domain globular yang agak lurus ke hadapan, jika tidak, anda mungkin perlu mendapatkan kepakaran tambahan.

Terdapat begitu banyak faktor khusus yang perlu diambil kira untuk projek seperti ini. Bergantung pada model yang akan digunakan, soalan yang berbeza adalah berkaitan.

Struktur sekunder.

Anda memerlukan beberapa ramalan struktur sekunder yang berbeza untuk membuatnya meyakinkan dan kemudian anda perlu memastikan bahawa konsensus sekunder anda sesuai dengan struktur 3D anda. Jika mereka tidak sepadan, anda perlu memikirkan "mengapa tidak?"

Jika terdapat perbezaan ia biasanya menunjukkan bahawa beberapa interaksi 3D terlibat dalam lipatan, jadi model 3D anda biasanya sangkakala ramalan struktur jujukan, tetapi semak struktur 3D anda terhadap ramalan struktur sekunder.

Ramalan struktur sekunder lebih berguna apabila struktur 3D tidak tersedia dan pemodelan bukan pilihan.


Model Swiss ialah alat dalam talian untuk memodelkan struktur tertiari dan Kuaterner protein menggunakan maklumat evolusi. Model J-pred dan Swiss kedua-duanya adalah alat lurus ke depan yang hanya memerlukan urutan. Model Switzerland memerlukan carian untuk templat dan berdasarkan mana protein akan dimodelkan selanjutnya.J=pred digunakan secara eksklusif untuk ramalan struktur sekunder.


Mikologi Gunaan dan Bioteknologi

Manoj Bhasin, G.P.S. Raghava, dalam Applied Mycology and Biotechnology, 2006

5. Ramalan Struktur Protein

Pengetahuan tentang struktur tiga dimensi protein atau struktur tertier (3D) adalah prasyarat asas untuk memahami fungsi protein. Pada masa ini, teknik utama yang digunakan untuk menentukan struktur protein 3D adalah kristalografi sinar-X dan resonans magnetik nuklear (NMR). Dalam kristalografi sinar-X protein dihablurkan dan kemudian menggunakan pembelauan sinar-X struktur protein ditentukan. Penentuan struktur 3D oleh kristalografi sinar-X tidak selalunya mudah dan kadangkala mengambil masa sehingga tiga hingga lima tahun. NMR adalah teknik lain yang berguna untuk menentukan struktur protein. Kelebihan NMR berbanding kristalografi sinar-X ialah protein boleh dikaji dalam persekitaran berair yang mungkin menyerupai keadaan fisiologi sebenar dengan lebih dekat. Batasan utama NMR adalah bahawa ia hanya sesuai untuk protein kecil yang mempunyai kurang daripada 150 asid amino. Jurang antara urutan protein yang diketahui dan struktur protein yang diketahui semakin meningkat secara eksponen. Oleh itu, terdapat keperluan untuk mengembangkan teknik komputasi untuk meramalkan struktur protein. Ramalan konformasi protein/struktur tertier bantuan komputer boleh memudahkan i) ramalan struktur tertiari untuk protein dengan urutan yang diketahui dan struktur yang tidak diketahui, ii) pemahaman tentang lipatan protein, iii) kejuruteraan protein supaya fungsi baru boleh digabungkan, dan iv) reka bentuk dadah.

Masalah ramalan struktur protein telah didekati melalui tiga laluan utama: 1) simulasi komputer berdasarkan pengiraan tenaga empirik, 2) pendekatan berasaskan pengetahuan menggunakan maklumat yang berasal dari hubungan struktur-urutan dari struktur protein 3-D yang ditentukan secara eksperimen dan iii) kaedah hierarki . Setiap pendekatan mempunyai kelebihan dan batasannya.

5.1. Kaedah Berdasarkan Minimumisasi Tenaga

Ramalan struktur protein berdasarkan kaedah pengecilan tenaga berakar umbi dalam pemerhatian bahawa struktur protein asli sepadan dengan sistem pada keseimbangan termodinamik dengan tenaga bebas minimum. Kaedah berasaskan tenaga tidak membuat a priori andaian mengenai sifat pengekodan asid amino. Sebaliknya cubaan untuk mencari minimum global dalam tenaga bebas permukaan molekul protein diandaikan sepadan dengan konformasi asli molekul. Kaedah berdasarkan prinsip pengurangan tenaga boleh diklasifikasikan secara meluas dalam dua kategori i) kaedah peminimalan statik dan ii) kaedah peminimalan dinamik. Pakej perisian utama berdasarkan pengecilan tenaga ialah AMBER CHARMS ECEPP dan GROMOS (Pearlman et al. 1995 van Gunsteren dan Berendsen 1990 Brooks et al. 1990). Pengiraan tenaga menawarkan kelebihan berdasarkan prinsip fizikokimia tetapi terhambat oleh sebilangan besar darjah kebebasan yang perlu dipertimbangkan dan prestasi fungsi tenaga yang terhad. Pada asasnya terdapat dua masalah utama dengan kaedah berdasarkan pengiraan tenaga. Pertama, pengiraan yang diperlukan untuk menetapkan struktur protein berdasarkan pengurangan tenaga adalah di luar jangkauan komputer yang ada sekarang. Kedua, potensi interaksi yang digunakan untuk pengiraan tersebut tidak cukup baik untuk memodelkan struktur asli protein dengan perincian atom (Somorjai 1990).

5.2. Pendekatan Berasaskan Pengetahuan

5.2.1. Pemodelan homologi

Pada masa ini, pemodelan homologi ialah kaedah yang paling berkuasa untuk meramalkan struktur tertier protein dalam kes di mana protein pertanyaan mempunyai persamaan jujukan dengan protein dengan struktur atom yang diketahui. ( Blundell et al. 1987 Sali et al. 1990 Sutcliffe et al. 1987) . Kaedah ini berdasarkan pemerhatian bahawa struktur lebih terpelihara daripada urutan. Oleh itu, model molekul protein yang tepat boleh dibina dengan memberikan konformasi yang berdasarkan penjajaran jujukan, diikuti dengan pembinaan model dan pengurangan tenaga. Oleh kerana ketersediaan data urutan genom yang banyak, bilangan urutan protein meningkat pada kadar eksponen, dan jurang antara bilangan urutan dan strukturnya yang sepadan semakin melebar. Oleh itu, pembinaan model protein menjadi teknik yang semakin penting (Orengo et al. 1992). Langkah penting pertama dalam pemodelan homologi melibatkan penghasilan struktur berdasarkan struktur antara protein pertanyaan dan urutan dengan struktur tiga dimensi yang diketahui (Pascarella dan Argos 1992). Untuk kes homologi rendah (kurang daripada 20 % identiti) kualiti penjajaran optimum yang dihasilkan oleh kaedah automatik selalunya buruk. Pendekatan konsep yang berbeza untuk pemodelan homologi adalah berdasarkan geometri jarak. Dalam prospek ini, sekatan templat tersier diterjemahkan ke dalam sekatan jarak yang digunakan sebagai input untuk program geometri jarak (Havel dan Snow 1991 Sali dan Blundell 1993). Pendekatan pemodelan berasaskan homologi gagal jika tiada struktur homolog.

5.2.2. Pendekatan Benang

Konsep penjujukan urutan protein melalui motif lipatan alternatif melibatkan pembinaan struktur model yang salah dilipat, di mana urutan yang salah sengaja dibina ke tulang belakang protein lain. Menjalin jujukan melalui lipatan memerlukan penjajaran khusus antara jujukan asid amino protein yang sedang dipertimbangkan dan kedudukan sisa asid amino yang sepadan bagi motif lipatan. Struktur yang diketahui membentuk satu set kemungkinan kedudukan asid amino dalam ruang tiga dimensi. Urutan pertanyaan dibuat serupa dengan struktur yang diketahui dengan meletakkan asid amino ke kedudukan sejajarnya. Matlamat utama kaedah ini adalah untuk memilih lipatan yang paling berkemungkinan untuk urutan tertentu atau untuk mengenali urutan yang sesuai yang mungkin terlipat ke dalam struktur tertentu. Kaedah utas biasanya hanya diterapkan pada protein yang urutan asid amino menerima salah satu lipatan protein yang sebelumnya dikaji dengan teknik eksperimen. Kejayaan benang bergantung pada bilangan lipatan yang tersedia yang strukturnya diketahui pada tahap perincian atom. Dalam kes struktur atom lipatan diketahui maka urutan protein pertanyaan boleh sesuai dengan lipatan yang diketahui.

5.3. Pendekatan Hierarki

Strategi alternatif untuk ramalan struktur protein dari urutan asid amino mereka menggunakan hierarki struktur protein dari primer ke sekunder dan sekunder hingga tersier. Langkah pertengahan dalam memahami hubungan antara jujukan asid amino dan struktur tertier adalah untuk meramalkan keadaan pertengahan seperti struktur sekunder protein. Prosedur ini melibatkan pembinaan model untuk struktur sekunder dari data urutan asid amino dan penggunaan model struktur sekunder untuk membina ramalan struktur tersier. Terdapat beberapa algoritma yang telah dibangunkan untuk pemodelan sekunder protein. Kaedah yang ada sekarang boleh dikelaskan kepada i) kaedah statistik, ii) kaedah fisiokimia, (iii) kaedah berasaskan kecerdasan buatan (AI), vi) kaedah berasaskan maklumat evolusi, dan v) kaedah gabungan (Rost 1996 Mcguffin et al. 2000 Cuff et al. 1998). Malangnya, ketepatan ramalan struktur sekunder daripada maklumat jujukan hanya kira-kira 80%. Dalam menggunakan model struktur sekunder untuk meramalkan struktur tersier telah dilakukan percubaan untuk meramalkan struktur putaran ketat dan super sekunder selain heliks, belokan, kepingan dan helai (Kaur dan Raghava 2003a Kaur dan Raghava 2003b Kaur dan Raghava 2004).

5.4. Penanda Aras Kaedah Ramalan Struktur

Masalah utama dalam bidang ramalan struktur protein adalah untuk menilai prestasi kaedah sedia ada. Kaedah telah dikembangkan dengan menggunakan kumpulan protein yang berbeza dan menggunakan kriteria yang berbeza untuk penilaian. Untuk membantu pembangun dan pengguna, eksperimen seluruh dunia terbuka telah dimulakan pada tahun 1994 yang dipanggil Penilaian Kritikal Teknik untuk Ramalan Struktur Protein (CASP), eksperimen CASP bertujuan untuk mewujudkan keadaan terkini dalam ramalan struktur protein dengan mengenal pasti apa kemajuan telah dicapai dan menyerlahkan di mana usaha masa depan mungkin difokuskan dengan paling produktif. Kegiatan ini diadakan pada tahun-tahun bergantian, dan CASP keenam dimulakan pada bulan Disember 2004 (http://PredictionCenter.llnl.gov/casp6). Sebagai tambahan kepada CASP, beberapa eksperimen lain telah dimulakan untuk menilai prestasi kaedah ramalan struktur seperti Penilaian Kritikal Pelayan Ramalan Struktur Automatik Sepenuhnya (CAFASP), dan Penilaian ramalan struktur protein Automatik (EVA). Eksperimen ini membolehkan penilaian pelayan web dalam talian untuk ramalan struktur protein. Jadual 8 menyenaraikan perisian utama dan pelayan web untuk ramalan struktur protein.

Jadual 8. Senarai pakej perisian utama untuk ramalan struktur protein.

Program PerisianPenggunaan atau FungsiURL (Rujukan)
PHDKaedah untuk analisis urutan dan ramalan struktur http://www.embl-heidelberg.de/predictprotein/predictprotein.html Rost 1996 .
APSSP2Pelayan ramalan struktur sekunder protein lanjutan. http://www.imtech.res.in/raghava/apssp2/
P si P merahMembenarkan ramalan struktur sekunder protein, topologi domain transmembran dan ramalan lipatan. http://bioinf.cs.ucl.ac.uk/psipred/ Mcguffin et al. 2000 .
J PREDKaedah konsensus untuk meramalkan struktur sekunder protein. http://www.compbio.dundee.ac.uk/∼www-jpred/ ( Cuff et al. 1998)
B ETA TP EED 2Ramalkan beta bertukar protein dari pelbagai penjajaran menggunakan rangkaian saraf. http://www.imtech.res.in/raghava/betatpred2 Kaur dan Raghva 2003a.
G AMMA P MERAHMeramalkan gamma bertukar dalam protein daripada pelbagai penjajaran menggunakan rangkaian saraf. http://www.imtech.res.in/raghava/gammmapred Kaur dan Raghava 2003b.
A LPHA P MERAH Meramalkan perubahan alfa dalam protein daripada pelbagai penjajaran menggunakan rangkaian saraf. http://www.imtech.res.in/raghava/alphapred Kaur dan Raghava 2004.
SWISS-MODELPelayan pemodelan protein perbandingan automatik. http://www.expasy.org/swissmod/SWISS-MODEL.html Peitsch et al. 1995.
GEN03DPemodelan automatik struktur tiga dimensi protein. http://geno3d-pbil.ibcp.fr/ Combet et al. 2002.
MODEL CPHPemodelan lipatan / homologi. http://www.cbs.dtu.dk/services/CPHmodels/
Pelayan Pengiktirafan Meta FoldMembenarkan penyerahan kepada berbilang pelayan. http://bioinfo.pl/Meta/ Ginalski et al. 2003.
HMMSTRMeramalkan struktur protein sekunder, tempatan, super sekunder, dan tersier dari urutan. http://www.bioinfo.rpi.edu/∼bystrc/hmmstr/server.php Bystroff dan Shao 2002 .
AMBERSatu set medan daya mekanik molekul untuk simulasi biomolekul. http://amber.scripps.edu/ Pearlman et al. 1995.
CHARMSSatu set program untuk simulasi molekul.(Gunsteren dan Berendsen 1990).

Ramalan struktur RNA 3D automatik menggunakan kaedah RNAComposer untuk riboswitches

Memahami pelbagai fungsi RNA bergantung secara kritikal pada pengetahuan struktur tiga dimensi (3D) mereka. Berbeza dengan medan protein, bilangan struktur 3D RNA yang lebih kecil telah dinilai menggunakan kristalografi sinar-X, spektroskopi NMR, dan cryomicroscopy. Ini menyebabkan permintaan besar untuk mendapatkan struktur 3D RNA menggunakan kaedah ramalan. Ramalan struktur 3D, terutamanya RNA besar, masih kekal sebagai cabaran penting dan masih terdapat permintaan yang besar untuk kaedah ramalan struktur resolusi tinggi. Dalam bab ini, kami menerangkan RNAComposer, kaedah dan pelayan untuk ramalan automatik struktur 3D RNA berdasarkan pengetahuan mengenai struktur sekunder. Aplikasinya disokong oleh pelayan automatik lain: RNA FRABASE dan RNApdbee, dibangunkan untuk mencari dan menganalisis struktur sekunder dan 3D. Kaedah lain, RNAlyzer, menawarkan cara baru untuk menganalisis dan menggambarkan kualiti model RNA 3D. Skop dan had RNAComposer dalam aplikasi untuk ramalan automatik struktur 3D riboswitches akan dibentangkan dan dibincangkan. Analisis siklik di-GMP-II riboswitch daripada Clostridium acetobutylicum (PDB ID 3Q3Z) sebagai contoh membolehkan ramalan struktur 3D bagi riboswitch berkaitan daripada Clostridium difficile 4, Bacillus halodurans 1, dan Thermus aquaticus Y5.1 struktur yang belum diketahui.

Kata kunci: Struktur 3D RNA RNAComposer Riboswitches Ramalan struktur c-di-GMP-II riboswitch.


SSpro/ACCpro 5: ramalan hampir sempurna struktur sekunder protein dan kebolehcapaian pelarut relatif menggunakan profil, pembelajaran mesin dan persamaan struktur

Motivasi: Meramal dengan tepat struktur sekunder protein dan kebolehcapaian pelarut relatif adalah penting untuk kajian evolusi, struktur dan fungsi protein dan sebagai komponen saluran paip ramalan struktur 3D protein. Sebilangan besar peramal menggunakan gabungan pembelajaran mesin dan profil, dan oleh itu mesti dilatih semula dan dinilai secara berkala kerana bilangan urutan dan struktur protein yang ada terus bertambah.

Keputusan: Kami mempersembahkan versi modular yang baru dilatih bagi peramal SSpro dan ACCpro bagi struktur sekunder dan kebolehcapaian pelarut relatif bersama-sama dengan varian berbilang kelas mereka SSpro8 dan ACCpro20. Kami memperkenalkan perbezaan yang ketara antara penggunaan persamaan jujukan sahaja, biasanya dalam bentuk profil jujukan pada tahap input, dan penggunaan tambahan persamaan struktur berasaskan jujukan, yang menggunakan persamaan dengan jujukan dalam Bank Data Protein untuk membuat kesimpulan anotasi di tahap output, dan mengkaji sumbangan relatif mereka kepada peramal moden. Menggunakan persamaan jujukan sahaja, ketepatan SSpro adalah antara 79 dan 80% (79% untuk ACCpro) dan tiada peramal lain nampaknya melebihi 82%. Walau bagaimanapun, apabila kesamaan struktur berdasarkan urutan ditambahkan, ketepatan SSpro meningkat menjadi 92.9% (90% untuk ACCpro). Oleh itu, dengan menggabungkan kedua-dua pendekatan, masalah ini nampaknya kini pada asasnya diselesaikan, kerana ketepatan 100% tidak boleh dijangka atas beberapa sebab yang terkenal. Hasil ini juga menunjukkan kepada beberapa cabaran teknikal terbuka, termasuk (i) mencapai ketepatan ≥ 80%, tanpa menggunakan persamaan dengan protein yang diketahui dan (ii) mencapai mengikut ketepatan ≥ 85%, dengan hanya menggunakan kesamaan urutan.


Bahan dan Kaedah

Pemodelan sekatan jarak

Pendekatan kami terhadap pemodelan homologi berbilang templat adalah berdasarkan pendekatan statistik kepada pemodelan homologi yang diperkenalkan oleh M odeller. Perisian kami menghitung pengekalan spasial yang lebih baik dan memanggil perisian M odeller, yang kemudian dibaca dalam sekatan dan menemui struktur yang dapat memenuhi sekatan ini secara optimum. Kami mengingati secara ringkas pendekatan pemodelan homologi M odeller di sini.

Pendekatan kemungkinan maksimum M odeller untuk pemodelan homologi.

M odeller meneruskan dalam dua langkah untuk mengira struktur model untuk urutan pertanyaan yang diselaraskan dengan set templat dengan struktur yang diketahui. Pada langkah pertama, ia menghasilkan senarai ratusan ribu kekangan untuk jarak antara pasangan atom dalam pertanyaan, berdasarkan jarak atom yang sesuai dalam templat. Cth. jika sisa i daripada pertanyaan itu q diselaraskan dengan residu i' daripada templat t dan serupa j adalah sejajar dengan j′, Maka jaraknya d antara Cα atom sisa i dan j dalam q akan dikekang agar serupa dengan jarak yang diketahui dt antara Cα atom sisa i' dan j' dalam t (Rajah 1). Dalam statistik, pengekangan digambarkan sebagai fungsi ketumpatan kebarangkalian hlm(d), dan dalam M odeller sekatan jarak ini dimodelkan oleh fungsi Gaussian dengan min dt. Sisihan piawai Gaussian menerangkan sisihan jangkaan jarak d daripada dt. Kekangan jarak dihasilkan untuk setiap pasangan sisa (i, j) untuk sisa sejajar i' dan j′ Wujud dan untuk pelbagai kombinasi jenis atom, yang mana atom setara wujud dalam residu templat yang diselaraskan, mis. Cα − Cα, N - O, Cα − Cγ dan lain-lain.

Dalam langkah kedua, M odeller menggunakan pengoptimuman stokastik untuk mencari struktur model bagi urutan pertanyaan yang memaksimumkan kemungkinan. Kemungkinannya adalah kebarangkalian data, iaitu struktur penjajaran dan templat, mengingat struktur model. Apabila templat tunggal digunakan untuk pemodelan, M odeller menghampiri kemungkinan sebagai hasil darab ketumpatan kebarangkalian berfungsi ke atas semua sekatan. Walaupun pendekatan ini sesuai dengan anggapan kebebasan semua pengekangan, namun praktik ini berfungsi dengan baik.

Sali dan Blundell [12] memerhatikan bahawa sisihan yang dijangkakan ddt bergantung pada (1) pecahan residu sejajar antara dua urutan, (2) kebolehcapaian pelarut rata-rata dari dua pasang residu sejajar (i, i') dan (j, j'), (3) jarak purata bagi i, i′, j dan j′ Dari celah, dan (4) jarak dt. Mereka memodelkan sisihan piawai bagi sekatan Gaussian sebagai fungsi bagi empat pembolehubah diskret. Untuk memenuhi fungsi ini, mereka menganalisis sekumpulan besar protein homologis yang diselaraskan secara struktural di mana mereka mengukur jarak d = dij dan dt = dij antara atom setara dalam dua pasang sisa sejajar struktur, (i, i′) Dan (j, j'). Empat fungsi berbeza dilatih, satu untuk setiap kombinasi jenis atom berikut: Cα - Cα, N − O, rantai sisi—rantai utama, rantai sisi—rantai sisi.

Kekangan jarak baru yang menyebabkan kesalahan penyelarasan.

Oleh kerana analisis dalam [12] bergantung pada pasangan sisa yang boleh diselaraskan secara struktur dalam penjajaran berasaskan struktur, ia pada asasnya bebas daripada ralat penjajaran dan oleh itu jarak dalam pertanyaan sentiasa serupa dengan jarak dalam templat. Dalam praktiknya, penjajaran urutan akan mengandungi kesalahan dan i dan i' (atau j dan j′) mungkin tidak homolog antara satu sama lain. Dalam kes ini, dt tidak mengandungi maklumat mengenai d dan mungkin jauh berbeza. Apabila pasangan sisa (i, i') dan (j, j′) Diambil sampel dari penjajaran urutan sebenar, ini boleh menyebabkan penyimpangan ketara dari jarak jarak dari Gaussian.

Rajah 2(A)–2(C) menunjukkan taburan log(d) − log(dt) untuk set pasangan baki (i, i′) Dan (j, j') sampel daripada penjajaran dengan kualiti yang lebih rendah berturut-turut. Dalam Gambar 2A hanya penjajaran yang sangat dipercayai telah diambil sampelnya, dengan kebarangkalian posterior (pp) untuk (i, i') dan (j, j′) Untuk diselaraskan dengan betul lebih besar daripada 0,9 dan dengan kesamaan urutan (sim) di atas 0,75 bit setiap pasangan yang diselaraskan. (Lihat Maklumat Sokongan untuk definisi pp dan sim.) Akibatnya, taburan ketumpatan empirikal ke atas log(d) − log(dt) mempunyai satu puncak dan dipasang dengan baik oleh satu Gaussian. Namun, ketika kualitas penjajaran merosot, seperti yang ditunjukkan pada Gambar 2B dan 2C, komponen kedua dalam taburan itu terserlah. Ia berpunca daripada sisa (i, i′) Dan (j, j') yang mana sama ada (i, i′) Atau (j, j′) atau kedua-duanya tidak homolog. Titik data ini dengan itu menyumbang pengedaran latar belakang yang tidak bergantung pada jarak dt dalam templat.

Komponen latar belakang berasal daripada pasangan sisa dengan ralat penjajaran. Petak menunjukkan pembahagian log secara empirikal d − log dt = log dij - log dij untuk beribu-ribu pasangan sampel sisa (i, i′), (j, j') daripada penjajaran jujukan berpasangan yang mengandungi ralat sebenar yang dihasilkan dengan penjajaran HH [15]. Taburan campuran Gaussian dua komponen yang diramalkan oleh rangkaian ketumpatan campuran dalam Rajah 3B diplotkan warna merah. daripada (A) ke (C), kebolehpercayaan penjajaran pada (i, i′) Dan (j, j') (seperti yang diukur dengan nilai pp dan sim) berkurangan. Akibatnya, berat komponen latar belakang meningkat dengan mengorbankan komponen isyarat. (D) Sama dengan (C) tetapi menunjukkan taburan jarak N - O dan bukannya Cα − Cα jarak.

Pemerhatian ini mendorong kami untuk memodelkan fungsi sekatan hlm(log d∣ log dt, pp, sim) = hlm(log dθ) menggunakan taburan campuran Gaussian dua komponen (lihat Rajah 3A) yang min, sisihan piawai dan berat campuran w bergantung kepada θ = (log dt, pp, sim) atau θ′ = (Pp, sim): (1) Berat campuran w(θ) boleh dianggap sebagai kebarangkalian bahawa kedua-duanya (i, i′) Dan (j, j′) dijajarkan dengan betul. Penjajaran tempatan yang tidak boleh dipercayai akan membawa kepada komponen latar belakang yang lebih kukuh dan seterusnya kepada sekatan jarak yang lebih lembut. Perhatikan bahawa, kerana jarak tidak boleh negatif, jaraknya tidak dimodelkan dengan baik oleh pengedaran Gauss, yang ekor kirinya dapat menembus ke domain negatif. Oleh itu, kami memodelkan pengedaran log d bukannya d.

(A) Ilustrasi taburan campuran Gaussians dua komponen dalam Persamaan (1). (B) Rangkaian ketumpatan campuran untuk meramalkan parameter (w, μ, σ, μbg, σbg) taburan campuran Gaussian diberi tiga pembolehubah θ = (log dt, pp, sim) (dt: jarak dalam templat, pp: kebarangkalian posterior bagi kedua-dua pasangan residu yang dijajarkan untuk dijajarkan dengan betul, sim: kesamaan urutan). Oleh kerana komponen latar belakang tidak bergantung pada dt, nod untuk μbg dan σbg hanya disambungkan ke dua nod tersembunyi terendah yang tidak disambungkan ke log dt.

Rangkaian ketumpatan campuran.

Untuk meramalkan lima parameter taburan campuran Gauss di Persamaan (1), kami melatih empat rangkaian kepadatan campuran [16], satu untuk setiap kombinasi jenis atom yang disenaraikan di atas. Rangkaian ketumpatan campuran ialah jenis rangkaian neural khas yang mempelajari fungsi penyesuaian optimum untuk meramalkan parameter taburan campuran Gaussian. Ia dilatih dengan memaksimumkan kemungkinan satu set data latihan yang terdiri dari fitur input bersama dengan log nilai d yang pengedarannya harus dipelajari. Kami menggunakan pakej R netlabR untuk melaksanakan rangkaian ketumpatan campuran dengan lima nod tersembunyi seperti yang digambarkan dalam Rajah 3(B). Sebagai ciri input yang kami gunakan θ = (log dt, pp, sim). Kualiti penjajaran tempatan pp(i, j) dan sim kesamaan urutan BLOSUM62 global diuraikan dari output HH align dalam paket hh-suite [15], perisian yang banyak digunakan untuk pengesanan homologi jarak jauh dan penjajaran urutan (lihat Gambar 8, titik hijau). Set tiga ciri diperolehi dengan bermula daripada set ciri penjajaran yang lebih berlebihan yang diterangkan dalam Jadual B dalam Teks S1 dan secara berturut-turut menghapuskan ciri yang peninggalannya tidak merosot dengan ketara kemungkinan pada set latihan (khususnya kebarangkalian dan skor mentah).

Menggabungkan sekatan daripada berbilang templat.

Apabila beberapa templat meliputi residu i dan j pertanyaan, sekatan pada jarak d atom dalam sisa i dan j daripada templat tersebut perlu digabungkan. Menggandakan fungsi pengekangan seperti yang dicadangkan oleh teori kebarangkalian (lihat di bawah) tidak akan berfungsi dalam kes M odeller. Apabila salah satu sekatan salah disebabkan oleh ralat penjajaran, contohnya, fungsi sekatan sekatan yang salah akan sangat memesongkan struktur model, kerana ketumpatan kebarangkalian komponen tunggal Gaussian jatuh dengan sangat cepat untuk meningkatkan jarak daripada puratanya. , yang secara berkesan melarang sebarang pelanggaran berat sekatan. Oleh itu, M odeller menggunakan heuristik untuk mengira ketumpatan kebarangkalian hlm(dd1, d2) terhasil daripada sekatan dua templat t1, t2 dengan jarak yang sepadan d1 dan d2: Ia menambah kedua-dua ketumpatan kebarangkalian hlm(dd1) dan hlm(dd2) (Gambar 4A) menggunakan beberapa berat: (2) Di sini s1 dan s2 ukur persamaan jujukan purata dalam kejiranan jujukan di sekitar dua pasang sisa sejajar daripada q dan t1 dan daripada q dan t2, masing-masing. Fungsi optimum α(s1), α(s2) dijumpai dengan melatih sebilangan besar protein kembar tiga berstruktur q, t1, t2 [12].

(A) Dalam M odeller, dua fungsi sekatan (hijau dan biru) dicampur secara tambahan dengan pemberat campuran yang perlu dipelajari pada set tiga kali ganda struktur protein sejajar. (B) Kekangan baru kita dilipatgandakan dan bukannya ditambah. Komponen latar belakang memastikan bahawa fungsi sekatan menjadi malar dan sekatan itu menjadi tidak aktif (iaitu diabaikan) apabila jarak d jauh dari jarak templat. (C) Campuran bahan tambahan M odeller membawa kepada fungsi sekatan total yang lebih luas daripada mana-mana sekatan templat tunggal, tidak lebih sempit seperti yang sepatutnya. (D) Pendaraban fungsi sekatan mengikut teori kebarangkalian membawa kepada tingkah laku yang diingini bagi jumlah fungsi sekatan menjadi lebih tajam dengan setiap sekatan. Perhatikan bahawa kekangan baru kami dinyatakan sebagai peluang dan bukannya kepadatan (lihat juga Persamaan 6).

Pendekatan heuristik ini membawa kepada tingkah laku yang tidak diingini, seperti yang digambarkan dalam Rajah 4A dan 4C. Menurut asas statistik asas, fungsi pengekangan untuk jarak jauh d berdasarkan sekatan daripada berbilang templat harus mengandungi lebih banyak maklumat dan diselesaikan dengan lebih mendadak daripada mana-mana fungsi sekatan templat tunggal. Walau bagaimanapun, pengekangan ketumpatan campuran aditif dalam Persamaan (2) lebih lebar, tidak lebih sempit daripada pengekangan tunggal.

Sekatan jarak dua komponen baharu membolehkan kami menggunakan peraturan kebarangkalian untuk menggabungkan maklumat daripada dua templat. Dengan teorem Bayes kita memperoleh (3) Jika maklumat dalam templat adalah lebih kurang bebas bersyarat yang diberikan d, iaitu, hlm(d1, d2d) ≈ hlm(d1d) hlm(d2d) kita akan memperoleh (4) di mana teorema Bayes diterapkan pada setiap faktor pada langkah kedua.

Dalam amalan, pertanyaan dan templat berkaitan antara satu sama lain melalui evolusi di sepanjang pokok filogenetik, dan kebebasan bersyarat tidak boleh diandaikan. Oleh itu, kami menghitung kebergantungan di antara templat dengan menimbang nisbah kemungkinan, dengan bobot wk ∈ [0, 1]. Kaedah ini serupa dengan pemberat urutan mengikut kesamaannya dengan urutan lain dalam penjajaran urutan berganda untuk menghitung profil urutan [17] atau beberapa ciri lain yang bergantung pada keluarga [18]. Kami akan memperoleh kaedah untuk menentukan berat khusus templat yang optimum wk dalam subseksyen berikut. Formula sebelumnya kemudian dapat digeneralisasikan kepada K templat, memberikan (5) Di sini, hlm(d) kebarangkalian tidak bergantung pada templat apa pun, iaitu taburan latar belakang. Menurut Persamaan (1), fungsi sekatan kini (demi ringkasnya kami tinggalkan θ dan θ′) (6)

Perhatikan bahawa nisbah kedua Gaussian lagi adalah Gaussian, kerana mengurangkan dua fungsi kuadratik d sekali lagi menghasilkan fungsi kuadratik. Rajah 4B dan 4D menggambarkan bagaimana sekatan daripada berbilang templat digabungkan di bawah pendekatan statistik baharu kami dan ini membawa kepada kelakuan wajar yang dijangkakan bagi jumlah sekatan sekatan dengan lebih kuat daripada sekatan satu komponen.

Membahagi latar belakang mempunyai dua kesan: pertama, mencegah latar belakang menjadi dominan apabila komponen latar belakang individu semuanya P(ddk) didarab. Kedua, logaritma negatif pengekalan jarak M odeller adalah kuadratik dalam d, dan oleh itu sekatan yang tidak memuaskan boleh membawa kepada nilai yang melampau semasa pengoptimuman. Membahagi latar belakang mengelakkan kenaikan kuadratik ini kerana P(ddk)/P(d) mempunyai ekor rata di mana ia menghampiri pemalar (1 − w). Dalam kes penjajaran yang salah dengan jarak yang salah dt dalam templat, pengekangan tidak akan mengganggu struktur model pertanyaan sebagai d akan ditarik dari dt ke kawasan rata kekangan. Menggabungkan dua sekatan jarak komponen seperti yang ditunjukkan dalam Rajah 4D dengan itu mengukuhkan sekatan yang konsisten sambil mengelakkan herotan daripada sekatan yang salah.

Menjalankan M odeller dengan kekangan jarak baru.

Selepas memilih satu set templat, kami menjalankan perintah M odeller (versi 9.10) automodel.homcsr(0) yang menjana fail dengan senarai sekatan daripada penjajaran templat pertanyaan. Kami menghuraikan senarai sekatan dan menggantikan setiap sekatan jarak bergantung templat (sama ada fungsi Gaussian untuk sekatan templat tunggal atau campuran Gaussian untuk sekatan berbilang templat) dengan set sekatan jarak kami sendiri, satu untuk setiap templat. Untuk tujuan ini, kami menambah fungsi kekangan yang mengira logaritma Persamaan (6) kepada M odeller . Semua pengekangan bebas templat seperti rantai utama dan rantai sisi dihedral sudut, panjang ikatan dan lain-lain dibiarkan tidak berubah. Kami menjalankan M odeller dengan senarai sekatan yang diubah suai untuk menjana model 3D.

Pemberat templat

Motivasi.

Sebagai motivasi untuk skema pemberat templat, pertimbangkan kes yang ditunjukkan dalam Rajah 5A. Memberi ketiga-tiga templat berat yang sama mengabaikan kebergantungan yang diterangkan oleh pokok [18]. Templat t3 sepatutnya mendapat berat 1, kerana dikondisikan q ia bebas dari dua templat yang lain. Tetapi templat t1 dan t2 harus mempunyai berat yang jelas lebih kecil daripada 1, kerana mereka tidak menyumbang maklumat bebas d. Sebaliknya, mereka tidak sama dan oleh itu harus menerima berat yang jelas lebih besar daripada 0.5. Tetapi bagaimana kita mengira berat optimum yang tepat wk untuk templat 1,…, K diberi pokok filogenetik dengan panjang tepi yang diketahui?

(A) Templat t1 dan t2 adalah berkait rapat dan harus dikurangkan wajaran berkenaan dengan t3. (B) Sebarang pokok dengan struktur pada simpul dalaman dengan jarak yang tidak diketahui dh yang mana semua templat disambungkan dalam topologi seperti bintang (atas) boleh diubah menjadi pokok yang setara (bawah) dengan topologi seperti bintang, di mana kesetaraan bermakna sekatan pada jarak d0 nod atas adalah sama untuk kedua-dua pokok. τ1, … τK menunjukkan jarak evolusi. (C) Penstrukturan semula berulang bagi pokok filogenetik. In each step, the basic transformation from Fig 5B is applied to the subtree colored in blue. Weights and edge lengths get updated until all templates are directly connected to the query.

Iterative restructuring.

We begin by rooting the phylogenetic tree at the query, and giving its leaf nodes initial weights of 1. By iteratively applying the elementary step in Fig 5B to subtrees, we can transform a tree with arbitrary topology into a tree with a star-like topology, as shown in Fig 5C. At each step, one inner node is removed and the procedure continues until all template leaves are directly connected to the query. At each step, we simply need to update the template weights to obtain the final weights wk for the star-like tree. In the star-like tree which we finally obtain, all template distances dk are conditionally independent, and hence we obtain for the odds ratio the result in Eq 5, using the final weights wk from this iterative process.

Elementary step.

For the elementary step, we will show that the upper (sub)tree in Fig 5B yields exactly the same odds ratio for d0 as the transformed, star-topology tree below, (7) if the new weights are chosen according to (8) The updated weights are proportional to the old wk with a proportionality factor approaching 1 for τ0τk. The sum of weights over all K templates is , which goes to 1 for τ0 ≫ max<τk>, signifying that in this case the information in the templates is completely redundant.

To show that the odds ratio in Eq (7) is conserved when transforming the tree into in Fig 5B, we integrate over the unknown, hidden distance dh, (9) and apply Eq (5) to the second term in the integrand, (10)

We now make the very reasonable assumption that the evolution of the distance between pairs of atoms manifests diffusive behaviour. This behaviour results if the change in distance can be modelled by many small, independent changes, each change being the consequence of a sequence mutation that will slightly change the protein structure. Concretely, this means the probability of observing a distance dl after an evolutionary time τkl, when in the ancestor the distance was dk, is given by (11) with some rate constant γ. Note that at time τkl = 0 the standard deviation vanishes and the right hand-side becomes equal to the delta functional, as it should. Substituting the conditional probabilities in the integral with these expressions, we see that the integral is over a product of Gaussians and can be solved analytically by the method of completing the square (see Suppl. Material). This results in a Gaussian distribution which is shown in the Supporting Information to be equivalent to the tree with transformed weights given by Eq (8).

For simplicity, we use the UPGMA algorithm [19] to construct the initial tree . The distances are computed as dist(tk, tl) = −log(TMscorepred(tk, tl)), where TMscorepred is the TM score [20] predicted by a neural network similar to the one in the next subsection (Supplemental Fig. S1), but without the experimental resolution as input feature. The tree constructed in this way is subsequently rearranged so that the query q is at its root.

Note that by its construction the final tree with star-like topology has the same edge lengths between the query and any template as the real tree. This is important, since the restraint function for template tk from the mixture density network depends on the similarity between q dan tk. In order for the new star-like tree to be equivalent to the real one, it has to represent the same pairwise qtk similarities as the real tree.

Template selection

Single template selection.

HH search ranks templates by the probability Phom for the template to be homologous to the query protein. To pick the template best-suited for homology modeling, we trained a simple neural network with three hidden nodes (Supplemental Fig. S1) on the training set (see Results). The network predicts the TM score [20] of the model built with the query-template alignment, given various alignment features described in Table B in S1 Text. The idea is similar to [21], who proposed a neural network (NN) for picking the first template. We tried several feature combinations and, similar to previous work described in [22], found that the following features yielded the best results: HH search raw score, secondary structure similarity score divided by query length, expected number of correctly aligned target residues divided by query length, resolution of template structure in Angstroms. For each query, we picked the protein with highest predicted TM score among all proteins found by HH search as the first template.

Multiple template selection.

Picking the right set of templates for homology modeling is a difficult problem. The main beneficial effect of adding more templates is to increase the number of residues for which distance restraints can be generated [7]. However, picking too many templates can decrease the model quality because, as we discussed in the context of how M odeller ’s restraints work, even a single bad template that gives rise to wrong distance restraints can severely distort the resulting 3D model.

To our knowledge, no theoretically well founded strategy for multi-template protein homology modeling has been developed so far, which contrasts with its widespread use in virtually every successful prediction pipeline. Contrary to single template selection, picking further templates is fundamentally complicated by complex dependencies between all selected structures. Current methods are therefore based on heuristics [23–25]. Some methods [26, 27] build a set of models based on several different template lists and then post-select a final model according to some quality measure [28].

As a simple baseline approach to multiple template selection, we employ the network of the previous section to select the first template. Further templates are added if 1) their predicted TM score is at least 90% of the first template, 2) they are structurally similar to the first template (TM align score > 0.7) and 3) all selected templates are structurally similar to each other (pairwise TM align score > 0.8).

Next, we propose here a heuristic method which aims to optimise the trade-off between increasing the query sequence coverage and decreasing the restraint quality of already covered residues due to adding more diverged templates with less reliable alignments.

We select the set of templates from among the top 100 found by HH search in the following way (Fig 6). The first template t1 is selected by the neural network that predicts the TM score . For each template in the template list (lower dashed box in the figure) a score S(t) in (see Eq 14) is (re)calculated that rewards a high coverage while penalising the addition of templates whose alignment quality is worse than that of already selected templates. The template with highest score (t4 in Fig 6) is added to the selected set if its score is still positive. The process is iterated until no template is left in that has a positive score.


4 Discussion

We introduced SOLart as the first structure-based solubility prediction method, which is able to predict quickly and accurately the protein solubility of a protein from its experimental or modeled 3D structure.

SOLart employs a series of features, among which the sequence-based features that are commonly used for solubility prediction and some classical structure-based features such as secondary structure composition and solvent accessibility. In addition, it takes advantage of the potentiality of solubility-dependent statistical potentials to discriminate the residue interactions that favor aggregation or solubility. Besides the distance potentials that have previously been analyzed ( Hou et al., 2018), 10 new solubility-dependent potentials were introduced here, which describe the local propensities of residues to adopt certain backbone torsion angle domains or to have certain solvent accessibility values in soluble or aggregation-prone proteins. Note that the feature importance analyses show that the torsion, solvent accessibility and distance potentials are the most important features in the random forest regression prediction. The folding free energy differences computed with these potentials are better correlated with solubility than other protein properties analyzed in the literature such as protein length, isoelectric point and aliphatic index.

The performances of SOLart are high and robust: the linear correlation on both the training dataset (in cross-validation) and on three independent test sets almost reaches 0.7 on good-resolution X-ray structures and slightly lower on modeled structures. Moreover, using relaxed sequence identity cutoffs between test and training set proteins and between any pair of proteins of the same set almost does not change the scores, as shown in Supplementary Table S3 . Furthermore, SOLart performs similarly in the training and testing datasets, which again indicates its robustness and absence of bias toward the training set.

Finally, SOLart outperforms the state-of-the-art solubility predictors on an independent dataset containing S.cerevisiae proteins, with an increase of 0.1 up to 0.5 in the correlation coefficient between the predicted and the experimental values of the solubility. This provides a strong demonstration of SOLart’s accuracy and usefulness.

Another advantage of SOLart is its fastness: it is able to predict the solubility of a medium-size protein in less than one minute. This quality make this tool a perfect instrument to investigate protein solubility properties on a large scale.

It is important to underline that SOLart can be used with modeled structures, as it largely expands the domain of applicability of our tool. Indeed, whereas 36% of the proteins from the Esol E . c o l i and Esol S . c e r e v i s i a e datasets have an experimental PDB structure, this percentage increases up to about 68% if one considers in addition protein structures modeled by homology.

As an example of promising application of SOLart, let us mention rational antibody design, where the solubility issue is frequently a major bottleneck, and one can take advantage of the high quality of homology modeling applied to antibody structures.

Even though SOLart performances are good, there is still a lot of work needed to unravel the various effects and to understand the biophysical mechanisms underlying solubility and aggregation. One direction is to design better energy functions that describe more efficiently these phenomena by enlarging the protein datasets with experimental solubility values or modifying their original formulation. For example, the definition of the reference state that is adequate for solubility properties is still an open problem. It has been argued that interactions between unfolded conformations could lead to insoluble aggregates and, indeed, inclusion bodies forming in heterologous expression in E.coli have been shown to involve folded, unfolded, misfolded and partially folded proteins ( Martínez-Alonso et al., 2009 Baneyx and Mujacic, 2004 Singh and Panda, 2005 Singh et al., 2015 Vallejo and Rinas, 2004), which makes it challenging to disentangle the characteristics contributing to its formation.

Note also that the definition of the solubility ( ⁠ S ⁠ ) used in this article differs from the physical definition of solubility ( ⁠ S 0 ⁠ ), measured in g/l, defined as the concentration of a protein in a saturated solution that is in equilibrium with a solid phase. To get insights into the relation between these two solubility definitions, they should systematically be compared. This is currently impossible as no large datasets of S 0 values are available due to the difficulties in its experimental measurement.

A final perspective concerns industrial biotechnological applications, in which water is replaced by other polar solvents or even by non-polar solvents. Understanding how the protein solubility changes according to the type of solvent and being able to accurately predict this change is a major target for computational tools. On the same footing, it would also be important to understand and predict the influence of buffer salts and ionic strength on the solubility properties of proteins.

In summary, SOLart is a new and efficient method to predict protein solubility. Thanks to its user-friendly interface, both expert and non-expert users can use its predictions to analyze and improve the solubility properties of targeted proteins involved in biotechnological processes, where solubility is frequently a major bottleneck.


How to use swiss-mod to predict the secondary structure and 3D structure of a protein? - Biologi

SARS-CoV-2

Severe acute respiratory syndrome coronavirus 2, is a positive-sense, single-stranded RNA coronavirus. It is a contagious virus that causes coronavirus disease 2019 (COVID-19).

We modelled the full SARS-CoV-2 proteome based on the NCBI reference sequence NC_045512 and annotations from UniProt.

The results are available here.

What's new

We integrated the identification of transmembrane proteins for templates and transfer that information to models.

Define, view and share your own annotations in UniProt space to view on models and structures in SWISS-MODEL Repository

Select homology models and experimental structures from SWISS-MODEL, Repository and tools to compare in one multiple structure view

When you publish or report results using SWISS-MODEL, please cite the relevant publications:

  • Waterhouse, A., Bertoni, M., Bienert, S., Studer, G., Tauriello, G., Gumienny, R., Heer, F.T., de Beer, T.A.P., Rempfer, C., Bordoli, L., Lepore, R., Schwede, T. SWISS-MODEL: homology modelling of protein structures and complexes. Asid Nukleik Res. 46(W1), W296-W303 (2018).
  • Bienert, S., Waterhouse, A., de Beer, T.A.P., Tauriello, G., Studer, G., Bordoli, L., Schwede, T. The SWISS-MODEL Repository - new features and functionality. Asid Nukleik Res. 45, D313-D319 (2017).
  • Guex, N., Peitsch, M.C., Schwede, T. Automated comparative protein structure modeling with SWISS-MODEL and Swiss-PdbViewer: A historical perspective. Electrophoresis 30, S162-S173 (2009).
  • Studer, G., Rempfer, C., Waterhouse, A.M., Gumienny, G., Haas, J., Schwede, T. QMEANDisCo - distance constraints applied on model quality estimation. Bioinformatics 36, 1765-1771 (2020).
  • Bertoni, M., Kiefer, F., Biasini, M., Bordoli, L., Schwede, T. Modeling protein quaternary structure of homo- and hetero-oligomers beyond binary interactions by homology. Scientific Reports 7 (2017).

Predicting protein structure from cryo-EM data

Proteins play an important role in many crucial biological processes, and determining their structure is a critical step to understand their functionality: the structure of a protein dictates whether and how it can interact with other molecules. Researchers can then use this structural information, for instance, to assist in the development of new drugs and vaccines. Predicting protein structure is, however, a challenging problem and it has been an active research topic for many years.

In a recently published work, Dong Si and colleagues take advantage of cryoelectron microscopy (cryo-EM) data to predict the structure of proteins. Cryo-EM, a 2017 Nobel prize-awarded technology, has gained popularity for capturing 3D maps of macromolecules at an incredible near-atomic resolution. The authors propose a tool called DeepTracer, which takes as input a protein’s cryo-EM map and amino acid sequence, and outputs its all-atom structure using a tailored deep learning framework. Different from other cryo-EM model determination methods, DeepTracer has the advantage of performing multichain prediction, requiring no manual processing steps, and achieving more accurate results.

The proposed method relies on a convolutional neural network that consists of four U-Nets, each of them designed to predict a specific structural aspect: the locations of amino acids, the location of the backbone, the secondary structure elements, and the amino acid types. A series of fully automated post-processing steps are then applied to the outputs of these U-Nets to ultimately return the predicted final structure. When compared to state-of-the-art methods (for example, Phenix, Rosetta and MAINMAST), the authors demonstrated that DeepTracer has a better accuracy: for instance, when compared to Phenix using a set of coronavirus-related data, it improved coverage (the proportion of residues that have a matching interpreted residue) in over 30%, and it decreased the root-mean-square deviation value by more than 0.40 Å. In addition, the tool was shown to be computationally efficient when running on a graphics processing unit (GPU): as an example, the tool traced a cryo-EM map containing approximately 60,000 residues within two hours. Overall, DeepTracer is an exciting new method for protein prediction that will certainly help move the field forward.


Pilihan akses

Dapatkan akses jurnal penuh selama 1 tahun

Semua harga adalah harga BERSIH.
VAT akan ditambah kemudian dalam pembayaran.
Pengiraan cukai akan diselesaikan semasa pembayaran.

Dapatkan akses artikel terhad masa atau penuh di ReadCube.

Semua harga adalah harga BERSIH.


Rujukan

Mukherjee, S., Szilagyi, A., Roy, A. & Zhang, Y . Genome-wide protein structure prediction. dalam Multiscale Approaches to Protein Modeling (ed. Kolinski, A.) Ch. 11, 255–279 (Springer, 2010).

Koonin, E.V., Wolf, Y.I. & Karev, G.P. The structure of the protein universe and genome evolution. Alam semula jadi 420, 218–223 (2002).

Kelley, L.A. & Sternberg, M.J.E. Protein structure prediction on the web: a case study using the Phyre server. Nat. Protoc. 4, 363–371 (2009).

Mao, C. et al. Functional assignment of Mycobacterium tuberculosis proteome by genome-scale fold-recognition. Tuberkulosis 1, 93 (2013).

Lewis, T.E. et al. Genome3D: a UK collaborative project to annotate genomic sequences with predicted 3D structures based on SCOP and CATH domains. Nucl. Asid Res. 41, D499–D507 (2013).

Fucile, G. et al. ePlant and the 3D data display initiative: integrative systems biology on the world wide web. PLoS SATU 6, e15237 (2010).

Moult, J., Fidelis, K., Kryshtafovych, A., Schwede, T. & Tramontano, A. Critical assessment of methods of protein structure prediction (CASP)—round X. Protein 82 S2: 1–6 (2014).

Roy, A., Kucukural, A. & Zhang, Y. I-TASSER: a unified platform for automated protein structure and function prediction. Nat. Protoc. 5, 725–738 (2010).

Arnold, K., Bordoli, L., Kopp, J. & Schwede, T. The SWISS-MODEL Workspace: a web-based environment for protein structure homology modelling. Bioinformatik 22, 195–201 (2006).

Söding, J. Protein homology detection by HMM-HMM comparison. Bioinformatik 21, 951–960 (2005).

Lobley, A., Sadowski, M.I. & Jones, D.T. pGenTHREADER and pDomTHREADER: new methods for improved protein fold recognition and superfamily discrimination. Bioinformatics. 25, 1761–1767 (2009).

Raman, S. Structure prediction for CASP8 with all-atom refinement using Rosetta. Protein 77 (suppl. 9), 89–99 (2009).

Källberg, M. et al. Template-based protein structure modeling using the RaptorX web server. Nat. Protoc. 7, 1511–1522 (2012).

Altschul, S.F. et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Asid Nukleik Res. 25, 3389–3402 (1997).

Remmert, M., Biegert, A., Hauser, A. & Söding, J. HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment. Nat. Kaedah 9, 173–175 (2012).

Jones, D.T. Protein secondary structure prediction based on position-specific scoring matrices. J Mol Biol. 292, 195–202 (1999).

Canutescu, A.A. & Dunbrack, R.L. Cyclic coordinate descent: a robotics algorithm for protein loop closure. Protein Sci. 12, 963–972 (2003).

Jefferys, B.R., Kelley, L.A. & Sternberg, M.J. Protein folding requires crowd control in a simulated cell. J. Mol. Biol. 397, 1329–1338 (2010).

Rotkiewicz, P. & Skolnick, J. Fast procedure for reconstruction of full-atom protein models from reduced representations. J. Komput. Kimia. 29, 1460–1465 (2008).

Wei, X. & Sahinidis, N.V. Residue-rotamer-reduction algorithm for the protein side-chain conformation problem. Bioinformatik 22, 188–194 (2006).

Arjun, R., Lindahl, E. & Wallner, B. Improved model quality assessment using ProQ2. BMC Bioinformatics 13, 224 (2012).

Davis, I.W. et al. MolProbity: all-atom contacts and structure validation for proteins and nucleic acids. Nucleic acids Res 35 (suppl. 2), W375–W383 (2007).

Schmidtke, P., Le Guilloux, V., Maupetit, J. & Tufféry, P. Fpocket: online tools for protein ensemble pocket detection and tracking. Nucleic acids Res 38 (suppl. 2), W582–W589 (2010).

Porter, C.T., Bartlett, G.J. & Thornton, J.M. The Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data. Nucleic acids Res 32 (suppl. 1), D129–D133 (2004).

Yates, C.M., Filippis, I., Kelley, L.A. & Sternberg, M.J. SuSPect: enhanced prediction of single amino acid variant (SAV) phenotype using network features. J. Mol. Biol. 426, 2692–2701 (2014).

Capra, J.A. & Singh, M. Predicting functionally important residues from sequence conservation. Bioinformatik 23, 1875–1882 (2007).

Higurashi, M., Ishida, T. & Kinoshita, K. PiSite: a database of protein interaction sites using multiple binding states in the PDB. Asid Nukleik Res. 37 (Database issue): D360–D364 (2009).

Marchler-Bauer, A. et al. CDD: conserved domains and protein three-dimensional structure. Nucleic Acids Res 41 (D1): D348–D352 (2013).

Adzhubei, I.A. et al. A method and server for predicting damaging missense mutations. Nat. Kaedah 7, 248–249 (2010).

Sim, N. et al. SIFT web server: predicting effects of amino acid substitutions on proteins. Nucleic acids Res. 40 W1: W452–W457 (2012).

González-Pérez, A. & López-Bigas, N. Improving the assessment of the outcome of nonsynonymous SNVs with a consensus deleteriousness score, Condel. Am. J. Hum. Genet. 88, 440–449 (2011).

Ward, J.J., Sodhi, J.S., McGuffin, L.J., Buxton, B.F. & Jones, D.T. Prediction and functional analysis of native disorder in proteins from the three kingdoms of life. J. Mol. Biol. 337, 635–645 (2004).

Siew, N., Elofsson, A., Rychlewski, L. & Fischer, D. MaxSub: an automated measure for the assessment of protein structure prediction quality. Bioinformatics. 16, 776–785 (2000).

Wass, M.N., Kelley, L.A. & Sternberg, M.J. 3DLigandSite: predicting ligand-binding sites using similar structures. Asid Nukleik Res. 38, W469–W473 (2010).

Jones, D.T. Improving the accuracy of transmembrane protein topology prediction using evolutionary information. Bioinformatik 3, 538–544 (2007).


Tonton video: COVID-19 Pemodelan Protein Metode Homologi #SWISS-MODEL (Oktober 2022).