Maklumat

Apakah perbezaan jika saya menggunakan pelayan Web dan bukannya pelayan khusus untuk pemodelan dan dok protein?

Apakah perbezaan jika saya menggunakan pelayan Web dan bukannya pelayan khusus untuk pemodelan dan dok protein?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Kami tahu bahawa alat perisian seperti I-tasser dll mempunyai pelayan web dan pilihan kendiri juga. Adakah terdapat sebarang perbezaan pada skor C protein atau kecekapan atau ketepatan jika anda melakukannya secara bersendirian dan bukannya pelayan web?

Apakah perbezaan jika saya menggunakan pelayan Web dan bukannya pelayan khusus untuk pemodelan dan dok protein?. Tersedia daripada: https://www.researchgate.net/post/What_would_be_the_difference_if_I_use_the_Web_server_instead_of_dedicated_server_for_protein_modeling_and_docking [diakses pada 27 Apr 2017].


Seharusnya tidak ada perbezaan dalam output.*** Perbezaan besar berkemungkinan besar dalam saiz analisis yang boleh anda lakukan dan seberapa pantas analisis dilakukan. Banyak pelayan web mempunyai had saiz kerja untuk menghalang seseorang daripada memonopoli sumber melainkan anda membeli akses yang lebih besar. Pada pelayan web awam, tugas anda dibariskan dengan tugas orang lain. Jika pelayan mendapat permintaan tinggi, anda mungkin perlu menunggu lama untuk analisis anda bermula.

***: Saya katakan tiada perbezaan dalam output dan itu benar jika anda menyediakan pelayan anda sama seperti pelayan web awam dengan parameter yang sama digunakan untuk pelaksanaan analisis. Ini boleh menjadi perkara yang baik atau buruk bergantung pada apa yang anda cuba capai. Sesetengah perkhidmatan web awam tidak memberi anda akses kepada semua parameter, jadi menyediakan parameter anda sendiri mungkin memberi anda keupayaan untuk menyesuaikan analisis anda ke tahap yang lebih tinggi.


Chimera atau perisian lain untuk melakukan keadaan protonasi protein

Saya ingin melakukan Docking Molekul antara beberapa ligan dan protein dalam keadaan pH yang berbeza.

Untuk ini, saya mengira jarak antara atom dalam kepekatan pH yang berbeza untuk ligan, menggunakan perisian Avogadro.

Saya ingin melakukan perkara yang sama dengan protein saya, iaitu, dapatkan struktur dan keadaan protonasinya untuk dua pH berbeza.

Adakah terdapat perisian yang membenarkan saya melakukannya?


Persediaan/Keperluan

Untuk mengikuti tutorial ini anda hanya perlu a pelayar web, a penyunting teks, dan PyMOL (tersedia secara percuma untuk kebanyakan sistem pengendalian) pada komputer anda untuk menggambarkan data input dan output.
Selanjutnya, data yang diperlukan untuk menjalankan tutorial ini adalah sama seperti untuk tutorial DisVis dan harus dimuat turun dari di sini. Setelah dimuat turun, pastikan anda membongkar arkib.

Selain itu, jika tidak dibekalkan dengan kelayakan bengkel khas untuk menggunakan portal HADDOCK, pastikan anda mendaftar supaya boleh menghantar kerja. Gunakan halaman pendaftaran berikut untuk ini: https://bianca.science.uu.nl/auth/register/haddock.


Konsep umum HADDOCK

HADDOCK (lihat https://www.bonvinlab.org/software/haddock2.2) ialah koleksi skrip python yang diperoleh daripada ARIA (https://aria.pasteur.fr) yang memanfaatkan kuasa CNS (Crystallography and NMR System , https://cns-online.org) untuk pengiraan struktur kompleks molekul. Apa yang membezakan HADDOCK daripada perisian dok yang lain ialah keupayaannya, yang diwarisi daripada CNS, untuk menggabungkan data percubaan sebagai sekatan dan menggunakannya untuk membimbing proses dok di samping energetik tradisional dan pelengkap bentuk. Selain itu, gandingan intim dengan CNS memberikan HADDOCK dengan keupayaan untuk benar-benar menghasilkan model kualiti yang mencukupi untuk diarkibkan dalam Bank Data Protein.

Aspek utama kepada HADDOCK ialah takrifan Sekatan Interaksi Ambiguous atau AIR. Ini membenarkan terjemahan data mentah seperti gangguan anjakan kimia NMR atau eksperimen mutagenesis ke dalam sekatan jarak yang digabungkan dalam fungsi tenaga yang digunakan dalam pengiraan. AIR ditakrifkan melalui senarai sisa yang termasuk dalam dua kategori: aktif dan pasif. Secara amnya, sisa aktif adalah yang paling penting untuk interaksi, seperti sisa yang kalah matinya menghapuskan interaksi atau yang mempunyai gangguan anjakan kimia lebih tinggi. Sepanjang simulasi, sisa aktif ini dihalang untuk menjadi sebahagian daripada antara muka, jika boleh, jika tidak, dikenakan penalti pemarkahan. Sisa pasif adalah yang menyumbang untuk interaksi, tetapi dianggap kurang penting. Jika sisa tersebut tidak termasuk dalam antara muka, tiada penalti pemarkahan. Oleh itu, pemilihan yang teliti tentang sisa yang aktif dan yang pasif adalah penting untuk kejayaan dok.

Protokol dok HADDOCK telah direka supaya molekul mengalami tahap fleksibiliti yang berbeza-beza dan persekitaran kimia yang berbeza, dan ia boleh dibahagikan dalam tiga peringkat berbeza, setiap satu dengan matlamat dan ciri yang ditetapkan:

1. Rawak orientasi dan pengecilan badan tegar (it0)
Pada peringkat awal ini, rakan kongsi yang berinteraksi dianggap sebagai badan tegar, bermakna semua parameter geometri seperti panjang ikatan, sudut ikatan dan sudut dihedral dibekukan. Rakan kongsi dipisahkan di angkasa dan diputar secara rawak mengenai pusat jisim mereka. Ini diikuti dengan langkah meminimumkan tenaga badan yang tegar, di mana rakan kongsi dibenarkan untuk berputar dan menterjemah untuk mengoptimumkan interaksi. Peranan AIR dalam peringkat ini amat penting. Oleh kerana ia termasuk dalam fungsi tenaga yang diminimumkan, kompleks yang terhasil akan berat sebelah ke arahnya. Sebagai contoh, mentakrifkan set AIR yang sangat ketat membawa kepada pensampelan ruang konformasi yang sangat sempit, bermakna pose yang dihasilkan akan sangat serupa. Sebaliknya, sekatan yang sangat jarang (cth. seluruh permukaan rakan kongsi) akan menghasilkan penyelesaian yang sangat berbeza, memaparkan kebolehubahan yang lebih besar dalam kawasan pengikatan.

2. Penyepuhlindapan simulasi separa fleksibel dalam ruang sudut kilasan (it1)
Tahap kedua protokol dok memperkenalkan fleksibiliti kepada rakan kongsi yang berinteraksi melalui penghalusan berasaskan dinamik molekul tiga langkah untuk mengoptimumkan pembungkusan antara muka. Perlu diingat bahawa fleksibiliti dalam ruang sudut kilasan bermakna panjang dan sudut ikatan masih beku. Rakan kongsi berinteraksi mula-mula dikekalkan tegar dan hanya orientasi mereka dioptimumkan. Fleksibiliti kemudiannya diperkenalkan dalam antara muka, yang ditakrifkan secara automatik berdasarkan analisis hubungan antara molekul dalam potongan 5A. Ini membolehkan pose mengikat berbeza yang datang daripadanya0 untuk menentukan kawasan fleksibel yang berbeza. Sisa kepunyaan rantau antara muka ini kemudiannya dibenarkan untuk menggerakkan rantai sisinya dalam langkah penghalusan kedua. Akhir sekali, kedua-dua tulang belakang dan rantai sisi antara muka yang fleksibel diberikan kebebasan. AIR sekali lagi memainkan peranan penting pada peringkat ini kerana ia mungkin mendorong perubahan konformasi.

3. Penapisan dalam ruang Cartesian dengan pelarut eksplisit (air)
Peringkat akhir protokol dok membolehkan untuk membenamkan kompleks dalam cangkang pelarut untuk meningkatkan tenaga interaksi. HADDOCK kini menyokong air (model TIP3P) dan persekitaran DMSO. Yang terakhir boleh digunakan sebagai mimik membran. Dalam penghalusan pelarut eksplisit pendek ini, model tertakluk kepada simulasi dinamik molekul pendek pada 300K, dengan sekatan kedudukan pada atom berat bukan antara muka. Sekatan ini kemudiannya dilonggarkan untuk membolehkan semua rantai sisi dioptimumkan. Dalam versi 2.4 HADDOCK, penghalusan pelarut eksplisit digantikan secara lalai dengan pengecilan tenaga mudah kerana penanda aras telah menunjukkan ia tidak banyak menambahkan kualiti model. Ini membolehkan anda menjimatkan masa.

Prestasi protokol ini bergantung pada bilangan model yang dihasilkan pada setiap langkah. Beberapa model kurang berkemungkinan untuk menangkap pose mengikat yang betul, manakala nombor yang dibesar-besarkan akan menjadi tidak munasabah dari segi pengiraan. Protokol HADDOCK standard menjana 1000 model dalam peringkat pengecilan badan tegar, dan kemudian memperhalusi 200 terbaik (diperingkat berdasarkan skor HADDOCK) dalam kedua-dua it1 dan air. Walau bagaimanapun, ambil perhatian bahawa walaupun 1000 model dijana secara lalai di dalamnya0, ia adalah hasil daripada lima percubaan pengecilan dan bagi setiap satu daripada penyelesaian simetri 180 darjah ini turut diambil sampel. Secara berkesan, 1000 model yang ditulis pada cakera adalah hasil pensampelan 10.000 penyelesaian dok.

Model akhir dikelompokkan secara automatik berdasarkan ukuran persamaan tertentu - sama ada ligan antara muka kedudukan RMSD (iL-RMSD) yang menangkap perubahan konformasi mengenai antara muka dengan memasang pada antara muka reseptor (molekul pertama) dan mengira RMSD pada antara muka rakan kongsi yang lebih kecil, atau pecahan daripada kenalan biasa (lalai semasa) yang mengukur kesamaan hubungan antara molekul. Untuk pengelompokan RMSD, antara muka yang digunakan dalam pengiraan ditakrifkan secara automatik berdasarkan analisis semua kenalan yang dibuat dalam semua model.

Versi 2.4 baharu HADDOCK juga membolehkan sistem mengisar kasar, yang mengurangkan bilangan zarah dan mempercepatkan pengiraan dengan berkesan. Kami menggunakan medan daya MARTINI2.2 untuk ini, yang berdasarkan pemetaan empat kepada satu atom pada manik berbutir kasar.


AutoDock

AutoDock ialah set alat dok automatik. Ia direka bentuk untuk meramalkan bagaimana molekul kecil, seperti substrat atau calon ubat, terikat pada reseptor struktur 3D yang diketahui.

Pengedaran semasa AutoDock terdiri daripada dua generasi perisian: AutoDock 4 dan AutoDock Vina.

AutoDock 4 sebenarnya terdiri daripada dua atur cara utama: autodock melakukan dok ligan kepada set grid yang menerangkan autogrid protein sasaran pra-kira grid ini.

Selain menggunakannya untuk dok, grid pertalian atom boleh divisualisasikan. Ini boleh membantu, sebagai contoh, untuk membimbing ahli kimia sintetik organik mereka bentuk pengikat yang lebih baik.

AutoDock Vina tidak memerlukan pemilihan jenis atom dan pra-pengiraan peta grid untuk mereka. Sebaliknya, ia mengira grid secara dalaman, untuk jenis atom yang diperlukan, dan ia melakukan ini dengan serta-merta.

Kami juga telah membangunkan antara muka pengguna grafik yang dipanggil AutoDockTools, atau singkatannya ADT, yang antara lain membantu untuk menetapkan ikatan yang akan dianggap sebagai boleh diputar dalam ligan dan menganalisis dok.

  • Kristalografi sinar-X
  • reka bentuk ubat berasaskan struktur
  • pengoptimuman petunjuk
  • saringan maya (HTS)
  • reka bentuk perpustakaan gabungan
  • dok protein-protein
  • kajian mekanisme kimia.

AutoDock 4 adalah percuma dan tersedia di bawah Lesen Awam Am GNU. AutoDock Vina tersedia di bawah lesen Apache, membenarkan penggunaan dan pengedaran semula komersil dan bukan komersial. Klik pada tab "Muat Turun". Dan Selamat Berlabuh!

Apakah AutoDock Vina?

AutoDock Vina ialah generasi baharu perisian dok daripada Makmal Grafik Molekul. Ia mencapai peningkatan ketara dalam ketepatan purata ramalan mod pengikatan, sementara juga mencapai dua urutan magnitud lebih pantas daripada AutoDock 4. 1

Oleh kerana fungsi pemarkahan yang digunakan oleh AutoDock 4 dan AutoDock Vina adalah berbeza dan tidak tepat, pada sebarang masalah tertentu, mana-mana program mungkin memberikan hasil yang lebih baik.

Maklumat terperinci boleh didapati di tapak web AutoDock Vina.

Apa yang baru?

AutoDock 4.2 adalah lebih pantas daripada versi terdahulu, dan ia membolehkan rantai sisi dalam makromolekul menjadi fleksibel. Seperti sebelum ini, dok tegar adalah sangat pantas, dan dok fleksibel berkualiti tinggi boleh dilakukan dalam masa sekitar satu minit. Sehingga 40,000 dok tegar boleh dilakukan dalam sehari pada satu cpu.

AutoDock 4.2 kini mempunyai fungsi pemarkahan tenaga bebas yang berdasarkan analisis regresi linear, medan daya AMBER dan set kompleks ligan protein pelbagai yang lebih besar dengan pemalar perencatan yang diketahui daripada yang kami gunakan dalam AutoDock 3.0. Model terbaik telah disahkan silang dengan set kompleks protease HIV-1 yang berasingan, dan mengesahkan bahawa ralat piawai adalah sekitar 2.5 kcal/mol. Ini sudah cukup untuk membezakan antara plumbum dengan pemalar perencatan mili, mikro dan nano-molar.

Anda boleh membaca lebih lanjut mengenai ciri baharu dalam AutoDock 4.2 dan cara menggunakannya dalam Panduan Pengguna AutoDock4.2.

AutoDock 4 ialah Perisian Percuma

Pengenalan AutoDock 4 terdiri daripada tiga penambahbaikan utama:

  1. Keputusan dok lebih tepat dan boleh dipercayai.
  2. Ia boleh memodelkan fleksibiliti secara pilihan dalam makromolekul sasaran.
  3. Ia membolehkan penggunaan AutoDock dalam menilai interaksi protein-protein.

AutoDock 4.0 bukan sahaja lebih pantas daripada versi terdahulu, ia membolehkan rantai sisi dalam makromolekul menjadi fleksibel. Seperti sebelum ini, dok tegar adalah sangat pantas, dan dok fleksibel berkualiti tinggi boleh dilakukan dalam masa sekitar satu minit. Sehingga 40,000 dok tegar boleh dilakukan dalam sehari pada satu cpu.

AutoDock 4.0 kini mempunyai fungsi pemarkahan tenaga bebas yang berdasarkan analisis regresi linear, medan daya AMBER dan set kompleks ligan protein pelbagai yang lebih besar dengan pemalar perencatan yang diketahui daripada yang kami gunakan dalam AutoDock 3.0. Model terbaik telah disahkan silang dengan set kompleks protease HIV-1 yang berasingan, dan mengesahkan bahawa ralat piawai adalah sekitar 2.5 kcal/mol. Ini sudah cukup untuk membezakan antara plumbum dengan pemalar perencatan mili, mikro dan nano-molar.

Anda boleh membaca butiran lanjut tentang ciri baharu dalam Panduan Pengguna AutoDock4.2.

AutoDock 4.0 boleh disusun untuk memanfaatkan kaedah carian baharu daripada perpustakaan pengoptimuman, ACRO, yang dibangunkan oleh William E. Hart di Sandia National Labs. Kami juga telah menambah beberapa ciri baharu pada kaedah evolusi sedia ada kami. Kami masih menyediakan kaedah penyepuhlindapan (SA) simulasi Monte Carlo 2.4 dan lebih awal. Algoritma Genetik Lamarckian (LGA) ialah peningkatan besar pada Algoritma Genetik, dan kedua-dua kaedah genetik adalah lebih cekap dan teguh daripada SA.

Senarai Mel dan Forum

Kami telah menubuhkan senarai mel dan forum untuk pengguna AutoDock. Berikut ialah maklumat lanjut tentang Senarai AutoDock (ADL). URL untuk forum ialah http://mgl.scripps.edu/forum.

Apakah AutoDockTools (ADT)?

Kami telah membangunkan dan terus menambah baik bahagian hadapan grafik kami untuk AutoDock dan AutoGrid, ADT (AutoDockTools). Ia berjalan pada Linux, Mac OS X, SGI IRIX dan Microsoft Windows. Kami juga mempunyai tutorial baharu, bersama-sama dengan fail sampel yang disertakan.

Di manakah AutoDock Digunakan?

AutoDock kini telah diedarkan kepada lebih daripada 29000 pengguna di seluruh dunia. Ia digunakan dalam tetapan akademik, kerajaan, bukan untung dan komersial. Pada Januari 2011, carian Indeks Petikan ISI menunjukkan lebih daripada 2700 penerbitan telah memetik kertas kaedah AutoDock utama.

AutoDock kini diedarkan di bawah lesen sumber terbuka GPL dan tersedia secara percuma untuk digunakan semua. Disebabkan sekatan untuk memasukkan perisian berlesen GPL ke dalam kod lain untuk tujuan pengagihan semula, sesetengah syarikat mungkin ingin melesenkan AutoDock di bawah perjanjian lesen yang berasingan - yang boleh kami aturkan. Sila hubungi Prof. Arthur J. Olson di + 1 (858) 784-2526 untuk maklumat lanjut.

Mengapa Menggunakan AutoDock?

AutoDock telah digunakan secara meluas dan terdapat banyak contoh aplikasinya yang berjaya dalam literatur (lihat Rujukan) pada tahun 2006, AutoDock ialah perisian dok yang paling banyak disebut. Ia sangat pantas, memberikan ramalan kualiti tinggi bagi konformasi ligan, dan korelasi yang baik antara pemalar perencatan yang diramalkan dan yang eksperimen. AutoDock juga telah terbukti berguna dalam dok buta, di mana lokasi tapak pengikat tidak diketahui. Selain itu, AutoDock ialah perisian percuma dan versi 4 diedarkan di bawah Lesen Awam Am GNU yang juga mudah diperolehi.

Jalankan Projek Penyelidikan AutoDock Anda di Grid Komuniti Dunia!

Adakah penyelidikan anda dijalankan pada AutoDock? Jika ya, anda mungkin layak mendapat manfaat daripada kuasa pengiraan percuma World Community Grid&rsquos untuk mempercepatkan penyelidikan anda. AutoDock telah &ldquogrid-enabled&rdquo oleh pasukan teknikal World Community Grid&rsquos dan dijalankan pada World Community Grid dengan projek berikut:

  • Projek [email protected] daripada The Scripps Research Institute.
    projek dari Cawangan Perubatan Universiti Texas.

Sila semak kriteria projek penyelidikan World Community Grid&rsquos dan hubungi World Community Grid jika anda mempunyai idea untuk cadangan projek atau sebarang soalan.


Penukar format fail

    . Sistem pakar kimia sumber terbuka percuma yang digunakan terutamanya untuk menukar format fail kimia. Untuk Windows, Unix dan Mac OS.
    . Menghasilkan struktur 3D untuk molekul bersaiz kecil dan sederhana seperti dadah. Diedarkan oleh Rangkaian Molekul.
    . Kit alat kimia organik universal, yang mengandungi alatan untuk pengguna akhir, serta API yang didokumenkan untuk pembangun. Percuma dan sumber terbuka, tetapi juga tersedia secara komersial. Diedarkan oleh perisian GGA.
    . Molekul baris arahan dan utiliti rendering tindak balas. Percuma dan sumber terbuka. Diedarkan oleh perisian GGA.
    . Penjana SMILES kanonik baris arahan. Percuma dan sumber terbuka. Diedarkan oleh perisian GGA.
    . Program baris arahan untuk penyahkonvolusian R-Group. Percuma dan sumber terbuka. Diedarkan oleh perisian GGA.
    . (Ensemble Conformer Mengandungi Konformasi Bioaktif). Menukar daripada 1D atau 2D kepada 3D menggunakan kaedah sempadan jarak, dengan tumpuan untuk menghasilkan semula konformasi bioaktif. Dibangunkan oleh OpenEye.
    . (Koordinat Molekul Kecil). Kaedah pemprosesan tinggi untuk meramalkan struktur 3D molekul kecil daripada perwakilan 1D/2D mereka. Juga wujud sebagai perkhidmatan web. Disediakan oleh Universiti california, Irvine.
    . Menjana dan menganalisis konformer 3D bagi molekul kecil. TorsionAnalyzer adalah berdasarkan koleksi corak dan peraturan SMARTS yang diperoleh pakar (puncak dan toleransi yang ditetapkan). Peraturan terhasil daripada analisis statistik histogram yang diperoleh daripada data sinar-X molekul kecil yang diekstrak daripada CSD. Ikatan molekul yang boleh diputar yang dimuatkan ke dalam TorsionAnalyzer dikodkan warna dengan cepat melalui lampu isyarat yang menyerlahkan sudut kilasan biasa, sempadan dan luar biasa. Ini membolehkan pengguna melihat sekilas pandang jika satu atau lebih sudut kilasan adalah luar biasa. Disediakan oleh BioSolveIT.
    . Penukaran struktur 2D kepada 3D, termasuk variasi tautomerik, stereokimia dan pengionan, serta pengecilan tenaga dan penapis fleksibel untuk menjana perpustakaan ligan yang dioptimumkan untuk analisis pengiraan selanjutnya. Diedarkan oleh Schrodinger.
    . Kit alat boleh skrip universal untuk pemprosesan maklumat kimia. Digunakan oleh PubChem. Dikekalkan dan diedarkan oleh Xemistry. Percuma untuk akademik.
    . Utiliti berasaskan Indigo untuk mencari pendua dan perbandingan visual dua fail yang mengandungi berbilang struktur. Format input SDF, SMILES, CML, MOLFILE disokong.Fail boleh mengandungi sejumlah besar molekul dan ChemDiff telah diuji pada fail dengan sehingga 1 juta. Percuma dan sumber terbuka. Diedarkan oleh perisian GGA.
    . (Aplikasi Pengecaman Struktur Optik). Utiliti direka untuk menukar perwakilan grafik struktur kimia, seperti yang dipaparkan dalam artikel jurnal, dokumen paten, buku teks, majalah perdagangan dsb. OSRA boleh membaca dokumen dalam mana-mana daripada lebih 90 format grafik yang boleh dihuraikan oleh ImageMagick - termasuk GIF, JPEG, PNG, TIFF, PDF, PS dsb., dan menjana perwakilan SMILES atau SDF bagi imej struktur molekul yang ditemui dalam dokumen tersebut. Percuma dan sumber terbuka. Dibangunkan oleh Makmal Kebangsaan Frederick untuk Penyelidikan Kanser, NIH.
    . Pengumpulan skrip, modul dan kelas Perl untuk menyokong keperluan kimia pengiraan sehari-hari. Perisian percuma, sumber terbuka. Disediakan oleh Manish Sud.
    . Modul enjin VLifeMDS yang mengandungi keupayaan pemodelan molekul asas seperti membina, melihat, menyunting, mengubah suai dan mengoptimumkan molekul kecil dan besar. Penjanaan konformer pantas dengan kaedah sistematik dan Monte-carlo. Disediakan oleh VLife.
    . (Struktur Protonasi dan Sistem Pengecaman). Alat pengecaman struktur untuk penyediaan protein dan ligan automatik. SPORES menjana ketersambungan, penghibridan, atom dan jenis ikatan daripada koordinat atom berat molekul dan atom hidrogen kepada struktur. Protonasi sama ada boleh dilakukan dengan hanya menambah atom hidrogen yang hilang atau sebagai reprotonasi lengkap. SPORES mampu menjana keadaan protonasi, tautomer dan stereoisomer yang berbeza untuk struktur tertentu. Dibangunkan oleh universiti Konstanz.
    . Program untuk menjana konformasi 3D molekul kecil menggunakan Geometri Jarak dan Pengoptimuman Mekanik Molekul Automatik untuk Saringan dalam silico. Diedarkan secara percuma oleh Universiti Paris Diderot.
    . Alat pemodelan molekul untuk menukar struktur 2D (formula struktur kimia) bagi sebatian yang dilukis oleh ISIS-Draw atau ChemDraw kepada struktur 3D dengan maklumat tambahan tentang cas atom dsb. Diedarkan oleh IMMD.
    . Suite perisian untuk melukis gambar rajah struktur kimia, termasuk keupayaan untuk mengira spektrum NMR, menjana nama IUPAC dan tatatanda baris untuk struktur, memanipulasi struktur yang diimport daripada Internet, mentafsir dan menukar fail yang dijana oleh program perisian lukisan kimia lain, menggambarkan persediaan kaca dan peralatan. , dan lukis plat TLC. Diedarkan oleh iChemLabs LLC.
    . Perisian untuk mencari dan menganalisis ruang konformasi molekul kecil dan besar.
    . Pustaka Cheminformatics digunakan terutamanya untuk penukaran format fail. Ditulis dalam bahasa Jawa. Untuk Windows, Unix dan Mac OS.
    . Pustaka LGPL-ed untuk bio- dan cheminformatics dan kimia pengiraan yang ditulis dalam Java. Sumber terbuka.
    . .NET Cheminformatics Toolkit dibina sepenuhnya pada platform Microsoft .NET. Dengan menggunakan Mono, MolEngine boleh berjalan pada platform lain, seperti Mac, Linux, iPad. Diedarkan oleh Scilligence.
    . Kit alat kimia organik universal. Percuma dan sumber terbuka. Disediakan oleh GGA.
    . Utiliti berasaskan Indigo untuk mencari pendua dan perbandingan visual dua fail yang mengandungi berbilang struktur. Format input SDF, SMILES, CML, MOLFILE disokong. Disediakan oleh GGA.
    . ODDT ialah alat sumber terbuka dan percuma untuk kedua-dua pembangun dan penyelidik penemuan dadah bantuan komputer (CADD). Ia mengimplementasikan semula banyak kaedah terkini, seperti fungsi pemarkahan pembelajaran mesin (RF-Score dan NNScore) dan membungkus perisian luaran lain untuk memudahkan proses membangunkan saluran paip CADD. ODDT ialah penyelesaian luar kotak yang direka untuk mudah disesuaikan dan diperluaskan. Oleh itu, pengguna amat digalakkan untuk melanjutkan dan membangunkan kaedah baharu. Disediakan oleh Institut Biokimia dan Biofizik PAS, Warsaw, Poland.
    . Koleksi cheminformatics dan perisian pembelajaran mesin yang ditulis dalam C++ dan Python.
    . Program manipulasi dan penukaran fail molekul.
    . Program manipulasi dan penukaran fail molekul.
    . Pengekstrak Ligand Didorong Pengetahuan ialah perpustakaan perisian untuk pengiktirafan jenis atom, keadaan hibridisasi dan susunan ikatan dalam struktur molekul kecil. Model ramalannya adalah berdasarkan Mesin Vektor Sokongan tak linear. Proses persepsi sifat ikatan dan atom dibahagikan kepada beberapa langkah. Pada mulanya, hanya maklumat tentang koordinat dan unsur bagi setiap atom tersedia: (i) Ketersambungan dikenali (ii) Carian gelang dilakukan untuk mencari Set Terkecil Cincin Terkecil (SSSR) (iii) Hibridisasi atom diramalkan. oleh model SVM yang sepadan (iv) Pesanan bon diramalkan oleh model SVM yang sepadan (v) Kitaran aromatik ditemui dan (vi) Jenis atom ditetapkan mengikut kepatuhan kepada kumpulan berfungsi. Sesetengah bon ditetapkan semula semasa peringkat ini. Versi Linux dan MacOS adalah percuma. Dikekalkan oleh pasukan Nano-D, Inria/CNRS Grenoble, Perancis.
    . Terdiri daripada dua atur cara yang boleh digunakan untuk menukar satu atau lebih rentetan SMILES kepada 3D. Untuk Mac dan Linux. Juga wujud sebagai perkhidmatan web.
    . Alat perisian berasaskan JAVA untuk meneroka ruang kimia dengan membolehkan penjanaan dan navigasi dalam hierarki pokok perancah yang dianotasi dengan pelbagai data. Visualisasi grafik perhubungan struktur membolehkan menganalisis set data yang besar, cth., untuk mengaitkan struktur kimia dan aktiviti biokimia. Perisian sumber terbuka percuma yang dibangunkan dan disokong oleh Pengerusi Kejuruteraan algoritma di Universiti Teknikal Dortmund dan Jabatan Biologi Kimia di Institut Max-Planck untuk Fisiologi Molekul Dortmund.
    . Program berasaskan Java yang menjana pangkalan data pokok perancah secara bebas daripada Scaffold Hunter. Perisian sumber terbuka percuma yang dibangunkan dan disokong oleh Pengerusi Kejuruteraan algoritma di Universiti Teknikal Dortmund dan Jabatan Biologi Kimia di Institut Max-Planck untuk Fisiologi Molekul Dortmund.
    . Program untuk mengekstrak perancah daripada molekul seperti ubat organik dengan 'menanggalkan' rantai sisi dan mewakili struktur yang tinggal dalam bentuk pekat. Perisian sumber terbuka yang diedarkan oleh Silicos.
    . Skrip python bebas dan sumber terbuka yang boleh menguraikan PDB sebatian molekul kecil ke dalam serpihan konstituennya. Dibangunkan oleh Sumber Pengiraan Bioperubatan Kebangsaan.
    . Menghitung keadaan protonasi ligan dan tautomer dalam keadaan biologi. Diedarkan oleh Schrodinger.
    . iBabel ialah antara muka grafik alternatif kepada Open Babel untuk Macintosh OS X.
    . Koleksi modul perl yang menyediakan objek dan kaedah untuk mewakili molekul, atom dan ikatan dalam Perl melakukan pemadanan substruktur dan membaca dan menulis fail dalam pelbagai format.
    . Tujuan kit alat SDF ini adalah untuk menyediakan fungsi untuk membaca dan menghuraikan SDF, menapis dan menambah/mengalih keluar sifat.

PERBINCANGAN

Identiti jujukan ialah peramal yang mudah namun munasabah untuk kejayaan dok

Analisis semua indeks berasaskan urutan dan struktur menunjukkan bahawa tiada satu pun menunjukkan prestasi yang lebih baik daripada yang lain. Identiti jujukan dan persamaan menunjukkan prestasi yang sama baik (pekali korelasi masing-masing 0.70 dan 0.69) dan adalah remeh untuk dikira, tidak memerlukan maklumat lanjut selain penjajaran berpasangan. Menariknya, identiti jujukan pada antara muka hanyalah peramal yang sedikit lebih baik (pekali korelasi 0.71), yang menunjukkan bahawa lipatan keseluruhan molekul adalah relevan untuk susunan antara muka yang baik dan dengan itu untuk kejayaan dok.

Indeks berasaskan struktur menunjukkan prestasi yang agak heterogen. Metrik QMean, 34 Molprobity, 44 dan Verify3D 35 semuanya menilai sifat struktur model, seperti pembungkusan asid amino, pengedaran sudut kilasan, dsb. (Jadual Maklumat Sokongan S1). Memandangkan model homologi mengalami sedikit penambahbaikan, tidak dijangka bahawa mereka mempunyai pertembungan teruk atau ciri struktur menyimpang yang lain. Namun begitu, Molprobity sangat mendiskriminasi struktur asli, mengaitkan dengan skor yang sangat rendah ini (hampir selalu di bawah 15 a.u.) berbeza dengan skor di atas 70 untuk kebanyakan model homologi. Pemarkahan antara model homologi, bagaimanapun, adalah heterogen dan tidak berkorelasi dengan keputusan dok. Akhir sekali, tulang belakang iRMSD antara model dan templat, ukuran perbandingan struktur langsung, menunjukkan pekali korelasi tertinggi, setanding dengan TVSMod_RMSD (0.73), dan lebih baik daripada persamaan struktur keseluruhan antara kedua-dua struktur (0.56).

Kualiti sekatan interaksi mempunyai kesan yang lebih besar daripada kualiti model homologi

Pelabuhan berasaskan maklumat menyempitkan landskap konformasi perkaitan molekul kepada pecahan yang menghormati maklumat tersebut. Tambahan pula, jika maklumat disepadukan dalam fungsi tenaga yang digunakan dalam penghalusan (iaitu, bukan sahaja untuk pemarkahan), terdapat faedah tambahan untuk memacu penghalusan antara muka. Keputusan kami adalah bersetuju dengan andaian ini, kerana pengiraan dok menggunakan maklumat berasaskan literatur [sekatan CAPRI, Rajah 2 (B, D)] menunjukkan hasil yang lebih teruk daripada yang menggunakan sekatan antara muka yang benar [Rajah. 2(C,E)]. Kesan kualiti sekatan digambarkan dalam larian T18, di mana nilai ketepatan dan ingatan semula adalah sangat rendah dan model-model tersebut mempunyai kualiti yang tidak baik (iRMSD melebihi 4 Å). Walau bagaimanapun, secara keseluruhannya, walaupun memulakan proses pemodelan dengan templat serendah 20% identiti jujukan, model berlabuh masih agak munasabah (dalam 3 Å iRMSD), dengan syarat maklumat interaksi boleh dipercayai. Ini sekali gus menekankan kepentingan kualiti data berbanding model. Pemarkahan model, dibantu oleh maklumat antara muka, juga cukup teguh untuk mendiskriminasi model kualiti yang baik, tanpa mengira identiti templat yang digunakan dalam pemodelan homologi. Ini sekali lagi mengukuhkan tanggapan bahawa kualiti data adalah lebih penting daripada model, kerana data yang baik boleh memperhalusi model yang buruk dan mendiskriminasi penyelesaian yang lebih dekat dengan struktur asli, manakala data yang lemah mencemarkan protokol dok walaupun model itu. kualiti adalah munasabah.

Mentakrifkan had pemodelan homologi dalam dok dipacu maklumat

Berdasarkan pemerhatian ini, kita boleh meramalkan kualiti ramalan dok dipacu maklumat memandangkan identiti jujukan templat yang digunakan untuk membina model homologi (Rajah 3). Dengan mengandaikan maklumat antara muka yang boleh dipercayai, model homologi yang dibina dengan perkongsian templat 20% identiti jujukan boleh dijangka menghasilkan model dok dalam 4 Å iRMSD kompleks asli. Apabila identiti templat sasaran meningkat, begitu juga dengan kualiti yang diharapkan bagi model akhir. Sebagai contoh, kebanyakan model identiti 60% menghasilkan penyelesaian dok sekitar 2 Å iRMSD. Ini berkemungkinan mewakili anggaran yang terlalu tinggi terhadap kualiti yang boleh dicapai kerana salah satu rakan kongsi dok diambil dalam bentuk terikatnya. Namun begitu, adalah menarik untuk melihat bahawa sasaran CAPRI baru-baru ini, yang kesemuanya adalah kes dok homologi–homologi atau homologi–tidak terikat, mengikut garis aliran model kami dengan baik. Ini akan menunjukkan bahawa kualiti dok yang boleh dicapai dihadkan oleh komponen identiti jujukan terendah rakan kongsi interaksi—dengan kata lain: penghampiran yang lebih teruk menentukan had model anda.

Kebolehpercayaan maklumat sudah tentu sukar untuk dianggarkan. Semasa pusingan CAPRI, kebanyakan maklumat dikumpulkan daripada pangkalan data literatur dan ramalan bioinformatik dalam tempoh 24 jam yang terdiri daripada penyerahan pelayan. Secara keseluruhannya, ini pada asasnya bermakna bahawa maklumat yang boleh dipercayai tidak begitu terhad seperti yang dibayangkan. Akhir sekali, pendekatan pemodelan homologi yang digunakan dalam kajian ini adalah standard, tidak menggunakan kaedah penghalusan lanjutan seperti yang terdapat dalam pelayan ramalan struktur. 17, 45 Oleh itu, keputusan yang dibentangkan boleh dianggap sebagai garis dasar, yang boleh dipertingkatkan lagi dengan pengetahuan pakar tentang sistem yang sedang dikaji dan/atau kaedah ramalan struktur yang lebih berkuasa.


PROSEDUR DAN KRITERIA PENTAKSIRAN

Protokol penilaian CAPRI standard

Homo dan heterokompleks yang diramalkan telah dinilai oleh pasukan penilaian CAPRI, menggunakan protokol penilaian CAPRI standard, yang menilai korespondensi antara kompleks yang diramalkan dan struktur sasaran. 18, 19

Protokol ini (diringkaskan dalam Rajah 1) mula-mula mentakrifkan set sisa yang biasa kepada semua model dan sasaran yang dikemukakan, supaya membolehkan perbandingan kuantiti bergantung kepada sisa, seperti sisihan kuasa dua punca (rmsd) bagi model. berbanding struktur sasaran. Model yang identiti jujukan kepada sasaran terlalu rendah tidak dinilai. Ambang ditentukan berdasarkan setiap sasaran, tetapi biasanya ditetapkan kepada 70%.

Ilustrasi skematik kriteria penilaian CAPRI. Kuantiti berikut telah dikira untuk setiap sasaran: (1) semua sentuhan sisa-sisa antara Reseptor (R) dan Ligand (L), dan (2) sisa yang menyumbang kepada antara muka setiap komponen kompleks. Sisa antara muka ditakrifkan berdasarkan sumbangannya kepada kawasan antara muka, seperti yang diterangkan dalam rujukan. 18, 19 Bagi setiap model yang dikemukakan kuantiti berikut telah dikira: pecahan f(nat) daripada orang asli dan f(bukan nat) daripada kenalan bukan asli dalam antara muka yang diramalkan anjakan purata kuasa dua akar (rmsd) bagi atom tulang belakang ligan (L-rms), sudut salah orientasi θL dan anjakan baki dL daripada pusat jisim ligan, selepas reseptor dalam model dan struktur eksperimen ditindih secara optimum. Di samping itu kami mengira saya-rms, rmsd atom tulang belakang semua sisa antara muka selepas ia ditindih secara optimum. Di sini residu antara muka ditakrifkan dengan kurang ketat berdasarkan kenalan residu-residu (lihat Ruj. 18, 19).

Set sisa biasa digunakan untuk menilai dua kuantiti berasaskan rmsd utama yang digunakan dalam penilaian: ligan rmsd (L-rms) dan antara muka rmsd (saya-rms). L-rms ialah tulang belakang rmsd atas set biasa sisa ligan selepas superposisi struktur reseptor. saya-rms ialah tulang belakang rmsd dikira atas set biasa sisa antara muka selepas superposisi struktur sisa ini. Sisa antara muka ditakrifkan sedemikian apabila mana-mana atomnya (hidrogen dikecualikan) ditemui dalam 10 Å daripada mana-mana atom pasangan pengikat.

Kuantiti ketiga yang penting di mana model dinilai ialah f(nat), mewakili pecahan kenalan asli dalam sasaran, iaitu, dihasilkan semula dalam model. Kuantiti ini mengambil kira semua sisa protein. Hubungan reseptor ligan ditakrifkan sebagai mana-mana pasangan atom reseptor ligan dalam jarak 5 Å. Sentuhan atom di bawah 3 Å dianggap sebagai ramalan pertembungan dengan terlalu banyak pertembungan dibatalkan kelayakan. Ambang pertembungan berbeza mengikut sasaran dan ditakrifkan sebagai purata bilangan pertembungan dalam set ramalan ditambah dua sisihan piawai. Kuantiti f(nat), L-rms dan saya-rms bersama-sama menentukan kualiti model yang diramalkan, dan berdasarkan ketiga-tiga parameter tersebut, model disenaraikan dalam empat kategori: Kualiti tinggi, kualiti sederhana, kualiti boleh diterima dan tidak betul, seperti yang diringkaskan dalam Jadual 3.

skor f(nat) L-rms saya-rms
*** Tinggi ≥ 0.5 ≤ 1.0 ATAU ≤ 1.0
** Sederhana ≥ 0.3 < 1.0–5.0] ATAU < 1.0–2.0]
* Boleh diterima ≥ 0.1 < 5.0–10.0] ATAU < 2.0–4.0]
tak betul < 0.1 > 10.0 DAN > 4.0

Menggunakan protokol penilaian CAPRI kepada homo-oligomer

Menilai model kompleks homo dan heteroprotein terhadap struktur sasaran yang sepadan adalah masalah yang jelas apabila kompleks sasaran ditakrifkan dengan jelas, contohnya, jika mod persatuan sasaran dan antara muka yang sepadan mewakili unit yang berkaitan secara biologi. Ini biasanya, walaupun tidak selalu, berlaku untuk heterokompleks binari, tetapi bukan situasi yang dihadapi dalam eksperimen ini untuk sasaran homo-oligomer. Semua kecuali dua daripada 25 sasaran yang ramalannya dinilai di sini mewakili homo-oligomer. Bagi kira-kira separuh daripada sasaran ini keadaan oligomerik dianggap tidak boleh dipercayai, kerana ia sama ada hanya disimpulkan secara pengiraan daripada struktur kristal menggunakan perisian PISA 23 atau kerana tugasan pengarang dan membuat kesimpulan keadaan oligomerik, walaupun tersedia, tidak konsisten (Jadual 1). Hanya kira-kira 15 sasaran mempunyai keadaan oligomerik yang ditetapkan oleh pengarang pada masa percubaan.

Untuk menangani masalah ini dalam penilaian, perisian PISA telah digunakan untuk menjana semua kenalan kristal bagi setiap sasaran dan untuk mengira kawasan antara muka yang sepadan. Antara muka kemudiannya disusun mengikut saiz antara muka. Dalam sasaran dimer calon, model yang diserahkan biasanya dinilai terhadap 1 atau 2 antara muka terbesar sasaran, dan model yang boleh diterima atau lebih baik untuk mana-mana atau semua antara muka ini dikira. Untuk sasaran tetramer calon, antara muka terbesar yang berkaitan untuk setiap sasaran telah dikenal pasti dalam struktur kristal, dan model yang diramalkan dinilai dengan membandingkan seterusnya setiap pasangan subunit berinteraksi dalam model kepada setiap pasangan subunit berinteraksi yang berkaitan dalam sasaran (Menyokong Maklumat Rajah S1), dan sekali lagi antara muka ramalan terbaik dikekalkan untuk pengiraan. Salah satu daripada dua heterokompleks bonafide juga dinilai terhadap pelbagai antara muka.

Menilai ketepatan model 3D subunit individu

Memandangkan percubaan ini merupakan kerjasama rapat antara CAPRI dan CASP, kualiti model 3D subunit individu dalam kompleks yang diramalkan telah dinilai oleh pasukan CASP menggunakan program LGA, 35 yang merupakan alat asas untuk perbandingan model/sasaran dalam CASP. 36, 37 Alat ini boleh dijalankan dalam dua mod penilaian. Dalam mod bergantung jujukan, algoritma menganggap bahawa setiap baki dalam model sepadan dengan baki dengan nombor yang sama dalam sasaran, manakala dalam mod bebas jujukan sekatan ini tidak digunakan. Program ini mencari superimposisi optimum antara dua struktur pada potongan jarak yang berbeza dan mengembalikan dua markah ketepatan utama GDT_TS dan LGA_S. Skor GDT_TS dikira dalam mod bergantung pada jujukan dan mewakili purata peratusan sisa yang berada dalam jarak dekat dalam dua struktur yang ditindih secara optimum menggunakan empat potongan jarak terpilih (lihat Ruj. 38 untuk butiran). Skor LGA_S dikira dalam kedua-dua mod penilaian dan mewakili jumlah wajaran skor LCS dan GDT tambahan daripada superimposisi yang dibina untuk set penuh potongan jarak (lihat Ruj. 35 untuk butiran).Kami telah menjalankan penilaian dalam kedua-dua mod, tetapi memandangkan format penyerahan CAPRI membenarkan penomboran sisa yang berbeza, kami menggunakan skor LGA_S daripada analisis bebas jujukan sebagai ukuran utama penilaian ketepatan subunit. Skor ini dinyatakan pada skala dari 0 hingga 100, dengan 100 mewakili model yang sesuai dengan sasaran. Nilai rmsd untuk model subunit yang disebut di seluruh teks adalah yang dikira oleh perisian LGA. Kami mengesahkan bahawa untuk kira-kira 80% model yang dinilai, skor GDT-TS dan LGA-S berbeza mengikut <15 unit, menunjukkan bahawa model ini sepadan dengan penjajaran struktur yang hampir sama dengan sasaran yang sepadan, sejajar dengan fakta bahawa majoriti sasaran Pusingan ini mewakili protein yang boleh dimodelkan dengan mudah oleh homologi. Daripada baki 20% dengan perbezaan yang lebih besar antara 2 markah, 18% sepadan dengan model yang hilang kelayakan atau kompleks yang salah dan 2% sepadan dengan kompleks ramalan yang boleh diterima (atau kualiti yang lebih tinggi). Oleh itu, kesan mereka terhadap analisis adalah diabaikan.

Membina model sasaran berdasarkan templat terbaik yang tersedia

Untuk menganggarkan nilai tambah prosedur dok protein dan teknik pemodelan berasaskan templat dengan lebih baik, nampaknya menarik untuk membina garis dasar yang mana pendekatan berbeza boleh ditanda aras. Untuk tujuan ini, templat struktur oligomerik terbaik untuk setiap sasaran yang tersedia pada masa ramalan telah dikenal pasti. Berdasarkan templat ini, model sasaran dibina menggunakan prosedur pemodelan standard, dan kualiti model ini dinilai menggunakan kriteria penilaian CAPRI yang diterangkan di atas.

Untuk mengenal pasti templat, pangkalan data struktur protein "PDB70" yang mengandungi protein identiti jujukan bersama ≤70% telah dimuat turun dari HHsuite. 39 Pangkalan data telah dikemas kini dua kali semasa percubaan (Lihat Jadual Maklumat Sokongan S5 untuk tarikh keluaran pangkalan data yang digunakan untuk setiap sasaran). Hanya homo-kompleks yang dipertimbangkan untuk analisis ini.

Templat terbaik yang tersedia telah dikesan dalam tiga cara berbeza dan model sasaran dihasilkan daripada templat seperti berikut: (1) Pengesanan berdasarkan maklumat urutan sahaja: Bagi setiap jujukan sasaran, protein yang berkaitan dengan sasaran telah dicari dalam pangkalan data struktur protein oleh HHsearch 40 dalam mod penjajaran tempatan dengan algoritma Viterbi. 41 Di antara 100 entri teratas, sehingga 10 protein yang berada dalam keadaan oligomer yang dikehendaki telah dipilih sebagai templat. Apabila lebih daripada dua struktur pemasangan dengan antara muka yang berbeza dikenal pasti, kedudukan terbaik dipilih sebagai templat. Sasaran dan jujukan templat telah diselaraskan menggunakan HHalign 40 dalam mod penjajaran global dengan algoritma ketepatan maksimum. Berdasarkan penjajaran jujukan, model oligomer dibina menggunakan MODELLER. 42 Model dengan tenaga MODELLER terendah daripada 10 model telah dipilih untuk analisis lanjut. (2) Pengesanan berdasarkan struktur monomer eksperimen: Protein yang mempunyai persamaan struktur tertinggi dengan struktur monomer eksperimen telah dicari menggunakan penjajaran TM. 43 Antara 100 entri teratas, sehingga 10 protein yang berada dalam keadaan oligomer yang dikehendaki telah dipilih sebagai templat seperti yang diterangkan di atas. Berdasarkan output penjajaran templat sasaran oleh TM-align, model telah dibina menggunakan MODELLER, dan model tenaga terendah telah dipilih seperti yang diterangkan di atas. (3) Pengesanan berdasarkan struktur oligomer eksperimen: Prosedur yang serupa dengan yang diterangkan di atas telah digunakan. Walaupun kali ini, templat terbaik telah dikenal pasti dengan mencari protein dengan persamaan struktur tertinggi dengan struktur oligomer sasaran. Carian dilakukan menggunakan alat penjajaran struktur multimerik MM-align. 44 Untuk kecekapan pengiraan, penjajaran MM hanya digunakan pada 100 protein dengan persamaan struktur monomer tertinggi dengan sasaran. Model dibina menggunakan MODELLER berdasarkan output penjajaran oleh MM-align.


Mengapa InterEvDock2 ?

Pemodelan struktur interaksi protein-protein adalah kunci dalam memahami bagaimana mesin sel berkumpul dan bercakap silang antara satu sama lain. Apabila jujukan homolog tersedia untuk kedua-dua rakan kongsi protein, adalah sangat berguna untuk bergantung pada struktur dan penjajaran jujukan berbilang untuk mengenal pasti antara muka yang mengikat. InterEvDock2 ialah pelayan untuk dok protein yang menjalankan potensi InterEvScore yang direka khusus untuk menyepadukan maklumat evolusi dalam proses dok. Potensi InterEvScore telah dibangunkan untuk antara muka protein heteromerik dan menggabungkan potensi statistik berbilang badan berasaskan residu dengan maklumat evolusi yang diperoleh daripada penjajaran jujukan berbilang setiap rakan kongsi dalam kompleks. Dalam pelayan InterEvDock2, carian dok sistematik dilakukan menggunakan program FRODOCK2 [1] dan model yang terhasil dijaringkan semula dengan InterEvScore [2] bersama-sama dengan potensi statistik berasaskan atom SOAP_PP [3] didapati meningkatkan keyakinan ramalan.

InterEvDock2 ialah kemas kini InterEvDock [4] yang boleh mengendalikan jujukan protein sebagai input, dan bukan sahaja struktur 3D protein. Apabila jujukan disediakan oleh pengguna, langkah pemodelan perbandingan berdasarkan protokol carian templat automatik membina model untuk rakan kongsi protein individu, sebelum dok. Dalam InterEvDock2, sekiranya pengguna mempunyai input biologi seperti kedudukan yang diketahui terlibat dalam antara muka antara dua rakan kongsi protein, kekangan boleh ditentukan untuk digunakan dalam prosedur dok. Ini boleh menjadi penting untuk memastikan bahawa semua maklumat berkaitan biologi yang tersedia digunakan untuk ramalan InterEvDock2. Di samping itu, InterEvDock2 melaksanakan kemungkinan untuk menyerahkan struktur oligomer sebagai input kepada dok percuma. Pilihan sedemikian biasanya rumit dalam analisis evolusi bersama kerana MSA bersama perlu dihasilkan untuk setiap rantaian oligomer. Proses ini kini diautomatikkan sepenuhnya dalam InterEvDock2.

Apabila menggunakan perkhidmatan ini, sila sebutkan rujukan berikut:

Sila sebut juga program FRODOCK2 yang digunakan untuk langkah dok badan tegar:

Menggunakan hasil SOAP_PP, sila sebutkan :

Menggunakan hasil pemuliharaan evolusi yang diperoleh menggunakan Rate4Site (dipetakan pada semua model yang divisualisasikan dalam applet PV dan ditulis ke dalam medan faktor-b fail PDB yang disediakan untuk semua model dalam arkib zip hasil) sila nyatakan:

Menggunakan protokol pemodelan perbandingan berdasarkan RosettaCM (iaitu jika input anda terdiri dalam satu atau dua urutan), sila nyatakan:

Menggunakan carian templat automatik (iaitu jika input anda terdiri dalam satu atau dua urutan dan anda tidak menentukan templat), sila nyatakan:


Apabila Perisian Makan Bio

Dia mula-mula menyertai a16z sebagai yang pertama kami profesor di kediaman dari Universiti Stanford, di mana beliau adalah profesor kimia, sains komputer, dan biologi struktur mengarahkan Program dalam Biofizik dan mengendalikan makmal pengkomputeran teragih yang memenangi anugerah yang kerjanya menyumbang kepada pemahaman kami tentang Alzheimer, Huntington dan pelbagai jenis kanser. Pande juga mengasaskan bersama Globavir BioSciences ialah pembangun awal di sebuah syarikat permainan video yang dijual kepada Sony dan merupakan penasihat kepada banyak syarikat permulaan IT dan bio.

a16z: Ini nampaknya begitu jelas, tetapi mengapa dana bio?

Vijay: Terdapat beberapa cara berbeza yang saya fikirkan tentang perkara ini. Satunya ialah kita semua mengambil berat tentang kesihatan manusia — sama ada untuk diri kita sendiri, ibu bapa kita, anak-anak kita — dan ia adalah masalah besar pada tahap yang sangat mendalam, asas, dari segi pemikiran tentang erti kehidupan. Pada peringkat perniagaan yang lebih biasa, jelas terdapat peluang pasaran yang besar di sini. Fikirkan sahaja belanjawan pemasaran yang Google boleh lakukan (dengan iklan dan sebagainya) — $200 bilion. Tetapi berbanding dengan itu, bajet penjagaan kesihatan A.S. ialah $2 trilion! Walaupun sub-bajet kecil yang kecil itu adalah pasaran yang besar untuk diikuti oleh syarikat baru.

Oleh itu, Bio ialah kawasan di mana terdapat peluang sebenar untuk mengubah dunia … tetapi juga peluang untuk pulangan kewangan yang sangat hebat juga. Firma itu telah teruja dengan ruang ini untuk seketika, dan kami telah membuat pelaburan sebelum mengumpul dana bio. Tetapi kami mahu melakukan sesuatu yang sangat besar, dan menjangkakan ini akan berkembang lebih besar dari masa ke masa, jadi penubuhan dana berasingan juga adalah mengenai pemikiran kami tahun-tahun seterusnya.

a16z: Jadi kenapa sekarang? Bidang seperti penjagaan kesihatan (dan pendidikan, antara beberapa yang lain) tidak dapat ditembusi gangguan, walaupun berkala tuntutan sebaliknya. begitu hiperinflated industri sentiasa matang untuk teknologi, namun mereka tidak pernah benar-benar dibuat semula dengan teknologi. Saya rasa seperti kita terus berkata 'kali ini berbeza'.

Vijay: ADA gabungan aliran tertentu sekarang. Dari segi pengiraan, perkara pada asasnya berbeza. Walaupun undang-undang Moore menjadikan Silicon Valley, kami masih tidak dapat membayangkan betapa eksponennya kos pengiraan menurun.

Salah satu projek besar saya di Stanford, [email protected] , mendapat Rekod Dunia Guinness untuk superkomputer paling berkuasa di dunia ia adalah yang pertama mencapai 1 petaflop. Tetapi sekarang, jumlah kuasa pengiraan itu berharga $400 sehari di Amazon. "Keruntuhan eksponen" semacam itu mengakibatkan kos menurun, menjadikan apa yang dahulunya luar biasa dan mencatat rekod dunia menjadikan kedua-dua purata dan murah hari ini.

Itulah yang berlaku dalam pengiraan. Tetapi terdapat juga undang-undang Moore untuk penyimpanan yang juga telah berkurangan secara eksponen. Apabila anda menggabungkan pengiraan dan storan dan data "percuma" ini, anda mendapat data besar — yang bergantung pada pembelajaran mesin — yang seterusnya membawa kepada pembelajaran mendalam.

a16z: Jadi bagaimana kita menyambungkan titik-titik ini ke bio?

Vijay: Bio mempunyai undang-undang Moore’s sendiri. Oleh kerana kos penderia akan menjadi sifar, kos perkara seperti penjujukan genomik akan menjadi sifar. Sebenarnya, mereka akan menjadi sifar lebih cepat daripada undang-undang Moore’s.

Projek Genom Manusia telah ditubuhkan pada tahun 1991 dan selesai pada tahun 2001, dengan harga kira-kira $3 bilion. Sekarang, ia akan menelan kos $300. Itu adalah kemerosotan eksponen yang jelas dalam kos. Ia mewujudkan situasi yang menarik di mana begitu banyak yang tersedia untuk kita sekarang. Apa yang tinggal ialah perisian untuk menyusun semuanya.

a16z: Bagaimanakah anda boleh membuat dakwaan bahawa perisian menghubungkan titik-titik? Kerana apabila saya memikirkan bio, saya memikirkan tisu dan daging, saya tidak memikirkan pengiraan dan algoritma. Bagaimanakah mereka berdua bersatu?

Vijay: Mari ambil pembelajaran mesin. Anda kini boleh melakukan begitu banyak dengan pengecaman imej di sana. Dan sebahagian besar perubatan melibatkan imej. Sudah tentu, apabila anda pergi ke doktor anda, sedikit mendengar berlaku, tetapi kebanyakannya adalah tentang menganalisis x-ray (radiologi), memeriksa kulit anda (dermatologi), atau melihat mata anda (oftalmologi).

Sudah tentu, doktor ini bukan sahaja menggunakan mata mereka, mereka memohon dan mengasah latihan perubatan selama beberapa dekad untuk melakukan pengecaman corak, yang dalam banyak kes sangat halus dan memerlukan kepakaran yang ketara. Terdapat banyak contoh seperti ini di mana pengiraan boleh melakukan sesuatu di luar kemampuan manusia. Ia tidak terhad kepada hanya penglihatan. Fikirkan semua input yang diambil oleh manusia dengan deria mereka, setiap satu daripadanya boleh diterima oleh pembelajaran mesin dan pembelajaran mendalam: Mendengar dengan stetoskop. Menghidu sesuatu. Dan sebagainya.

Dalam banyak kes, algoritma boleh melakukan lebih baik daripada manusia. Sama seperti penglihatan komputer telah memberi impak yang besar dalam bidang bukan perubatan, ia kini mencapai tahap di mana ia boleh menetapkan standard emas baharu. Jika piawaian emas dalam radiologi adalah untuk meramalkan perkara yang akan dilakukan oleh ahli radiologi, komputer boleh melampaui itu. Dalam onkologi sinaran contohnya standard emas adalah untuk meramalkan keputusan biopsi … tanpa perlu benar-benar meletakkan pesakit melalui satu.

a16z: Apa yang anda huraikan pada dasarnya adalah menyekat perantaraan doktor, bukan? Apakah implikasinya, secara lebih meluas?

Vijay: Saya tidak fikir matlamat di sini adalah untuk membawa orang keluar sepenuhnya daripada persamaan. Ia untuk membantu pakar.

Bayangkan algoritma komputer yang melakukan setara dengan apa yang dilakukan oleh semakan ejaan untuk penulis. Begitu juga, daripada ahli radiologi perlu melihat beribu-ribu imej, algoritma penglihatan komputer hanya menandai yang penting. Sama seperti penyemak ejaan. Dan mungkin anda berkata, tunggu, itu bukan kesilapan taip, ia sebenarnya nama seseorang. Tetapi penghakiman muktamad adalah untuk manusia buat.

Apa yang saya huraikan tidak menggantikan semua pakar radiologi dan pakar perubatan lain, ia hanya mempercepatkan kerja mereka secara dramatik dan membolehkan mereka menumpukan perhatian pada perkara yang lebih tinggi, lebih kompleks dan lebih penting.

a16z: Ia bukan sahaja tentang menjadi lebih murah dan lebih pantas, tetapi lebih baik.

Vijay: Ya, dan apa yang baru saya terangkan sebenarnya adalah salah satu daripada tiga bidang besar yang kami fokuskan dengan dana bio — "bioperubatan pengiraan" ini.

Kerana untuk apa-apa yang berasaskan pembelajaran mesin — seperti pengecaman imej dan penglihatan komputer seperti contoh ini — pembelajaran mesin menjadi lebih baik apabila kos pengiraan dan kos penyimpanan menjadi sifar. Tetapi pembelajaran mesin apa sungguh mengidam adalah data. Dan sebab pembelajaran mesin dan perubatan adalah perkahwinan yang dibuat di syurga adalah kerana ubat mempunyai banyak data. Kesemuanya kini boleh disimpan, dibawa ke algoritma dan berkaitan dengan hasil kemudian.

Malah kita boleh belajar perkara baru sebagai hasilnya. Sungguh menakjubkan: Kami baru-baru ini menemui bahagian baru anatomi manusia kerana mikroskop yang lebih tepat. Saya terkejut saya fikir anatomi adalah salah satu daripada kawasan yang sebenarnya telah kita kunci!

Jadi saya fikir mengambil pendekatan pengiraan berasaskan data ini untuk perubatan akan membuka banyak dan banyak peluang bukan sahaja untuk meningkatkan ketepatan dan kualiti perubatan, tetapi untuk membina syarikat yang benar-benar besar sebagai hasilnya.

a16z: Pembelajaran mesin dan data besar jenis ini memerlukan pengiraan dan penyimpanan. Adakah ini bermakna kita akhirnya berada pada masa infrastruktur seperti AWS untuk permulaan bio, sama seperti apa yang berlaku untuk permulaan berasaskan web?

Vijay: Ia adalah kawasan yang kami panggil "biologi awan" atau "bio awan". Malah nama itu bertujuan untuk membangkitkan pengkomputeran awan, dan semua perniagaan baharu yang didayakan oleh awan.

Tetapi apa yang berlaku di sini ialah percubaan dunia sebenar dalam kehidupan sebenar boleh dilakukan dalam fesyen seperti awan.

a16z: Dalam "fesyen seperti awan" — apakah maksudnya?

Vijay: Mengapakah awan begitu penting kepada syarikat pemula? Permulaan dalam ruang perisian perlu membelanjakan $10-$20 juta untuk membina ladang pelayan, hanya untuk dapat melakukan apa sahaja pada skala pada tahun 2000. Dan skala adalah sangat penting kerana anda tidak boleh benar-benar membuktikan produk anda dengan hanya berjalan pada satu atau dua mesin. Pengkomputeran awan bermakna anda kemudian boleh memberikan permulaan $2-$3 juta, dan sebelum mereka kembali untuk pelaburan siri A seterusnya, mereka akan mempunyai produk di luar sana, berjalan, dengan pelanggan.

Anda boleh nyah risiko awal. Dan itu adalah perbezaan asas antara bio dan bioteknologi tradisional, di mana anda sering perlu memasukkan $100 juta dan kemudian menunggu lima tahun sebelum terdapat sebarang jenis isyarat sama ada ia berfungsi atau tidak. Kami kini boleh memberi pelajar graduan sains komputer atau MD $2-3 juta, dan mereka boleh menggunakan sumber bio awan dan bukannya perlu membina makmal (yang merupakan analog untuk membina ladang pelayan).

a16z: Adakah semua ini hanya untuk mencapai kesesuaian pasaran produk lebih cepat? Atau bolehkah kita melakukan lebih banyak hasil daripada pengkomputeran awan yang digunakan pada bio?

Vijay: Walaupun pengkomputeran awan membawa kepada CapEx yang lebih rendah dan selalunya menurunkan kos operasi, perkara yang menarik tentang AWS atau perkhidmatan pengiraan awan lain ialah jika anda ingin memutarkan 10,000 teras selama lima minit dan memutarnya semula ke bawah, anda boleh melakukannya. Begitu juga dengan sumber bio awan baharu ini, anda boleh memutarkan percubaan, sama ada dalam vitro eksperimen yang dipandu oleh robot, atau eksperimen haiwan.

Jadi tidak, ini bukan sahaja tentang kecekapan kos dan laluan yang lebih cekap untuk kesesuaian pasaran. Anda kini juga boleh melakukan perkara yang anda tidak boleh lakukan sebelum ini. Keanjalan yang diberikan awan kepada bio adalah kunci.

a16z: “Spin up eksperimen” — Saya suka giliran frasa itu. Selain dapat melakukannya, bagaimanakah bio awan menyentuh isu kebolehulangan dan ketepatan dalam penyelidikan saintifik? Saya rasa seperti kita tiba-tiba melihat lebih banyak lagi tentang perkara ini sejak kebelakangan ini, walaupun masalah itu telah wujud sejak sekian lama bagaimana isu ini sesuai dalam konteks ini?

Vijay: Saya rasa kita sedang melihat perubahan sekarang, seperti Revolusi Industri untuk biologi. Jika anda melihat bagaimana teknologi terkini dalam biologi sentiasa dilakukan, ia mengingatkan saya kepada sesuatu yang hampir sebelum Revolusi Industri. Ia adalah barisan dan deretan orang yang bekerja dengan tangan mereka di bangku, dan dengan cara seperti perantisan di bawah ahli biologi induk (selalunya profesor).

Amat sukar untuk mencapai kebolehulangan hasil saintifik — yang penting untuk memajukan bidang tersebut dan menentukan laluan penyelidikan yang hendak dilalui — dalam konteks ini. Maksud saya, walaupun cara anda melakukan pipet boleh memberi impak yang besar apabila anda meletakkan reagen dalam tabung uji! Baru dua minggu yang lalu, saya mendengar cerita di mana apa yang pelajar grad makan untuk makan tengah hari mengubah keputusan. (Ikan tuna meletakkan amina pada nafasnya dan oleh itu ke dalam reagen ia adalah sesuatu yang sangat sukar untuk dikesan.) Terdapat cerita lain seperti itu di luar sana juga, seperti pewarna pakaian dalam kot makmal, dan sebagainya.

a16z: Ok, jadi semua jenis pembolehubah palsu boleh masuk kerana kesilapan mekanikal ini. Tetapi saya masih tidak begitu memahami bagaimana aspek pengiraan membantu menangani masalah tersebut.

Vijay: Jadi apa yang berlaku dalam biologi awan bukanlah bahagian pengiraan semata-mata, tetapi hakikat bahawa pengiraan memacu robot yang boleh melakukan eksperimen.

Di salah satu syarikat yang lebih menarik yang saya lihat di ruang ini, apabila anda ingin melakukan percubaan, anda benar-benar menulis program komputer. Apabila kita mengatakan bahawa biologi menjadi masalah perisian, dalam kes ini, ia adalah benar. Jika anda atau sesiapa sahaja mahu menghasilkan semula percubaan, anda hanya perlu mendapatkan salinan program dan menjalankannya semula.

a16z: Jadi melakukan eksperimen bermakna menjalankan program komputer. Bukankah ini yang telah dilakukan oleh simulasi dan pemodelan komputer untuk kita?

Vijay: Ini adalah eksperimen kehidupan sebenar. Simulasi sentiasa perlu membuat pertukaran untuk kos pengiraan berbanding ketepatan yang merupakan isu utama. Ini adalah perkara sebenar.

a16z: Ok, kini anda telah menerangkan dua bidang yang kami fokuskan setakat ini dengan dana bio — "bio awan" sebentar tadi dan "bioperubatan pengiraan" lebih awal. Apa-apa lagi?

Vijay: Satu lagi bidang yang menarik untuk kami ialah "terapeutik digital".Ia adalah istilah yang dipelopori oleh Omada [yang menjadi pelabur kami] dan lain-lain.

Cara yang saya suka untuk memikirkannya ialah ini: Jika fasa pertama perubatan adalah mengenai ubat molekul kecil yang dihantar secara intravena, dan fasa kedua (kemudian diketuai oleh syarikat bioteknologi seperti Genentech) adalah mengenai biologi protein, maka fasa ketiga adalah mengenai digital terapeutik.

Nampaknya seperti cawan suci perubatan adalah mengambil pil, tunggu sebentar, dan kemudian menjadi lebih baik & # 8212 seperti sihir! Tetapi terdapat had sebenar untuk ini, terutamanya apabila ia berkaitan dengan kemurungan, PTSD, berhenti merokok, diabetes jenis II, insomnia dan keadaan pengantara tingkah laku lain.

Saya yakin bahawa 10-20 tahun dari sekarang apabila kita melihat kembali fasa perubatan ini, ia akan kelihatan mundur dan malah biadab bahawa penyelesaian kami untuk segala-galanya hanya memberikan pil.

a16z: Adakah anda hanya menerangkan pencegahan penyakit pada mulanya (vs. merawatnya selepas fakta)? Atau adakah anda bercakap tentang mengubah tabiat? Apakah sebenarnya yang dilakukan oleh terapeutik digital?

Vijay: Ia sangat mengubah tabiat. Terapi digital merawat apa yang sebenarnya tingkah laku masalah dengan a tingkah laku penyelesaian.

Untuk memberi anda contoh tentang perkara yang sebenarnya dilakukan oleh terapeutik digital: Katakan saya garis sempadan untuk diabetes jenis II. Saya boleh membayar seseorang $100,000-$200,000 setahun untuk mengikuti saya sekitar 24/7, seperti jurulatih peribadi, membuat saya melakukan tekan tubi untuk membina jisim otot dan mengetuk donat dari tangan saya setiap kali saya mencapainya. Dan pasti, itu akan berkesan. Ia hanya mahal untuk kebanyakan kita. Terapi tingkah laku pada asasnya melakukan jenis motivasi dan penyelarasan yang setara — dan masih mempunyai elemen sentuhan manusia melalui jurulatih, pemesejan, rangkaian sosial — tetapi berbuat demikian dengan cara yang boleh meningkatkan kos secara mendadak lebih rendah.

Sebab di sana adalah pendekatan sedia ada yang telah menunjukkan keberkesanan yang agak baik dalam ruang ini — ia hanya mahal dan tidak berskala. Satu contoh yang baik ialah klinik tidur Stanford’s atau klinik obesiti kanak-kanaknya, kedua-duanya melakukan perkara yang menakjubkan tetapi menelan belanja yang tinggi dan hanya boleh mengambil sebilangan kecil orang (yang selalunya istimewa) setahun. Namun terdapat berjuta-juta orang yang menghidap diabetes jenis II & #8230ia adalah wabak.

Terapi digital membolehkan pendekatan yang berjaya menjadi lebih murah dan berskala. Dan mereka tidak mempunyai kesan sampingan toksik, yang sangat menarik dari sudut pandangan dadah, perkara yang kami tidak suka tentang melabur dalam bioteknologi tradisional ialah risiko akibat kesan sampingan, isu kawal selia tambahan dan sebagainya.

a16z: Anda telah mengemukakan beberapa kali sekarang bagaimana perkara yang kami lakukan dengan dana bio adalah sangat berbeza daripada 'bioteknologi' tradisional. kenapa? Bagaimana?

Vijay: Dana bio benar-benar mengenai pembiayaan syarikat perisian dalam ruang bio. Sedangkan bioteknologi tradisional mempunyai sedikit perisian di dalamnya, pada terasnya.

Saya mulakan dengan bercakap tentang undang-undang Moore’s. Terdapat undang-undang yang serupa pada bahagian reka bentuk dadah, Eroom’s Law, dengan “Eroom” ialah “Moore” dieja ke belakang. Di mana undang-undang Moore adalah mengenai pengurangan eksponen dalam kos, Undang-undang Eroom’s adalah mengenai eksponen meningkat dalam kos. Dan sepanjang empat dekad yang lalu, ubat-ubatan telah meningkat secara eksponen dalam kos.

Dari segi tesis pelaburan kami, apabila kami berkata kami tidak akan melakukan bioteknologi, kami pada asasnya berkata kami tidak akan melakukan apa-apa yang berkaitan dengan Eroom’s. Dan kami masih mengatakannya.

a16z: Apakah yang menjadikan sesuatu sebagai Hukum Moore (vs. Eroom)? Bagaimana anda boleh memberitahu?

Vijay: Apa-apa sahaja didorong oleh kos pengiraan yang semakin berkurangan.

Terdahulu, saya menyebut bagaimana bio awan adalah salah satu perbezaan besar antara bioteknologi tradisional dan apa yang kita anggap sebagai bio. Jadi sesuatu yang sangat didorong oleh komputer dan dipacu perisian akan mengikuti keluk undang-undang Moore’s.

a16z: Adakah akibat semula jadi daripada perbezaan antara bioteknologi tradisional dan bio yang merupakan usahawan yang ideal untuk kita tidak pelajar perubatan?

Vijay: Tidak, saya tidak fikir itu benar.

Salah satu perkara yang paling menarik tentang peluang sekarang ialah pelajar med 20 tahun yang lalu sangat berbeza daripada sekarang. Hari ini, mereka sangat mahir komputer, ada yang telah mengaturcarakan sejak mereka remaja. (Di Stanford, kira-kira 80% pelajar mengikuti kelas pengaturcaraan.)

Walaupun mereka tidak membuat kod, pelajar dengan ijazah perubatan ini, pelajar biologi dan kimia ini, boleh bercakap dengan cara yang sangat mendalam tentang sains komputer. Mereka mungkin bukan CTO, tetapi mereka mempunyai pemikiran yang celik teknologi.

a16z: Membalikkan soalan sebelumnya sebentar, bagaimanakah ia berlaku kepada anda? Anda tidak dilatih sebagai MD, bukan? Adakah itu bermakna anda melihat syarikat bio secara berbeza daripada doktor?

Vijay: Kebanyakan doktor semasa belum terlibat dalam pembelajaran mesin apatah lagi menjadi penyelidik. Perspektif saya datang daripada berfungsi kerana gelombang baharu syarikat bio ini jauh lebih mirip perisian daripada seperti bio — walaupun sudah tentu terdapat bio pada terasnya juga.

Apabila saya bercakap dengan usahawan, saya suka mendalami mereka bukan sahaja mengenai biologi protein tetapi mengenai pembelajaran mesin, sistem teragih, infrastruktur — atau malah hanya isu umum dengan penjagaan kesihatan dan perubatan. Ini semua adalah perkara yang sangat saya kenali dan telah saya lakukan sama ada sebagai pengasas permulaan atau dalam 15 tahun saya di Sekolah Perubatan Stanford dan Stanford.

a16z: Berbalik kepada permulaan di sini — maksud saya tentang penjagaan kesihatan yang tahan terhadap gangguan — mengapa penyandang tidak boleh melakukan beberapa perkara ini jika keadaannya sangat berbeza sekarang? Mereka pasti mempunyai data. Mereka tahu ruang dalam ke luar. Bukankah mereka sepatutnya mempunyai kelebihan di gelanggang sendiri? Ini bukan kes, seperti Google pada zaman dahulu, di mana permulaan kecil akan datang ke ruang di mana tiada alternatif yang kukuh wujud sebelum ini. Ini adalah industri yang berakar umbi dengan sesungut di mana-mana.

Vijay: Namun terdapat banyak contoh di mana penyandangnya tidak mempunyainya dalam DNA korporat budaya mereka untuk melakukan sesuatu. Anda boleh berhujah bahawa IBM mempunyai segala yang diperlukan untuk membina rangkaian sosial. Malah Google, yang pernah menjadi permulaan sendiri, membina rangkaian sosial yang hampir tidak bersaing dengan Facebook.

Ini mengenai budaya korporat yang berbeza, gaya yang berbeza dan operasi yang berbeza sama sekali. Dan bio x sains komputer sebenarnya adalah sesuatu yang sangat berbeza. Ia akan menjadi sangat mahal dan sukar untuk dilakukan oleh hospital kerana mereka tidak mempunyai infrastruktur yang dimiliki oleh syarikat permulaan, ia akan menjadi seperti mencipta semula roda. Apatah lagi pertembungan budaya dalam menyerap keputusan walaupun mereka sampai sejauh itu.

Syarikat farmasi sedia ada dan penyandang lain sangat baik dalam apa yang mereka lakukan. Tetapi dari sudut pandangan teknologi, syarikat dan institusi penjagaan kesihatan hidup pada tahun 1980-an & #8212: ia adalah "ubat mesin faks". Sama seperti Google mengubah pelbagai industri, atau Uber dan Lyft mengubah industri teksi dan kereta, terdapat peluang yang sama di sini disebabkan oleh teknologi pada teras.

a16z: Jelas sekali budaya dan operasi itu penting. Bercakap tentang, anda menyebut sebab kami melakukan dana bio yang berasingan sebelum ini. Tetapi bagaimana ia akan berfungsi, secara logistik?

Vijay: Jika anda melihat dari luar, dari sudut pandangan usahawan, saya tidak fikir anda boleh memberitahu bahawa terdapat dana yang berasingan dari segi cara firma itu beroperasi. Dana yang berasingan hanya menekankan dedikasi dan keterujaan kami tentang ruang, diambil daripada LP yang komited kepada visi juga.

Tetapi dari segi cara padang dan semua yang kami lakukan akan berjalan, semuanya sama. Kami telah melibatkan pasukan penuh di sini. Selain saya, terdapat beberapa orang lain yang menyemak tawaran ini. Dan kemudian semua rakan kongsi umum yang lain turut terlibat sepenuhnya — sama ada mereka mempertimbangkan ekonomi unit atau aspek pasaran atau pembelajaran mesin atau infrastruktur awan atau sebagainya. Rakan kongsi umum yang lain mempunyai set besar kepakaran domain dan pengalaman lain untuk menyumbang, sama seperti yang mereka lakukan dengan semua syarikat kami yang lain.

Dan itu bukan semua kepakaran teknikal, sama ada. Ia mengambil kesempatan daripada — dan pasukan operasi kami’ — kecekapan teras dalam pengambilan pekerja, jualan, pemasaran, SaaS (yang sangat berbeza daripada aplikasi pengguna), dan sebagainya. Ini mengenai membina jualan perusahaan, strategi harga, dsb.

Itulah perkara yang paling menarik di sini, dari segi perniagaan. Kerana realitinya ialah syarikat permulaan bio ini kelihatan sama seperti syarikat perisian, terutamanya selepas mereka mencapai kesesuaian pasaran produk dan memperoleh pelanggan pertama mereka. Apabila saya katakan syarikat-syarikat ini lebih seperti syarikat perisian, saya maksudkannya — bukan sahaja dalam teras teknologi mereka tetapi dalam cara membina dan menskalakannya.

Podcast a16z: Bio Memenuhi Sains Komputer dengan Marc Andreessen, Chris Dixon, Vijay Pande [dengar]


WFReDoW: Persekitaran Web Berasaskan Awan untuk Mengendalikan Simulasi Docking Molekul Model Reseptor Fleksibel Sepenuhnya

1 Laboratório de Bioinformática, Modelagem e Simulação de Biossistemas (LABIO), Faculdade de Informática (FACIN), Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), Avenida Ipiranga 6681, Prédio 32, Sala 608, RS 90619 Ale , Brazil

2 Grupo de Pesquisa em Inteligência de Negócio (GPIN), Faculdade de Informática (FACIN), Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), Avenida Ipiranga 6681, Prédio 32, Sala 628, 90619-900, Brazil

Abstrak

Simulasi dok molekul model reseptor protein (FFR) fleksibel sepenuhnya semakin meningkat. Dalam kajian kami, model FFR diwakili oleh satu siri konformasi berbeza yang diperoleh daripada trajektori simulasi dinamik molekul reseptor. Bagi setiap konformasi dalam model FFR, simulasi dok dilaksanakan dan dianalisis. Cabaran penting ialah melakukan saringan maya berjuta-juta ligan menggunakan model FFR dalam mod berjujukan kerana ia boleh menjadi sangat menuntut dari segi pengiraan. Dalam makalah ini, kami mencadangkan persekitaran web berasaskan awan, yang dipanggil Aliran Kerja Docking Reseptor Fleksibel web (wFReDoW), yang mengurangkan masa CPU dalam simulasi dok molekul model FFR kepada molekul kecil. Ia adalah berdasarkan corak data aliran kerja baharu yang dipanggil berbilang contoh penyesuaian diri (P-SaMI) dan pada perisian tengah yang dibina pada tika Amazon EC2. P-SaMI mengurangkan bilangan simulasi dok molekul manakala perisian tengah mempercepatkan percubaan dok menggunakan persekitaran Pengkomputeran Prestasi Tinggi (HPC) pada awan. Keputusan eksperimen menunjukkan pengurangan dalam jumlah masa berlalu percubaan dok dan kualiti model reseptor terkurang baharu yang dihasilkan dengan membuang konformasi tidak menjanjikan daripada model FFR yang diperintah oleh corak data P-SaMI.

1. Pengenalan

Eksperimen saintifik berskala besar mempunyai permintaan yang semakin meningkat untuk sumber pengkomputeran prestasi tinggi (HPC). Senario tipikal ini terdapat dalam bioinformatik, yang perlu melakukan pemodelan dan simulasi komputer pada data yang berbeza-beza daripada jujukan DNA kepada struktur protein kepada interaksi protein-ligan [1]. Banjir data, yang dijana oleh eksperimen bioinformatik ini, membayangkan bahawa penemuan teknologi adalah penting untuk memproses urutan tugasan, perisian atau perkhidmatan yang interaktif dengan cara yang tepat pada masanya.

Reka bentuk ubat rasional (RDD) [2] merupakan salah satu aplikasi perubatan terawal bioinformatik [1]. RDD bertujuan untuk mengubah sebatian aktif biologi kepada ubat yang sesuai [3]. Dalam silico simulasi dok molekul adalah salah satu langkah utama RDD. Ia digunakan untuk menangani penemuan kompaun, lazimnya dengan menyaring secara maya pangkalan data besar molekul organik untuk ligan diduga yang sesuai dengan tapak pengikatan [4] molekul sasaran atau reseptor (biasanya protein). Orientasi dan konformasi ligan terbaik di dalam poket pengikat dikira dari segi tenaga bebas ikatan (FEB) oleh perisian, contohnya AutoDock4.2 [5].

Untuk meniru alam semula jadi, dalam vitro dan dalam vivo, tingkah laku ligan dan reseptor, keplastikan atau fleksibilitinya harus dirawat dengan cara yang jelas [6]: reseptor kita ialah protein yang merupakan sistem yang fleksibel. Walau bagaimanapun, majoriti kaedah dok molekul merawat ligan sebagai fleksibel dan reseptor sebagai badan tegar [7]. Dalam kajian ini kita memodelkan fleksibiliti eksplisit reseptor dengan menggunakan ensemble konformasi atau syot kilat yang diperoleh daripada simulasi dinamik molekul (MD) [8] (disemak oleh [9]). Reseptor model yang terhasil dipanggil model reseptor fleksibel sepenuhnya (FFR). Oleh itu, bagi setiap konformasi dalam model FFR, simulasi dok dilaksanakan dan dianalisis [7].

Mengatur dan mengendalikan pelaksanaan dan analisis simulasi dok molekul model FFR dan ligan fleksibel bukanlah tugas yang remeh. Dimensi model FFR boleh menjadi faktor pengehad kerana bukannya melakukan simulasi dok dalam satu konformasi reseptor tegar, kita mesti menjalankan tugas ini untuk semua konformasi yang membentuk model FFR [6]. Konformasi ini boleh berbeza dalam bilangan daripada beribu-ribu hingga berjuta-juta. Oleh itu, kos pengkomputeran yang tinggi yang terlibat dalam menggunakan model FFR untuk melaksanakan saringan maya praktikal beribu-ribu atau berjuta-juta ligan mungkin menjadikannya tidak dapat dilaksanakan. Atas sebab ini, kami telah membangunkan kaedah untuk memudahkan atau mengurangkan dimensi model FFR [6, 9, 10]. Kami menamakan perwakilan model FFR yang lebih mudah ini sebagai model reseptor fleksibel sepenuhnya (RFFR) terkurang. Model RFFR dicapai dengan menghapuskan redundansi dalam model FFR melalui pengelompokan set konformasinya, sekali gus menghasilkan subkumpulan, yang sepatutnya mengandungi konformasi yang paling menjanjikan [6].

Untuk menangani isu utama ini, kami mencadangkan persekitaran web berasaskan awan, yang dipanggil Aliran Kerja Docking Reseptor Fleksibel web (wFReDoW), untuk mengendalikan simulasi dok molekul model FFR dengan pantas. Sepanjang pengetahuan kami, ia merupakan persekitaran web dok pertama yang mengurangkan kedua-dua dimensi model FFR dan masa pelaksanaan dok keseluruhan menggunakan persekitaran HPC pada awan. Seni bina wFReDoW mengandungi dua lapisan utama: Pengawal Pelayan dan (perisian tengah reseptor fleksibel) FReMI. Pengawal Pelayan ialah pelayan web yang menyediakan fail input dok dan mengurangkan saiz model FFR melalui corak data berbilang contoh penyesuaian diri (P-SaMIs) [9]. FReMI mengendalikan simulasi dok molekul model FFR yang disepadukan dengan persekitaran HPC pada sumber Amazon EC2 [11].

Terdapat beberapa pendekatan yang meramalkan interaksi reseptor ligan pada persekitaran HPC menggunakan AutoDock4.2 [5]. Kebanyakan mereka menggunakan bilangan ligan untuk mengagihkan tugas di kalangan pemproses. Sebagai contoh, DOVIS 2.0 [12] menggunakan kluster HPC Linux khusus untuk melaksanakan saringan maya di mana ligan diedarkan secara seragam pada setiap CPU. VSDocker 2.0 [13] dan Mola [14] adalah contoh lain sistem sedemikian. Walaupun VSDocker 2.0 berfungsi pada kluster pengkomputeran berbilang pemproses dan stesen kerja berbilang pemproses yang dikendalikan oleh Pelayan Windows HPC, Mola menggunakan AutoDock4.2 dan AutoDock Vina untuk melaksanakan penyaringan maya molekul kecil pada kelompok pengiraan tidak khusus. Autodock4.lga.MPI [15] dan mpAD4 [16] menggunakan pendekatan lain untuk meningkatkan prestasi. Serta pelaksanaan selari dok, Autodock4.lga.MPI dan mpAD4 mengurangkan kuantiti trafik I/O rangkaian semasa memuatkan peta grid pada permulaan setiap simulasi dok. Pendekatan lain ialah AutoDockCloud [17]. Ini ialah penyaringan berdaya tinggi bagi tugasan dok selari yang menggunakan rangka kerja Hadoop sumber terbuka yang melaksanakan paradigma MapReduce untuk pengkomputeran teragih pada platform awan menggunakan AutoDock4.2 [5]. Walaupun setiap satu daripada persekitaran ini mengurangkan masa berlalu keseluruhan simulasi dok molekul, mereka hanya melakukan eksperimen dok dengan reseptor tegar. Sebaliknya, wFReDoW menggunakan teknik pengiraan baharu [6, 10, 11, 18] untuk mengurangkan masa CPU dalam simulasi dok molekul model FFR menggunakan pangkalan data awam molekul kecil, seperti ZINC [19].

Dalam kerja ini kami membentangkan seni bina wFReDoW dan pelaksanaannya. Daripada pelaksanaan wFReDoW, kami menjangkakan untuk mencari cara yang lebih baik untuk mengurangkan jumlah masa berlalu dalam simulasi dok molekul model FFR. Kami menilai keuntungan dalam prestasi dan kualiti keputusan yang dihasilkan oleh wFReDoW menggunakan model FFR kecil yang dikelompokkan oleh teknik perlombongan data, ligan daripada pangkalan data ZINC [19], parameter P-SaMI yang berbeza [10], dan persekitaran HPC yang dibina di atas Amazon EC2 [18]. Oleh itu, daripada keputusan terbaik yang diperoleh, kami menjangkakan bahawa eksperimen dok molekul masa depan, dengan ligan yang berbeza dan model FFR baharu, akan menggunakan hanya konformasi yang jauh lebih menjanjikan [6] dalam tempoh masa yang minimum.

2. Kaedah

2.1. Eksperimen Docking dengan Model FFR

Untuk melaksanakan simulasi dok molekul, kami memerlukan model reseptor, ligan dan perisian dok. Kami menggunakan sebagai reseptor enzim 2-trans-enoyl-ACP (CoA) reduktase (EC 1.3.1.9) dikenali sebagai InhA daripada Mycobacterium tuberculosis [20]. Model FFR InhA diperoleh daripada simulasi MD 3,100 ps (1 picosecond = 10 -12 saat) yang diterangkan dalam [21], dengan itu menjadikan model FFR dengan 3,100 konformasi atau syot kilat. Dalam kajian ini, bagi setiap syot kilat dalam model FFR, simulasi dok dilaksanakan dan dianalisis. Rajah 1 menggambarkan fleksibiliti reseptor.


Fleksibiliti reseptor enzim InhA daripada Mycobacterium tuberculosis [ID PDB: 1P45A]. Superposisi konformasi InhA yang berbeza, diwakili sebagai reben, di sepanjang simulasi MD. Konformasi awal simulasi ialah struktur kristal eksperimen dan diwarnakan dengan hijau. Dua konformasi atau syot kilat lain diambil daripada simulasi MD pada 1,000 ps (biru) dan 3, 000 ps (magenta). Segi empat tepat yang digariskan menyerlahkan kawasan paling fleksibel reseptor ini.

Triclosan ligan (TCL400 daripada ID PDB: 1P45A) [20] telah dilabuhkan pada model FFR. Kami memilih TCL daripada struktur kristal yang dirujuk kerana ia adalah salah satu perencat paling mudah yang dikristalkan dengan enzim InhA. Rajah 2 menggambarkan kedudukan rujukan ligan TCL400 ke dalam tapak pengikatnya (ID PDB: 1P45A) dan kedudukan ligan TCL selepas simulasi dok molekul FFR InhA-TCL.


Simulasi dok molekul.Perwakilan permukaan molekul poket pengikat reseptor enzim InhA dalam struktur kristal [PDB ID: 1P45A] diwarnakan mengikut jenis atom (karbon dan hidrogen: nitrogen kelabu muda: oksigen biru: sulfur merah: kuning). Ligan TCL (TCL400 daripada PDB ID: 1P45A) diwakili oleh model kayu. Rujukan kristalografi untuk ligan TCL berwarna oren. Ligan TCL yang dihasilkan oleh simulasi dok molekul adalah berwarna cyan.

Untuk simulasi dok, kami menggunakan pakej perisian AutoDock Tools (ADT) dan AutoDock4.2 [5]. Fail koordinat input untuk ligan dan model FFR InhA telah disediakan dengan ADT seperti berikut.

Penyediaan reseptor. Fail PDBQT untuk setiap petikan daripada model FFR dijana menggunakan caj atom separa Kollman untuk setiap jenis atom.

Penyediaan ligan fleksibel. Ligan TCL pada mulanya diletakkan di rantau ini berhampiran dengan poket pengikat proteinnya dan membenarkan dua ikatan boleh putar.

Penyediaan ligan rujukan. Ini adalah kedudukan dan orientasi ideal ligan yang dijangkakan daripada simulasi dok. Ligan rujukan TCL juga disediakan menggunakan koordinat struktur eksperimen (PDB ID: 1P45A). Ia dipanggil kedudukan ligan rujukan.

Penyediaan grid. Untuk setiap syot kilat fail parameter grid (GPF) dihasilkan dengan dimensi kotak

. Parameter lain mengekalkan nilai lalai.

Parameter dok. Dua puluh lima larian bebas algoritma genetik Lamarckian (LGA) telah dilaksanakan untuk setiap simulasi dok. Kaedah dan parameter carian LGA ialah: saiz populasi 150 individu, maksimum 250,000 penilaian tenaga dan 27,000 generasi. Parameter dok yang lain disimpan pada nilai lalai.

2.2. Mengurangkan Model Reseptor Fleksibel Sepenuhnya

Gambar model FFR yang digunakan dalam kajian ini diperoleh daripada trajektori simulasi MD bagi reseptor. Walaupun pendekatan ini dianggap terbaik untuk meniru tingkah laku semulajadi ligan dan reseptor [9], dimensi atau saiznya mungkin menjadi faktor pengehad. Selain itu, kos pengkomputeran yang tinggi yang terlibat juga boleh menjadikan pemeriksaan maya praktikal model reseptor tersebut tidak dapat dilaksanakan. Atas sebab-sebab ini, kaedah baru telah dibangunkan untuk membantu dalam penyederhanaan atau pengurangan model FFR kepada model RFFR. Rasional utama pendekatan ini adalah untuk menghapuskan redundansi dalam model FFR melalui pengelompokan konformasi konstituennya [6]. Ini diikuti dengan penjanaan subkumpulan dengan konformasi yang paling menjanjikan melalui corak data P-SaMI [10].

2.2.1. Kelompok Syot Kilat daripada Model FFR

Kelompok syot kilat yang digunakan dalam kajian ini dijana menggunakan algoritma pengelompokan dengan fungsi persamaan berbeza yang dibangunkan oleh [6, 7]. Pada asasnya, dalam pendekatan ini, model FFR kami digunakan untuk mencari corak yang mentakrifkan kelompok syot kilat dengan ciri yang serupa. Dalam pengertian ini, jika syot kilat dikaitkan dengan dok dengan FEB negatif yang ketara, untuk ligan unik, ada kemungkinan syot kilat ini akan berinteraksi dengan baik dengan ligan yang serupa dari segi struktur [6]. Akibatnya, kelompok syot kilat, yang berkaitan dengan kelas nilai FEB yang berbeza, diproses selepas menggunakan corak data P-SaMI untuk memilih konformasi reseptor dan, dengan itu, untuk mengurangkan kerumitan model FFR.

2.2.2. Corak Data P-SaMI untuk Aliran Kerja Saintifik

P-SaMI ialah akronim untuk berbilang contoh penyesuaian kendiri corak—corak data untuk aliran kerja saintifik yang dibangunkan oleh [10]. Tujuan pendekatan ini adalah untuk menentukan corak data yang mampu melakukan pemilihan konformasi yang paling menjanjikan secara dinamik daripada kelompok syot kilat yang serupa. Seperti yang ditunjukkan dalam Rajah 3, langkah pertama P-SaMI adalah untuk menangkap kumpulan syot kilat daripada [6]. Seterusnya, P-SaMI membahagikan setiap kluster kepada subkumpulan syot kilat untuk dilaksanakan secara progresif autogrid4 dan autodok4 untuk setiap konformasi yang membentuk model FFR menggunakan persekitaran HPC. Keputusan (hasil dok) ialah nilai FEB terbaik untuk setiap petikan berlabuh. Daripada keputusan ini, P-SaMI menggunakan keputusan FEB sebelumnya (kriteria penilaian) untuk menentukan status dan keutamaan subkumpulan syot kilat. Status menandakan sama ada subkumpulan syot kilat aktif (A), dimuktamadkan (F), dibuang (D) atau dengan keutamaan yang diubah (P). Keutamaan menunjukkan betapa menjanjikan syot kilat milik subkumpulan itu, pada skala 1 hingga 3 (1 adalah yang paling menjanjikan). Oleh itu, jika hasil dok subkumpulan menunjukkan nilai FEB yang boleh diterima maka subkumpulan itu dikreditkan dengan keutamaan yang tinggi. Sebaliknya, subkumpulan dikurangkan keutamaannya atau statusnya ditukar kepada "D" dan dibuang, melainkan semua syot kilat subkumpulan itu telah diproses (status "F").


Model pelaksanaan corak data P-SaMI. Syot kilat berkelompok dibahagikan kepada subkumpulan menggunakan corak data P-SaMI. Simulasi dok molekul dilaksanakan pada subkumpulan ini. P-SaMI menganalisis hasil dok, berdasarkan beberapa kriteria penilaian, untuk memilih konformasi yang menjanjikan daripada subkumpulan syot kilat.

Sebab untuk menggunakan P-SaMI dalam kerja ini adalah untuk menggunakan sepenuhnya corak datanya untuk menghapuskan pelaksanaan menyeluruh simulasi dok model FFR tanpa menjejaskan kualitinya [6, 10] daripada kelompok syot kilat yang dihasilkan oleh [6, 7] ] sebagai fail input. Dalam pengertian ini, kami menggunakan persekitaran pelayan web, di sini dipanggil pengawal pelayan, untuk melaksanakan corak data P-SaMI dan perisian tengah (FReMI) untuk mengendalikan syot kilat yang menjanjikan dan menghantarnya ke persekitaran HPC di awan untuk melaksanakan molekul simulasi dok.

2.3. HPC pada Amazon EC2 Instances

Pengkomputeran awan adalah trend baru yang menjanjikan untuk menyampaikan perkhidmatan teknologi maklumat sebagai utiliti pengkomputeran [22]. Perkhidmatan awan komersial boleh memainkan peranan yang menarik dalam penemuan saintifik kerana ia menyediakan kuasa komputer atas permintaan melalui internet, bukannya beberapa komputer komoditi yang disambungkan oleh rangkaian yang pantas. Persekitaran HPC maya kami di Amazon EC2 telah dibina menggunakan GCC 4.6.2 dan MPICH2 berdasarkan paradigma tuan-hamba [23]. Ia mengandungi 5 CPU Tinggi yang lebih besar (c1.xlarge) Contoh Amazon EC2, setiap satu dilengkapi dengan 8 teras dengan 2.5 unit komputer EC2, 7 GB RAM dan 1,690 GB storan tika tempatan. Penarafan satu unit komputer EC2 ialah unit kapasiti CPU yang sepadan dengan 1.0–1.2 GHZ 2007 Opteron atau pemproses Xeon 2007.

Rajah 4 menunjukkan kumpulan kluster yang dicipta pada kejadian Amazon EC2 di mana direktori fail yang sama dikongsi oleh sistem fail rangkaian (NFS) antara kejadian untuk menyimpan semua fail input dan output yang digunakan semasa masa jalankan FReMI. Dalam kumpulan ini, semua data disimpan pada Elastic Block Store (EBS) mesin induk dan semua kejadian mempunyai kebenaran untuk membaca dan menulis dalam direktori kongsi ini, walaupun jika tika hamba ditamatkan. Walau bagaimanapun, jika tika induk ditamatkan, semua data akan hilang kerana volum EBS tika induk ditamatkan pada masa yang sama. Oleh itu, kod sumber S3cmd (S3cmd ialah projek sumber terbuka yang tersedia di bawah GNU Public License v2 dan percuma untuk kegunaan komersial dan peribadi. Ia adalah alat baris arahan untuk memuat naik, mendapatkan dan mengurus data dalam S3 Amazon. S3cmd tersedia di http ://s3tools.org/s3cmd) dan pakej digunakan untuk meniru maklumat paling penting daripada Amazon EC2 kepada baldi Amazon S3 (baldi ialah ruang untuk menyimpan data pada Amazon S3. Setiap baldi dikenal pasti dengan nama baldi yang unik).


Persekitaran kluster MPI dicipta untuk melaksanakan FReMI pada Amazon Ec2. Stesen jauh mewakili mesin di luar Amazon EC2 yang digunakan untuk menyambungkan contoh induk MPI melalui sambungan SSH. Contoh induk MPI ialah mesin yang menguruskan hamba MPI semasa pelaksanaan FReMI. Ia juga memegang kod sumber FReMI dan fail I/O yang disimpan di Amazon Elastic Block Store (EBS). Semua kejadian boleh mengakses EBS melalui NFS.

3. Keputusan

Hasilnya bertujuan untuk menunjukkan seni bina wFReDoW dan mengesahkan pelaksanaannya menggunakan kumpulan syot kilat model FFR tertentu terhadap ligan tunggal. Daripada keputusan ini, kami cuba membuktikan bahawa persekitaran web berasaskan awan yang dicadangkan boleh menjadi lebih berkesan daripada kaedah lain yang digunakan untuk mengautomasikan simulasi dok molekul dengan reseptor fleksibel, seperti [24]. Dalam pengertian ini kami membahagikan hasil kami kepada tiga bahagian. Pertama, kami membentangkan seni bina konseptual wFReDoW untuk mendapatkan pemahaman yang lebih baik tentang operasinya. Seterusnya, satu set eksperimen diperiksa untuk menemui prestasi FReMI terbaik pada Amazon EC2 Cloud. Akhir sekali, model RFFR baharu dipersembahkan melalui pelaksanaan wFReDoW.

3.1. Senibina Konseptual wFReDoW

Bahagian ini membentangkan seni bina konseptual wFReDoW (Rajah 5) yang dibangunkan untuk mempercepatkan simulasi dok molekul untuk kelompok konformasi model FFR. wFReDoW mengandungi dua lapisan utama: Pengawal Pelayan dan FReMI. Pengawal Pelayan ialah aliran kerja web berdasarkan corak data P-SaMI yang menyediakan fail input Autodock dan memilih syot kilat yang menjanjikan melalui syot kilat dok. FReMI ialah perisian tengah berdasarkan paradigma pengkomputeran many-task (MTC) [25] yang mengendalikan simulasi dok throughput tinggi menggunakan persekitaran HPC yang dibina pada tika Amazon EC2. Dalam kajian kami, MTC digunakan untuk menangani masalah melaksanakan pelbagai tugas selari dalam berbilang pemproses. Rajah 5 memperincikan seni bina konseptual wFReDoW dengan lapisan dan interaksinya. Komponen wFReDoW diedarkan dalam tiga lapisan: Klien, Pengawal Pelayan dan FReMI.


seni bina konseptual wFReDoW dan interaksinya. Dua kotak kiri menunjukkan tugas yang akan dilaksanakan oleh pengguna pada pelayan web, yang menghantar dan menerima mesej ke dan dari FReMI di Amazon EC2. Persekitaran HPC mewakili kelompok MPI di Amazon EC2.
3.1.1. Lapisan Pelanggan

Lapisan Pelanggan ialah antara muka web yang digunakan oleh saintis untuk mengkonfigurasi persekitaran. Ia memulakan pelaksanaan wFReDoW dan menganalisis maklumat tentang simulasi dok molekul. Pelanggan terdiri daripada tiga komponen utama: (i) Persediaan komponen menyediakan keseluruhan persekitaran sebelum memulakan pelaksanaan (ii) Laksanakan memulakan pelaksanaan wFReDoW dan (iii) Menganalisis menunjukkan asal bagi setiap eksperimen dok. Komunikasi antara Pengawal Pelanggan dan Pelayan dilakukan melalui Ajax (http://api.jquery.com/category/ajax/).

3.1.2. Pengawal Pelayan

Pengawal Pelayan ialah persekitaran aliran kerja web yang membantu dalam pengurangan masa pelaksanaan simulasi dok molekul model FFR melalui corak data P-SaMI. Ia dibina menggunakan rangka kerja web FLASK 0.8 (http://flask.pocoo.org/) dan perpustakaan Python 2.6.6. Peranan pusat Pengawal Pelayan adalah untuk memilih subkumpulan syot kilat yang menjanjikan daripada model FFR berdasarkan corak data P-SaMI [10]. Ia mengandungi tiga komponen: Konfigurasi, Pelabuhan Molekul, dan P-SaMI. The Konfigurasi komponen hanya menyimpan data yang dihantar daripada Persediaan (Lapisan pelanggan).

The Pelabuhan Molekul komponen menguruskan fail input P-SaMI dan melaksanakan langkah pradok yang diperlukan untuk AutoDock4.2 [5]. Pertama, yang Sediakan Fail aktiviti membaca kumpulan syot kilat yang dihasilkan oleh [6] dan menyimpannya dalam Pangkalan data. Seterusnya, yang Sediakan Reseptor dan Sediakan Ligand aktiviti menjana fail PDBQT yang digunakan sebagai fail input untuk autogrid4 dan autodok4. Akhirnya, yang Sediakan Grid dan Sediakan Docking aktiviti mencipta fail input mengikut autogrid4 dan autodok4 parameter, masing-masing.

Selepas semua fail telah disediakan oleh pihak Pelabuhan Molekul komponen, yang P-SaMI komponen dipanggil. Ini mengenal pasti konformasi yang paling menjanjikan menggunakan corak data P-SaMI [10] daripada kumpulan syot kilat yang berbeza bagi model FFR yang dikenal pasti oleh [6]. The P-SaMI komponen mengandungi tiga aktiviti: Pemuat naik, Penganalisis Data, dan Asal.

Pemuat naik memulakan pelaksanaan FReMI dan menjana subkumpulan daripada pengelompokan syot kilat [6]. Subkumpulan ini disimpan dalam struktur fail XML, dipanggil fail kawalan wFReDoW (Rajah 6). Fail kawalan wFReDoW dihantar ke Penghurai/Pemindahan komponen (dalam FReMI) sebelum memulakan pelaksanaan wFReDoW. Ia mengandungi tiga teg akar yang diterangkan sebagai: eksperimen, subkumpulan, dan syot kilat. Pengenalpastian percubaan (id) ialah nombor unik yang dicipta untuk setiap percubaan dok baharu dengan model FFR dan satu ligan. The subkumpulan tag menentukan maklumat subkumpulan. The stat dan keutamaan teg menunjukkan betapa menjanjikan syot kilat milik subkumpulan itu, mengikut peraturan corak data P-SaMI. The syot kilat tag mengandungi maklumat tentang syot kilat dan digunakan oleh FReMI untuk mengawal syot kilat berlabuh.


Serpihan fail kawalan wFReDoW. Fail itu meletakkan subkumpulan syot kilat yang dijana oleh teknik perlombongan data dan parameternya mengikut P-SaMI.

The Penganalisis Data aktiviti meneliti hasil dok, yang dihantar daripada FReMI oleh HTTP Post, berdasarkan corak data P-SaMI. Hasil daripada analisis ini ialah set parameter yang disimpan dalam fail kemas kini wFReDoW (Rajah 7). Oleh itu, untuk memastikan FReMI dikemas kini dengan keputusan P-SaMI, Penganalisis Data menghantar fail kemas kini wFReDoW ke FReMI oleh protokol SFTP setiap kali P-SaMI mengubah suai keutamaan dan/atau status subkumpulan syot kilat.


(a)
(b)
(a)
(b) Contoh fail kemas kini wFReDoW. (a) Fail XML di mana keutamaan daripada subkumpulan G1L1 ditukar kepada 1. (b) Fail XML di mana status daripada subkumpulan G2L2 ditukar kepada D.

The Pangkalan data komponen adalah berdasarkan pangkalan data FReDD [26], dibina dengan PostgreSQL 4.2 (http://www.postgresql.org/docs/9.0/interactive/), dan digunakan untuk menyediakan asal tentang data yang dijana oleh Pengawal Pelayan. The Asal aktiviti menyimpan data Pengawal Pelayan dalam komponen Pangkalan Data. Oleh itu, saintis itu boleh mengikuti pelaksanaan wFReDoW bila-bila masa dia perlukan.

3.1.3. FReMI: Perisian Tengah Reseptor Fleksibel

FReMI ialah perisian tengah di Amazon Cloud [18] yang mengendalikan banyak tugas untuk melaksanakan, secara selari, simulasi dok molekul subkumpulan konformasi model FFR. Ia juga menyediakan kebolehoperasian antara lapisan Pengawal Pelayan dan persekitaran HPC maya yang dibina menggunakan tika Amazon EC2. FReMI mengandungi lima komponen berbeza: Mulakan, Repositori wFReDoW, Ruang kerja FReMI, pelaksanaan FReMI, dan Persekitaran HPC. Mulakan memulakan pelaksanaan FReMI dan Persekitaran HPC menandakan kelompok maya pada kejadian EC2. Komponen selebihnya diterangkan di bawah.

The Repositori wFReDoW mengandungi Input/Kemas kini Fail repositori. Repositori ini menyimpan semua fail yang dihantar oleh lapisan Pengawal Pelayan menggunakan protokol rangkaian SFTP. Ia terdiri daripada fail pradok, fail kawalan wFReDoW (Rajah 6) dan fail kemas kini wFReDoW yang berbeza (Rajah 7).

The Ruang Kerja FReMI komponen mewakili struktur direktori yang digunakan untuk menyimpan volum besar data yang dimanipulasi untuk melaksanakan simulasi dok molekul. Fail input yang diletakkan di dalam Repositori wFReDoW dipindahkan, semasa masa pelaksanaan FReMI, ke ruang kerjanya oleh Penghurai/Pemindahan aktiviti dalam Perlaksanaan FReMI set aktiviti.

The Perlaksanaan FReMI komponen—enjin FReMI—mengandungi setiap prosedur yang digunakan untuk menjalankan perisian tengah. Kod sumbernya ditulis dalam bahasa pengaturcaraan C dan perpustakaannya. Rajah 8 menunjukkan kawalan aliran data diikuti oleh Perlaksanaan FReMI komponen. Pada asasnya, Perlaksanaan FReMI mengenal pasti syot kilat aktif (status A), memasukkannya dalam baris gilir tugas seimbang yang dibuat berdasarkan keutamaan subkumpulan yang muncul daripada corak data P-SaMI dan menyerahkan baris gilir ini ke dalam persekitaran HPC. Tindakan ini dilakukan melalui tiga aktiviti: Buat Baris Gilir, Penghurai/Pemindahan, dan Penghantar/Pantau.


Skim pelaksanaan pelaksanaan FReMI. The Buat Baris Gilir, Penghurai/Pemindahan, dan Pemantau Penghantar komponen termasuk fungsi utama yang dilaksanakan oleh FReMI. The Penghantar/Pantau komponen berurusan dengan paradigma tuan-hamba pada kejadian EC2.

The Buat Baris Gilir aktiviti menghasilkan beberapa barisan tugasan seimbang semasa masa jalankan FReMI berdasarkan maklumat daripada fail kawalan wFReDoW (Rajah 6). Mengikut keutamaan, aktiviti ini menggunakan fungsi heuristik untuk menentukan bilangan pemproses daripada persekitaran HPC yang akan diperuntukkan untuk setiap subkumpulan syot kilat. Tambahan pula, ia menggunakan status untuk mengenal pasti sama ada syot kilat perlu diproses atau tidak. Untuk tujuan ini, Buat Baris Gilir aktiviti mula mengira bilangan maksimum syot kilat yang boleh disokong oleh setiap baris gilir. Oleh itu, jumlah nod atau mesin yang diperuntukkan (

) dan jumlah tugasan selari (

) dilaksanakan setiap nod digunakan untuk mendapatkan panjang baris gilir (

), dengan persamaan berikut:

Selepas itu, jumlah syot kilat setiap subkumpulan dikira untuk mencapai pengagihan tugas yang seimbang dalam setiap baris gilir yang dibuat. Baris gilir seimbang mengandungi satu atau lebih syot kilat kumpulan aktif. Daripada keutamaan subkumpulan, adalah mungkin untuk menentukan peratusan syot kilat untuk disertakan dalam baris gilir. Oleh itu, subkumpulan dengan keutamaan yang lebih tinggi akan beratur sebelum mereka yang mempunyai keutamaan yang lebih rendah. Persamaan (2) digunakan untuk mengira jumlah syot kilat untuk baris gilir seimbang:

ialah jumlah syot kilat subkumpulan yang diletakkan dalam baris gilir. ialah panjang baris gilir dari (1). ialah keutamaan subkumpulan , dan merupakan jumlah keutamaan semua subkumpulan. Daripada (2) satu barisan tugasan seimbang (

) dicipta dengan persamaan berikut:

The Penghurai/Pemindahan aktiviti mengendalikan dan mengatur fail yang dihantar oleh lapisan Pengawal Pelayan ke ruang kerjanya pada FReMI. Ia mempunyai tiga fungsi: untuk memindahkan semua fail yang diterima daripada Pengawal Pelayan ke ruang kerja FReMI melalui memindahkan fail fungsi (lihat Rajah 8) untuk melakukan penghuraian pada fail pradok untuk mengenali struktur direktori fail FReMI dan untuk mengemas kini parameter subkumpulan syot kilat, apabila perlu, menggunakan dapatkan fail fungsi. Tujuan aktiviti terakhir ini adalah untuk mengekalkan kemas kini FReMI dengan lapisan Pengawal Pelayan.

Fungsi daripada Penghantar/Pantau aktiviti, seperti yang ditunjukkan dalam Rajah 8, digunakan untuk mengagihkan tugas di kalangan pemproses/teras daripada kluster komputer maya di EC2 Amazon [18] berdasarkan paradigma tuan-hamba [23]. Fungsi Hamba hanya menjalankan tugas semasa Fungsi Induk, selain daripada menjalankan tugas, juga melaksanakan dua fungsi lain: mengagihkan tugas, yang diaktifkan apabila nod/mesin meminta lebih banyak kerja dan meminta giliran, yang diaktifkan apabila baris gilir tugasan kosong. Tambahan pula, untuk memanfaatkan pelbagai pemprosesan setiap mesin maya, kami menggunakan model pengaturcaraan selari hibrid [27]. Model ini menghantar beg tugas di antara nod melalui MPI dan ia berkongsi tugas di dalam setiap nod dengan penyelarasan OpenMP.

3.2. Pelaksanaan FReMI-Sahaja pada Kluster MPI Amazon EC2

Tujuan melaksanakan set eksperimen ini adalah untuk mendapatkan prestasi MPI/OpenMP terbaik dalam persekitaran HPC pada Cloud, yang mengurangkan jumlah masa berlalu dalam eksperimen dok molekul, untuk menjadi rujukan kepada eksperimen wFReDoW. Atas sebab ini, kami telah memproses ligan TCL (TCL400 daripada PDB ID: 1P45A) dengan dua ikatan boleh putar terhadap kesemua 3,100 syot kilat yang membentuk model FFR menggunakan pelaksanaan FReMI sahaja. Persekitaran HPC telah dilaksanakan pada skala 1 hingga 8 kejadian EC2. Bilangan tugasan yang dilaksanakan bagi setiap kejadian ialah 32 (daripada (1): ), dan saiz baris gilir tugasan seimbang berjulat mengikut bilangan kejadian yang digunakan. Prestasi setiap eksperimen FReMI sahaja berbanding bilangan teras yang digunakan ditunjukkan dalam Rajah 9.


Prestasi pelaksanaan FReMI sahaja pada Amazon EC2 ditentukan untuk 3,100 tugas dok yang dijalankan pada skala 1 hingga 8 tika EC2.

Keuntungan prestasi yang diperoleh menggunakan kluster MPI/OpenMP maya pada Amazon EC2 adalah besar jika dibandingkan dengan versi bersiri. Kami mendapati bahawa versi bersiri, yang dilakukan menggunakan hanya satu teras daripada contoh EC2, mengambil masa kira-kira 4 hari untuk melaksanakan kesemua 3,100 syot kilat daripada model FFR, dan pelaksanaan selarinya berkurangan kali ini sebanyak lebih 92% untuk skala teras yang diperiksa. . Walaupun masa keseluruhan pelaksanaan selari telah dikurangkan dengan ketara, kami juga menilai kelajuan dan kecekapan dalam persekitaran HPC maya untuk memanfaatkan lebih lanjut setiap teras yang berskala semasa pelaksanaan wFReDoW.

Pelaksanaan FReMI sahaja tidak dapat memanfaatkan lebih daripada 48 teras kerana kecekapannya hanya berjulat dari 22% hingga 29% (lihat Rajah 9). Sebaliknya, teras digunakan dengan baik semasa pelaksanaan apabila kami menggunakan kurang daripada 40. Seperti yang dapat dilihat, kecekapan pelaksanaan FReMI sahaja yang terbaik (iaitu, 42%) dicapai menggunakan 32 dan 40 teras daripada persekitaran HPC maya. Walau bagaimanapun, keseluruhan masa pelaksanaan yang dihabiskan di antara mereka ialah 7 jam dan 28 minit untuk 32 teras berbanding 5 jam dan 47 minit untuk 40 teras. Akibat daripada penilaian ini, konfigurasi FReMI sahaja terbaik yang terdapat dalam set percubaan ini ialah 5 tikar Amazon EC2 c1.xlarge dengan 8 teras setiap satu. Perlu dinyatakan bahawa konfigurasi ini dapat mengurangkan jumlah masa percubaan dok (iaitu, 5 jam dan 47 minit) kira-kira 94% daripada masa pelaksanaan bersiri rujukannya, yang mengambil masa 90 jam dan 47 minit.

3.3. Pelaksanaan wFReDoW pada Kluster MPI Amazon EC2

Matlamat utama set eksperimen ini adalah untuk menunjukkan peningkatan prestasi dalam simulasi dok molekul model FFR dan model fleksibel baharu yang dihasilkan menggunakan wFReDoW. Eksperimen wFReDoW telah dijalankan menggunakan 3,100 syot kilat daripada model FFR InhA, yang dikelompokkan mengikut fungsi persamaan [6], dan ligan TCL (TCL400 daripada ID PDB: 1P45A) dengan dua ikatan boleh putar. Kami hanya menggunakan model FFR dan ligan tunggal untuk menilai wFReDoW kerana matlamat kami adalah untuk menganalisis keuntungan prestasi dalam eksperimen dok model FFR dengan menyiasat cara terbaik untuk menyelaras, dalam satu persekitaran unik, semua teknik pengiraan, seperti data perlombongan [6], corak data untuk aliran kerja saintifik [10], pengkomputeran awan [18], program selari, pelayan web dan perisian tengah FReMI. Pelbagai pendekatan teknologi ini mengandungi ciri dan had khusus mereka yang harus ditangani untuk mendapatkan pelaksanaan wFReDoW yang cekap, mengelakkan komunikasi kesalahan, overhed dan isu kemalasan. Oleh itu, daripada hasil yang terbaik, kami menjangkakan bahawa pelaksanaan wFReDoW pada masa hadapan boleh membenarkan penggunaan praktikal model reseptor yang fleksibel sepenuhnya bermain dalam penyaringan maya beribu-ribu atau berjuta-juta sebatian, yang terdapat dalam perpustakaan struktur kimia maya [3], seperti pangkalan data ZINC [ 19].

Mengikut corak data P-SaMI, analisis bermula selepas peratusan syot kilat didokkan. Dalam eksperimen ini, kami ingin mengetahui bilangan syot kilat yang dibuang dan kualiti model RFFR yang dihasilkan untuk setiap pengelompokan apabila corak data P-SaMI mula dinilai selepas 30%, 40%, 50%, 70%, dan 100% daripada syot kilat berlabuh. Apabila 100% syot kilat didok P-SaMI tidak menganalisis hasil dok. Oleh itu, kami melakukan lima puluh jenis eksperimen dok yang berbeza—satu konfigurasi P-SaMI untuk setiap pengelompokan syot kilat. Dalam pengertian ini, Pengawal Pelayan menyediakan tiga fail kawalan wFReDoW yang berbeza—satu untuk setiap kumpulan syot kilat yang dijana oleh [6]—dan empat konfigurasi P-SaMI berbeza mengikut peratusan yang disebutkan di atas.

Rajah 10 meringkaskan jumlah masa pelaksanaan dan bilangan syot kilat yang dilabuhkan dan dibuang untuk setiap percubaan wFReDoW. Dalam Rajah ini, setiap graf mewakili keputusan wFReDoW yang diperoleh dengan menjalankan konfigurasi P-SaMI untuk setiap pengelompokan syot kilat, yang diwakili oleh pengelompokan 01, 02 dan 03. Setiap pengelompokan mengandungi 3,100 syot kilat daripada model FFR, yang dikumpulkan daripada 4 hingga 6 gugusan bergantung pada fungsi persamaan yang digunakan oleh [6]. Jumlah pelaksanaan masa untuk setiap percubaan (satu pengelompokan untuk satu konfigurasi P-SaMI) dikira dari saat penyediaan fail kawalan wFReDoW (dalam Pengawal Pelayan) bermula, sehingga hasil dok terakhir datang dalam Pengawal Pelayan.


(a)
(b)
(c)
(a)
(b)
(c) Keputusan percubaan wFReDoW menggunakan konfigurasi P-SaMI yang berbeza untuk setiap kumpulan syot kilat. Syot kilat berlabuh (bar biru) ialah contoh model RFFR. (a) keputusan wFReDoW untuk clustering 01. (b) wFReDoW results for clustering 02. (c) wFReDoW results for clustering 03.

4. Perbincangan

Dalam makalah ini, kami membentangkan peranan wFReDoW—persekitaran web berasaskan awan untuk melaksanakan simulasi dok molekul model FFR dengan lebih pantas—dan, melalui pelaksanaannya, kami menunjukkan model RFFR yang dihasilkan. Seperti yang boleh diperhatikan dalam Rajah 10, wFReDoW, serta mencipta model RFFR baharu, juga mempercepatkan eksperimen dok untuk semua kes disebabkan pengurangan eksperimen dok yang disediakan oleh corak data P-SaMI dan pelaksanaan dok serentak yang dilakukan oleh persekitaran HPC maya. Walaupun kami menggunakan model FFR kecil dan hanya ligan tunggal, adalah jelas untuk melihat bahawa wFReDoW ialah alat yang menjanjikan untuk mula melaksanakan simulasi dok molekul untuk model FFR baharu walaupun menggunakan perpustakaan besar struktur kimia untuk amalan penyaringan maya.

4.1. Prestasi wFReDoW

Menurut [10], lebih awal analisis bermula (dalam kes ini 30%), lebih besar kuantiti syot kilat yang tidak menjanjikan yang boleh dikenali dan dibuang. Rajah 10 membuktikan pernyataan ini. Keputusan wFReDoW menunjukkan bahawa apabila corak data P-SaMI memulakan analisis model FFR dengan 30% syot kilat berlabuh, bilangan syot kilat tidak menjanjikan yang dibuang adalah lebih tinggi. Selain itu, apabila peratusan ini meningkat, bilangan syot kilat dok yang tidak menjanjikan juga meningkat. Akibatnya, jika bilangan syot kilat berlabuh berkurangan, masa pelaksanaan keseluruhan juga berkurangan. Oleh itu, mengambil kira masa larian terbaik wFReDoW, iaitu 3 jam dan 54 minit (Rajah 10), keuntungan yang dicapai dengan penggunaan P-SaMI menunjukkan kejatuhan sebanyak 30% daripada pelaksanaan keseluruhan FReMI sahaja (5 jam dan 47 minit).

Satu lagi pertimbangan untuk prestasi wFReDoW ialah perisian tengah FReMI juga berjalan dalam infrastruktur kluster tempatan. Walau bagaimanapun, kecekapannya tidak sama. Kami juga melaksanakan FReMI hanya menggunakan sampel syot kilat daripada model FFR InhA pada gugusan Atlantica dengan niat untuk membandingkan keuntungan prestasi yang diperolehi antara infrastruktur kluster maya dan tempatan (kluster Atlantica terdiri daripada 10 nod yang disambungkan oleh sistem rangkaian pantas. Setiap nod mengandungi dua CPU Intel Xeon Quad-Core E5520 2.27 GHZ dengan Hyper-Threading dan 16 GB RAM, mengagregatkan 16 teras setiap nod. Kelompok disambungkan oleh rangkaian Ethernet dua gigabit, satu untuk komunikasi antara nod dan satu lagi untuk pengurusan. Kelompok Atlantica membekalkan sumber pengiraan berprestasi tinggi untuk komuniti akademik.) Kami membuat beberapa penyiasatan untuk nod dan skala teras yang berbeza, walaupun untuk bilangan tugas yang berbeza yang dilaksanakan setiap nod. Pada akhirnya kami mendapati bahawa, dalam kebanyakan kes, Amazon EC2 mengatasi kluster Atlantica. Sebagai contoh, menggunakan bilangan teras yang sama daripada Amazon EC2, iaitu, 5 nod dengan 8 teras setiap satu, untuk sampel 126 syot kilat daripada model FFR dan 16 tugasan yang dilaksanakan setiap contoh (dari (1): ), jumlah pelaksanaan masa ialah 14.94 minit untuk kluster Atlantica dan 8.78 minit untuk Amazon EC2. Mungkin, perbezaan prestasi ini adalah kerana kami menggunakan kluster Atlantica dalam mod bukan eksklusif, berkongsi kemudahan kluster. Daripada bukti ini dan kajian terdahulu kami, kami membuat kesimpulan bahawa konfigurasi EC2 memberikan dirinya sebagai penyelesaian HPC yang sangat menarik untuk melaksanakan simulasi dok molekul bagi set syot kilat yang lebih besar dan untuk ligan yang berbeza.

4.2. Kualiti Model RFFR Yang Dihasilkan

Kami menunjukkan bahawa pendekatan yang digunakan dalam kajian ini meningkatkan prestasi simulasi dok molekul model FFR dalam kebanyakan kes. Walau bagaimanapun, untuk memastikan corak data P-SaMI memilih syot kilat terbaik daripada kluster syot kilat yang digunakan, kami mengesahkan kualiti model RFFR yang dibina oleh wFReDoW. Mengenai perkara ini, kami hanya mengambil larian pertama daripada 25 larian yang dilakukan oleh AutoDock 4.2, yang mengandungi FEB terbaik setiap dok, untuk menilai model yang dihasilkan. Hasil dok terbaik bagi setiap syot kilat disusun mengikut peratusan syot kilat dengan nilai FEB terbaik dalam susunan menaik (set FEB terbaik). Kemudian, kami menyiasat sama ada syot kilat yang dipilih tergolong dalam peratusan set ini. Hasilnya, kami memperoleh data yang diterangkan dalam Jadual 1 dengan bilangan syot kilat berlabuh untuk setiap set FEB terbaik dan ketepatan masing-masing.

Berdasarkan data yang digambarkan dalam Jadual 1, kita dapat melihat bahawa wFReDoW berfungsi dengan baik untuk semua analisis P-SaMI. Ini terbukti daripada ketepatan pengiraan dalam model RFFR yang dihasilkan, yang mengandungi lebih daripada 94% syot kilatnya dalam set nilai FEB terbaik. Dalam pengelompokan 02, misalnya, apabila P-SaMI memulakan analisis dalam 70%, wFReDoW berfungsi dengan baik, memilih 308 daripada 310 yang terbaik, 612 daripada 620 yang terbaik dan 913 daripada 930 yang terbaik. Manakala, apabila P-SaMI memulakan analisis dalam 30% dalam pengelompokan yang sama, wFReDoW memilih 302 daripada 10% yang terbaik, 593 daripada 20% yang terbaik dan 871 daripada 30% yang terbaik. Walaupun wFReDoW memilih lebih sedikit syot kilat dalam konfigurasi P-SaMI yang terakhir, ia mewakili 97.42%, 95.65% dan 93.66% daripada 10%, 20% dan 30% FEB terbaik, masing-masing. Perbezaan antara pilihan wFReDoW terbaik dan terburuk adalah sedikit. Walau bagaimanapun, perbezaan antara mereka selama 1 jam dalam jumlah masa pelaksanaan wFReDoW (3 jam dan 54 minit untuk analisis P-SaMI daripada 30% berbanding 4 jam dan 57 minit untuk analisis P-SaMI daripada 70%) boleh menjadi motivasi yang baik untuk mulakan analisis P-SaMI apabila hanya 30% syot kilat telah didok. Oleh itu, ia juga merupakan peluang yang menjanjikan untuk mengurangkan masa pelaksanaan keseluruhan dan mengekalkan kualiti model yang dihasilkan.

Perlu dinyatakan bahawa wFReDoW hanya mampu membina model RFFR, tanpa kehilangan kualiti model asalnya, jika kaedah pengelompokan yang digunakan sebagai data input mengandungi pertalian tinggi antara kelompok syot kilat yang dihasilkan daripada [6]. Ini bermakna wFReDoW, dengan ciri-cirinya, sentiasa dapat meningkatkan prestasi. Walau bagaimanapun, untuk meningkatkan kualiti model RFFR yang dihasilkan, pengelompokan yang digunakan juga perlu berkualiti tinggi.

4.3. Awan Amazon

Kelebihan paling ketara sumber dikongsi ialah masa akses terjamin bagi sumber di mana sahaja anda berada dan pada bila-bila masa yang anda perlukan. Tiada persaingan atau sekatan untuk akses kepada mesin. Walau bagaimanapun, adalah perlu untuk membayar seberapa banyak nod pengkomputeran yang diperlukan, yang dicaj pada kadar setiap jam. Kadar dikira untuk sumber yang sedang digunakan dan bila contohnya, jika anda tidak memerlukan masa pengkomputeran, anda tidak perlu membayar.

5. Kesimpulan

Sumbangan utama artikel kami ialah wFReDoW, persekitaran web berasaskan awan untuk mengendalikan simulasi dok molekul model FFR dengan lebih pantas menggunakan lebih daripada satu pendekatan pengiraan secara kooperatif. wFReDoW termasuk corak data P-SaMI untuk memilih syot kilat yang menjanjikan dan perisian tengah FReMI yang menggunakan persekitaran HPC pada tika Amazon EC2 untuk mengurangkan jumlah masa berlalu percubaan dok. Keputusan menunjukkan bahawa prestasi terbaik FReMI sahaja mengurangkan masa pelaksanaan keseluruhan sebanyak kira-kira 94% dengan pelaksanaan bersiri masing-masing. Tambahan pula, wFReDoW mengurangkan jumlah masa pelaksanaan sebanyak 10–30% lagi daripada pelaksanaan terbaik FReMI sahaja tanpa menjejaskan kualiti model RFFR yang dihasilkan.

Terdapat beberapa cara yang mungkin untuk meningkatkan lagi kecekapan wFReDoW. Salah satu had terbesar untuk prestasi wFReDoW ialah lapisan Pengawal Pelayan berjalan dalam pelayan web yang terletak di luar Amazon EC2. Walaupun kami menyiarkan semua fail input dok di dalam repositori wFReDoW (di dalam lapisan FReMI) terlebih dahulu, masih terdapat sejumlah besar fail yang dipindahkan semasa pelaksanaan wFReDoW. Dalam percubaan ini, masa yang diambil untuk memindahkan fail ini adalah tidak relevan kerana model FFR kami hanya memegang 3,100 syot kilat. Walau bagaimanapun, apabila menggunakan model FFR dengan ratusan hingga ribuan syot kilat, masa akan meningkat dengan ketara. Satu cara untuk meningkatkan prestasi keseluruhan adalah dengan menggunakan contoh EC2 untuk mengehoskan lapisan Pengawal Pelayan. Ini akan mengurangkan masa yang diambil untuk memindahkan fail daripada Pengawal Pelayan kepada FReMI. Tambahan pula, lapisan Pengawal Pelayan juga boleh menghantar hanya fail input dok daripada syot kilat yang menjanjikan semasa pelaksanaan wFReDoW, menyumbang kepada pengurangan dalam jumlah fail yang dipindahkan dan dalam keseluruhan masa berlalu.

wFReDoW telah diuji dengan ligan tunggal dan model FFR yang mengandungi hanya 3,100 konformasi InhA yang dihasilkan oleh simulasi MD. Simulasi MD kini berjalan pada puluhan hingga ratusan nanosaat untuk model yang sama. Ini boleh menghasilkan model FFR dengan lebih daripada 200,000 syot kilat! wFReDoW harus diuji dengan model sedemikian. Di samping itu, adalah menarik untuk menggunakan ligan lain melalui penyiasatan pangkalan data awam molekul kecil, seperti ZINC [19].

Konflik Kepentingan

Penulis mengisytiharkan tiada konflik kepentingan.

Ucapan terima kasih

Penulis mengucapkan terima kasih kepada pengulas atas komen dan cadangan mereka. Kerja ini sebahagiannya disokong oleh geran (305984/2012-8 dan 559917/2010-4) daripada Majlis Penyelidikan dan Pembangunan Kebangsaan Brazil (CNPq) kepada Osmar Norberto de Souza dan daripada Projek EU CILMI kepada Duncan D. A. Ruiz. Osmar Norberto de Souza ialah Felo Penyelidik CNPq. Renata De Paris disokong oleh CNPq M.S. biasiswa. FAF disokong oleh HP-PROFACC M.S. biasiswa.

Rujukan

  1. N. M. Luscombe, D. Greenbaum, dan M. Gerstein, “Apakah itu bioinformatik? Takrif yang dicadangkan dan gambaran keseluruhan bidang,” Kaedah Maklumat dalam Perubatan, jld. 40, tidak. 4, ms. 346–358, 2001. Lihat di: Google Scholar
  2. I. D. Kuntz, "Strategi berasaskan struktur untuk reka bentuk dan penemuan ubat," Sains, jld. 257, No. 5073, hlm. 1078–1082, 1992. Lihat di: Google Scholar
  3. I. M. Kapetanovic, "Penemuan dan pembangunan dadah berbantukan komputer (CADDD): dalam pendekatan silico-chemico-biological," Interaksi Kimia-Biologi, jld. 171, tidak. 2, ms 165–176, 2008. Lihat di: Tapak Penerbit | Google Scholar
  4. B. Q. Wei, L. H. Weaver, A. M. Ferrari, B. W. Matthews, dan B. K. Shoichet, "Menguji algoritma dok reseptor fleksibel dalam tapak pengikat model," Jurnal Biologi Molekul, jld. 337, no. 5, ms 1161–1182, 2004. Lihat di: Tapak Penerbit | Google Scholar
  5. G. M. Morris, R. Huey, W. Lindstrom et al., "Berita dan kemas kini perisian AutoDock4 dan AutoDockTools4: dok automatik dengan fleksibiliti reseptor terpilih," Jurnal Kimia Pengiraan, jld. 30, tidak. 16, hlm. 2785–2791, 2009. Lihat di: Tapak Penerbit | Google Scholar
  6. K. S. Machado, A. T. Winck, D. D. A. Ruiz, dan O. Norberto de Souza, "Perlombongan eksperimen dok reseptor fleksibel untuk memilih syot kilat reseptor protein yang menjanjikan," BMC Genomics, jld. 11, tambahan 5, artikel S6, 2010. Lihat di: Tapak Penerbit | Google Scholar
  7. K. S. Machado, A. T. Wick, D. D. A. Ruiz, dan O. Norberto de Souza, "Melombong data dok molekul reseptor fleksibel," Ulasan Antara Disiplin Wiley: Perlombongan Data dan Penemuan Pengetahuan, jld. 1, tidak. 6, ms 532–541, 2011. Lihat di: Tapak Penerbit | Google Scholar
  8. J. H. Lin, A. L. Perryman, J. R. Schames, dan J. A. McCammon, "Kaedah kompleks santai: menampung fleksibiliti reseptor untuk reka bentuk ubat dengan skema pemarkahan yang lebih baik," Biopolimer, jld. 68, tidak. 1, ms. 47–62, 2003. Lihat di: Tapak Penerbit | Google Scholar
  9. H. Alonso, A. A. Bliznyuk, dan J. E. Gready, "Menggabungkan dok dan simulasi dinamik molekul dalam reka bentuk dadah," Ulasan Penyelidikan Perubatan, jld. 26, ms. 531–568, 2006. Lihat di: Google Scholar
  10. P. H࿋ler, P-SaMI: menyesuaikan diri berbilang contoh𠅊 corak data kepada aliran kerja saintifik (dalam bahasa portugis: P-SaMI: padrão de múltiplas instâncias autoadaptáveis—um padrão de dados para aliran kerja cientໟicos) [Ph.D. tesis], PPGCC-PUCRS, Porto Alegre, Brasil, 2010.
  11. R. De Paris, F. A. Frantz, O. Norberto de Souza, dan D. D. A.Ruiz, "Sebuah seni bina pengkomputeran tugas yang berkonsepkan untuk melaksanakan simulasi dok molekul bagi model reseptor yang fleksibel sepenuhnya," Kemajuan dalam Bioinformatik dan Biologi Pengiraan, jld. 6832, ms. 75–78, 2011. Lihat di: Google Scholar
  12. X. Jiang, K. Kumar, X. Hu, A. Wallqvist, dan J. Reifman, "DOVIS 2.0: alat penyaringan maya selari yang cekap dan mudah digunakan berdasarkan AutoDock 4.0," Jurnal Pusat Kimia, jld. 2, artikel 18, 2008. Lihat di: Tapak Penerbit | Google Scholar
  13. N. D. Prakhov, A. L. Chernorudskiy, dan M. R. Gainullin, "VSDocker: alat untuk saringan maya throughput tinggi selari menggunakan AutoDock pada kelompok komputer berasaskan Windows," Bioinformatik, jld. 26, tidak. 10, ms. 1374–1375, 2010. Lihat di: Tapak Penerbit | Google Scholar
  14. R. M. V. Abreu, H. J. C. Froufe, M. J. R. P. Queiroz, dan I. C. F. R. Ferreira, "MOLA: sistem konfigurasi kendiri boleh boot untuk penyaringan maya menggunakan AutoDock4/Vina pada kelompok komputer," Jurnal Kimoformatik, jld. 2, tidak. 1, artikel 10, 2010. Lihat di: Tapak Penerbit | Google Scholar
  15. B. Collignon, R. Schulz, J. C. Smith, dan J. Baudry, "Pelaksanaan antara muka penghantaran mesej selari tugasan Autodock4 untuk dok pangkalan data sebatian yang sangat besar menggunakan komputer super berprestasi tinggi," Jurnal Kimia Pengiraan, jld. 32, tidak. 6, ms 1202–1209, 2011. Lihat di: Tapak Penerbit | Google Scholar
  16. A. P. Norgan, P. K. Coffman, J. A. Kocher, K. J. Katzman, dan C. P. Sosa, "Pesejajaran berbilang peringkat AutoDock 4.2," Jurnal Kimoformatik, jld. 3, ms. 1–7, 2011. Lihat di: Google Scholar
  17. S. R. Ellingson dan J. Baudry, "Pelabuhan molekul maya berdaya tinggi dengan AutoDockCloud," Konkurensi dan Pengiraan: Amalan dan Pengalaman, 2012. Lihat di: Tapak Penerbit | Google Scholar
  18. "Awan pengiraan anjal Amazon," http://aws.amazon.com/ec2/. Lihat di: Google Scholar
  19. J. J. Irwin dan B. K. Shoichet, "Pangkalan data percuma ZINC𠅊 bagi sebatian yang tersedia secara komersial untuk pemeriksaan maya," Jurnal Maklumat Kimia dan Permodelan, jld. 45, tidak. 1, ms 177–182, 2005. Lihat di: Tapak Penerbit | Google Scholar
  20. M. R. Kuo, H. R. Morbidoni, D. Alland et al., "Mensasarkan tuberkulosis dan malaria melalui perencatan enoyl reductase: aktiviti kompaun dan data struktur," Jurnal Kimia Biologi, jld. 278, No. 23, ms. 20851–20859, 2003. Lihat di: Tapak Penerbit | Google Scholar
  21. E. K. Schroeder, L. A. Basso, D. S. Santos, dan O. N. De Souza, "Kajian simulasi dinamik molekul mutan jenis liar, I21V, dan I16T tahan isoniazid. Mycobacterium tuberculosis enoyl reductase (InhA) dalam kompleks dengan NADH: ke arah pemahaman NADH-InhA pertalian yang berbeza, " Jurnal Biofizik, jld. 89, tidak. 2, ms. 876–884, 2005. Lihat di: Tapak Penerbit | Google Scholar
  22. R. Buyya, C. S. Yeo, S. Venugopal, J. Broberg, dan I. Brandic, "Pengkomputeran awan dan platform IT yang muncul: visi, gembar-gembur dan realiti untuk menyampaikan pengkomputeran sebagai utiliti ke-5," Sistem Komputer Generasi Masa Depan, jld. 25, tidak. 6, ms 599–616, 2009. Lihat di: Tapak Penerbit | Google Scholar
  23. C. Banino, O. Beaumont, L. Carter, J. Ferrante, A. Legrand, dan Y. Robert, "Strategi penjadualan untuk tugasan tuan-hamba pada platform pemproses heterogen," Transaksi IEEE pada Sistem Selari dan Teragih, jld. 15, tidak. 4, ms 319–330, 2004. Lihat di: Tapak Penerbit | Google Scholar
  24. K. S. Machado, E. K. Schroeder, D. D. Ruiz, E. M. L. Cohen, dan O. Norberto de Souza, "FReDoWS: kaedah untuk mengautomasikan simulasi dok molekul dengan fleksibiliti reseptor eksplisit dan pemilihan syot kilat," BMC Genomics, jld. 12, ms. 2–13, 2011. Lihat di: Google Scholar
  25. I. Raicu, I. Foster, M. Wilde et al., "Sokongan perisian tengah untuk pengkomputeran banyak tugas," Pengkomputeran Kluster, jld. 13, ms. 291–314, 2010. Lihat di: Google Scholar
  26. A. T. Winck, K. S. MacHado, O. Norberto de Souza, dan D. D. Ruiz, "FReDD: menyokong strategi perlombongan melalui pangkalan data dok reseptor fleksibel," Kemajuan dalam Bioinformatik dan Biologi Pengiraan, jld. 5676, hlm. 143–146, 2009. Lihat di: Tapak Penerbit | Google Scholar
  27. R. Rabenseifner, G. Hager, dan G. Jost, "Pengaturcaraan selari MPI/OpenMP Hibrid pada kelompok nod SMP berbilang teras," dalam Prosiding Persidangan Antarabangsa Euromicro ke-17 mengenai Pemprosesan Selari, Teragih dan Berasaskan Rangkaian (PDP '09), hlm. 427–436, IEEE Press, Weimar, Jerman, Februari 2009. Lihat di: Tapak Penerbit | Google Scholar

Hak cipta

Hak Cipta © 2013 Renata De Paris et al. Ini ialah artikel akses terbuka yang diedarkan di bawah Lesen Atribusi Creative Commons, yang membenarkan penggunaan, pengedaran dan pengeluaran semula tanpa had dalam mana-mana medium, dengan syarat karya asal dipetik dengan betul.