Maklumat

Terlalu sedikit transkrip daripada pemasang transkrip Oases

Terlalu sedikit transkrip daripada pemasang transkrip Oases


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya cuba menjalankan Oases untuk pemasangan transkriptom. Hasilnya jauh dari jangkaan, jadi saya ingin bertanya sama ada saya menjalankannya dengan cara yang betul? Terima kasih.

Inilah arahan saya yang sedang berjalan:

skrip python/oases_pipeline.py -m 25 -M 29 -o output -d " -strand_specific -shortPaired data/reads.fa" -p " -min_trans_lgth 100 -ins_length 300"

Perpustakaan saya khusus helai dan berakhir dengan pasangan dengan panjang 67bp. Bacaannya diubah seperti:

>0(rakan_kiri_maju) ACTC... >1(kawan_kanan_terbalik_dilengkapi) TATA...

Saya mendapat beberapa transkrip, tetapi jauh daripada transkrip yang diberi penjelasan, juga jauh daripada hasil Trinity. Kontig terpanjang dari Oases ialah ~ 2500 bp (berbanding ~ 10000 bp dari manset dan ~ 6000 bp dari Trinity). Nilai N50 juga rendah. Ia hanya melaporkan 20 contigs yang meliputi keseluruhan beberapa transkrip daripada Cufflinks (keseluruhan ~4000), manakala Trinity melaporkan ~650.

Set data yang saya gunakan adalah subset dari S. pombe. Pentingkah?

Bolehkah seseorang menolong saya menunjukkan adakah sesuatu yang salah di sini?


TraRECo: penghimpun transkrip de novo berasaskan pendekatan tamak dengan pembetulan ralat baca menggunakan matriks konsensus

Cabaran semasa mengembangkan penghimpun transkrip de novo yang baik merangkumi bagaimana menangani kesilapan membaca dan pengulangan urutan. Hampir semua pemasang de novo menggunakan graf de Bruijn, dengan kerumitan berkembang secara linear dengan saiz data semasa mengalami ralat dan berulang. Walaupun seseorang dapat membetulkan kesalahan dengan memeriksa struktur topologi grafik, ini bukan tugas yang mudah apabila terdapat terlalu banyak cabang. Dua arah penyelidikan adalah untuk meningkatkan kebolehpercayaan grafik atau ketepatan pencarian jalan, dan dalam kajian ini, kami memfokuskan pada yang pertama.

Keputusan

Kami membentangkan TraRECo, pendekatan tamak untuk pemasangan de novo yang menggunakan pembinaan grafik yang menyedari kesilapan. Dalam pendekatan yang dicadangkan, kami membina contig dengan penjajaran bacaan langsung dalam margin jarak dan melakukan pencarian persimpangan untuk membina grafik penyambungan. Sambil melakukannya, garis panjang l diwakili oleh 4 × l matriks (disebut matriks konsensus), di mana setiap elemen adalah jumlah asas bacaan selaras setakat ini. Urutan perwakilan diperoleh dengan mengambil majoriti di setiap lajur matriks konsensus untuk digunakan untuk penjajaran bacaan selanjutnya. Setelah grafik penyambungan diperoleh, kami menggunakan IsoLasso untuk mencari jalan dengan kedalaman membaca yang ketara. Eksperimen menggunakan bacaan nyata dan simulasi menunjukkan bahawa kaedah ini memberikan peningkatan kepekaan dan prestasi yang agak lebih baik ketika membandingkan kepekaan dan ketepatan. Ini dicapai dengan pembinaan graf yang menyedari ralat menggunakan matriks konsensus, yang dengannya ralat yang dibaca boleh digunakan untuk pembinaan graf (jika tidak, ia mungkin akhirnya dibuang). Ini meningkatkan kualiti maklumat kedalaman liputan yang digunakan dalam langkah carian laluan seterusnya dan akhirnya kebolehpercayaan graf.

Kesimpulannya

Perhimpunan de novo digunakan terutamanya untuk meneroka isoform yang belum ditemui dan mesti boleh mewakili seberapa banyak bacaan yang mungkin dengan cara yang cekap. Dalam pengertian ini, TraRECo memberi kita alternatif yang berpotensi untuk meningkatkan kebolehpercayaan grafik walaupun beban pengiraan jauh lebih tinggi daripada yang tunggal k-meroleh pendekatan grafik de Bruijn.


Perhimpunan Transkrip De Novo

Abstrak
Latar Belakang Buah Kiwi [Actinidia deliciosa (A Chev) Liang et Ferguson] adalah pokok anggur tropis dari keluarga Actinidiaceae yang berasal dari China. Spesies ini mempunyai genom allohexaploid (daripada ibu bapa diploid dan autotetraploid) yang terkandung dalam 174 kromosom menghasilkan buah klimakterik dan berisi yang dipanggil buah kiwi. Tidak ada banyak maklumat genomik dan transkripomik mengenai spesies ini. Dalam konteks pengetahuan molekul rendah ini, matlamat utama kerja ini adalah untuk membina perhimpunan transkrip de novo khusus tisu yang menjana analisis ekspresi pembezaan antara tisu khusus ini untuk mendapatkan pangkalan data berguna baharu untuk pengetahuan yang lebih baik tentang pertumbuhan vegetatif, bunga dan buah dalam keadaan fenologi berbeza Actinidia deliciosa cv. ‘Hayward’.

Hasil Dalam kajian ini kami telah menganalisis transkripom keseluruhan yang berbeza dari tunas, daun, tunas bunga, bunga dan buah pada 4 tahap pengembangan (7,50,120 dan 160 hari setelah berbunga DAF) pada buah kiwi dengan menggunakan RNA-seq. Kami menyusun dua puluh empat perpustakaan, memperoleh 604,735,364 bacaan yang dikumpulkan menggunakan perisian Trinity. Transkrip Actinidia deliciosa de novo versi pertama mengandungi 142,025 contigs (x̅ = 1,044bp, N50 = 1,133bp). CEGMA dan BUSCO digunakan untuk penilaian kualiti pemasangan, masing-masing memperoleh hampir 90.0% (separa 35.1%) dan lebih dari 85.0% (separa 18.3%) gen yang dipelihara untuk eukariota dan tumbuhan. Anotasi dilakukan dengan pangkalan data protein BLASTx terhadap TAIR10 dan kami menjumpai perkadaran anotasi sebanyak 35.6% (50,508), meninggalkan 64,4% (91,517) dari kumpulan contig tanpa anotasi.

Kesimpulan Hasil ini mewakili transkrip rujukan untuk buah kiwi allohexaploid yang menghasilkan pangkalan data gen Actinidia deliciosa yang berkaitan dengan perkembangan daun, bunga dan buah. Oleh itu, kajian ini memberikan maklumat berharga tinggi, mengenal pasti lebih daripada 20,000 gen eksklusif termasuk semua perbandingan tisu, yang berkaitan dengan protein yang terlibat dalam proses biologi dan fungsi molekul yang berbeza. Perhimpunan transkrip dan penapisan serta penilaian metrik pemasangan, telah menunjukkan kualiti yang cukup untuk dijadikan pangkalan data dugaan spesies ini dan banyak protein terlindung yang banyak dijumpai. Berkenaan dengan transkriptom hampir 65% daripada contigs tidak sepadan dengan mana-mana protein. Oleh itu, anotasi fungsi masa hadapan akan diperlukan untuk mendapatkan pengetahuan yang lebih baik tentang pembangunan khusus tisu.


PEMILIHAN SEKSYEN DAN ANALISIS

Pilihan teknologi penjujukan dan pendekatan untuk analisis data sangat penting untuk kejayaan percubaan. Ketiga-tiga teknologi penjujukan yang disebutkan menghasilkan jumlah data berkualiti tinggi yang besar, tetapi masing-masing mempunyai aplikasi praktikal khusus. Penjujukan Illumina dan SOLiD menghasilkan set data kedalaman yang pendek tetapi tinggi. Untuk penjujukan Illumina, pengguna pada masa ini boleh memilih panjang bacaan dalam julat 36 nt hingga 150 nt yang boleh dijujukan sama ada dari satu hujung serpihan DNA (bacaan hujung tunggal) atau dari kedua-dua hujung serpihan DNA ( bacaan hujung berpasangan). Bacaan yang lebih panjang dan bacaan akhir berpasangan biasanya dipilih dalam projek pemasangan de novo, tetapi bacaan yang lebih pendek kadangkala dipilih untuk penjajaran kepada genom rujukan. Skor keyakinan untuk asas tertentu dalam urutan menurun apabila panjang bacaan bertambah, yang boleh menghalang penjajaran dan analisis hiliran. Data daripada bacaan penjujukan Illumina diwakili sebagai jujukan nukleotida sebenar dan analisis boleh diteruskan terus ke penjajaran kepada genom rujukan atau kepada pemasangan de novo.

Dalam sistem SOLiD, pengguna pada masa ini boleh memilih panjang baca 35 nt hingga 75 nt dalam sama ada format hujung tunggal atau hujung berpasangan. Sistem SOLiD menyusun dua pangkalan pada satu masa (oleh itu terdapat 16 kemungkinan kombinasi untuk ditanya), dan mana-mana pangkalan tunggal mesti disusun dua kali untuk mengenal pasti jujukan sebenar pada satu kedudukan. Kaedah ini difikirkan untuk meningkatkan pengenalpastian kesilapan penjujukan dalam analisis pasca. Walau bagaimanapun, bagi penyelidik tanpa genom rujukan, sistem pengekodan 2 asas ini adalah kelemahan, kerana jujukan yang terhasil dikodkan secara berangka dan tidak akan dapat dikenali dengan segera oleh ahli biologi. Hanya melalui analisis seterusnya perkaitan biologi bacaan jujukan SOLiD dipulihkan. Biasanya bacaan SOLiD diselaraskan dalam format dikodkan 2-basis mereka (disebut "ruang warna" format) ke genom pengekodan 2-asas untuk mengubah urutan kembali ke ruang nukleotida, tetapi tanpa genom rujukan, ia memerlukan maklumat tambahan untuk masuk akal daripada penjujukan. Penukaran langsung pembacaan penjujukan adalah mungkin tetapi tidak digalakkan kerana semua asas yang mengikuti satu kesalahan pada ruang warna akan membuat kesalahan dalam semua asas pembacaan berikutnya. Pembaca dirujuk ke tapak web pengilang untuk mendapatkan penjelasan yang lebih terperinci tentang pengekodan berganda. Sekiranya seorang penyelidik dalam sistem bukan model memilih untuk menggunakan sistem SOLiD, maka genom saudara terdekat mungkin merupakan pilihan paling langsung untuk analisis hiliran.

Taburan panjang baca sistem Illumina dan SOLiD sangat seragam, dan kebanyakan bacaan adalah panjang yang diminta oleh penyelidik. Dalam penjujukan 454 Roche, bacaan mempunyai taburan panjang jujukan yang lebih luas, dan 454 bacaan juga dikodkan dalam ruang nukleotida biasa. Kebanyakan 454 bacaan kini lebih panjang daripada 500 nt, dengan mod sekitar 700 nt dan panjang maksimum melebihi 1000 nt. Bacaan panjang bagi penjujukan 454 biasanya menghasilkan himpunan transkriptom berkualiti tinggi, tetapi set data ini adalah kedalaman yang jauh lebih rendah bagi setiap penjujukan dolar yang dibelanjakan. Analisis data bacaan pendek berkedalaman tinggi pada asasnya berbeza daripada analisis bacaan panjang mendalam rendah, dan oleh itu sumber pengiraan dan pendekatan analisis sangat berbeza bergantung pada pilihan platform. Sebahagiannya, perbezaan ini berakar pada persiapan perpustakaan.


Kaedah

Bahan tanaman

kunyit (C. sativus L.) tanaman dikumpulkan dari tanah pertanian terbuka di sebuah desa yang terletak di bandar Pampore, daerah Pulwama, Jammu dan Kashmir, India. Tisu yang berbeza, termasuk corm, tepal, daun, stigma dan stamen telah dituai daripada tumbuhan dan segera dibekukan dalam nitrogen cecair dan disimpan pada suhu -80 °C sehingga digunakan selanjutnya.

Pengasingan RNA dan penjujukan transkrip

Jumlah RNA dari tisu di atas diasingkan dalam tiga ulangan biologi menggunakan reagen TRI (Sigma Life Science, USA). Kuantiti dan kualiti total RNA ditentukan oleh spektrofotometer Nanodrop (Thermo Fisher Scientific) dan Bioanalyzer (Agilent technology, Singapura). Kemurnian total RNA diperiksa dengan mengira nisbah serapan pada 260/280 dan 260/230 dan nombor integriti RNA (RIN). Kualiti total RNA yang diasingkan dari tisu corm dan stigma tidak memenuhi standard minimum untuk urutan Illumina. Oleh itu, kami mengubah protokol standard untuk mendapatkan kualiti RNA yang lebih baik, termasuk mencuci pelet RNA dengan NaCl 5 M (2-3 kali) sebelum larut dalam air bebas RNase. Total RNA berkualiti tinggi (260/280, 1.8-2.0 260/230 & gt 2.0 RIN & gt 7.5) yang dikumpulkan dalam jumlah yang sama dari tiga ulangan biologi untuk setiap sampel digunakan untuk penjujukan transkrip menggunakan platform Illumina untuk menghasilkan 100-nt panjang berpasangan- akhir berbunyi. Untuk mendapatkan data bersih berkualiti tinggi untuk de novo pemasangan, pemeriksaan kualiti yang ketat dilakukan untuk menghilangkan bacaan berkualiti rendah dan pemangkasan penyesuai menggunakan NGS QC Toolkit dalaman kami (v2.3) 42.

De novo perhimpunan transkriptom

Pembacaan berkualiti tinggi disatukan ke dalam babi menggunakan pelbagai alat pemasangan pendek yang biasa digunakan, seperti Velvet (v1.2.01) 43, Oases (v0.2.04) 44, ABySS (v1.2.6) 45, SOAPdenovo (v1.04) 46 , CLC Genomics Workbench (v4.7.2) dan Trinity (v2012-05-18) 47. Perhimpunan transkriptom dilakukan menggunakan dua pendekatan berbeza seperti yang diterangkan sebelum ini 48 . Pada pendekatan pertama (terbaik k-mer strategi), bacaan berkualiti tinggi telah dipasang pada pelbagai k-merentang 39-99 menggunakan Velvet, Oases, ABySS dan SOAPdenovo, sedangkan perisian CLC Genomics Workbench dan Trinity digunakan pada parameter lalai. Dalam pendekatan kedua (aditif k-mer diikuti oleh TGICL), strategi dua langkah digunakan untuk pemasangan. Pertama, contig dihasilkan untuk semua k-mers oleh pemasang masing-masing telah digabungkan dan redundansi telah dialih keluar menggunakan alat CD-HIT. Seterusnya, set contig yang tidak berlebihan dipasang menggunakan suite TGICL (v2.0) 49 dengan panjang pertindihan minimum 40 dan identiti maksimum 90. Analisis kandungan GC C. sativus transkrip dilakukan menggunakan skrip perl dalaman.

Anotasi berfungsi

Untuk menetapkan fungsi putatif pada setiap transkrip C. sativus, carian kesamaan menggunakan BLASTX 50 dilakukan terhadap Arabidopsis dan proteome beras diikuti oleh pangkalan data NCBI yang tidak berlebihan dan UniRef90 dengan E-potong nilai ≤10 −5 untuk mencari padanan signifikan terbaik untuk setiap transkrip. Terma GOSlim telah diberikan kepada setiap satu C. sativus transkrip di bawah fungsi molekul, proses biologi dan kategori komponen sel dengan membandingkan urutan dengan protein Arabidopsis. Begitu juga, klasifikasi bagi C. sativus transkrip dalam kategori fungsi yang berbeza telah dilakukan menggunakan pangkalan data KOG. Pengenalpastian keluarga TF di C. sativus transkrip dilakukan berdasarkan profil model Markov tersembunyi (HMM) (diperoleh sama ada dari pangkalan data PFAM atau dihasilkan dari penjajaran domain yang dilestarikan) menggunakan kriteria yang diberikan di Pangkalan Data Faktor Transkripsi Tumbuhan (http: //plntfdb.bio.uni-potsdam .de / v3.0 /) seperti yang dijelaskan sebelumnya 21.

Pengenalpastian SSR

C. sativus transcriptome diimbas untuk kehadiran urutan berulang sederhana (SSR) menggunakan MISA (MicroSAtellite) pada parameter lalai 51. Jumlah minimum unit ulangan untuk di-nukleotida adalah enam, sedangkan untuk tri-, tetra-, penta- dan hexa-nukleotida, bilangan minimum unit ulangan lebih dari lima dalam kriteria pencarian.

Analisis ekspresi gen berbeza

Untuk menganggarkan corak ekspresi setiap transkrip dalam sampel tisu yang berbeza, bacaan berkualiti tinggi dari setiap sampel dipetakan pada pemasangan transkripom terakhir menggunakan CLC Genomics Workbench. Maksimum dua ketidakcocokan dibenarkan untuk pemetaan. Kiraan bacaan dinormalisasi dengan menghitung jumlah bacaan per kilobase per juta (RPKM) untuk setiap transkrip dalam tisu individu. Analisis ekspresi gen pembezaan dilakukan menggunakan perisian DESeq (v1.10.1) 52 berdasarkan taburan binomial negatif. A P-potongan nilai ≤ 0.05 bersama-sama dengan perubahan sekurang-kurangnya dua kali ganda telah digunakan untuk mengenal pasti ungkapan pembezaan yang ketara bagi transkrip. Peta panas yang menunjukkan corak ekspresi khusus tisu (log2 lipatan perubahan) untuk transkrip yang terlibat dalam pelbagai jalur dihasilkan melalui TIGR MultiExperiment Viewer (MeV, v4.8).

Analisis PCR masa nyata

Untuk analisis PCR masa nyata, primer khusus gen (Jadual S5) dirancang menggunakan perisian Primer Express (v3.0) (Applied Biosystems, USA). PCR masa nyata telah dijalankan dalam tiga replika biologi bebas dan tiga replika teknikal untuk setiap replika biologi setiap sampel tisu seperti yang dilaporkan sebelum ini 53 . Ubiquitin digunakan sebagai gen kawalan dalaman untuk normalisasi.

Ketersediaan data

Data jujukan yang dijana dalam kajian ini telah disimpan dalam Omnibus Ekspresi Gen di bawah nombor penyertaan GSE65103. Perhimpunan transkrip, anotasi fungsional, SSR dan data ekspresi gen telah tersedia di laman web Saffron Transcriptome (http://nipgr.res.in/mjain.html?page=saffron).


Latar belakang

Transkriptom kini boleh dikaji melalui penjujukan. Walau bagaimanapun, jika tiada genom rujukan, pemasangan de novo kekal sebagai tugas yang mencabar. Kesukaran utama pastinya datang daripada fakta bahawa urutan bacaan adalah pendek, dan urutan berulang dalam transkrip mungkin lebih panjang daripada bacaan. Isu pengulangan pendek / panjang ini tentunya tidak khusus untuk penjujukan transkrip. Ini adalah masalah lama yang telah wujud sejak algoritma pertama untuk pemasangan genom. Walaupun masalah berulang sebab dalam kedua-dua konteks adalah serupa, mereka juga mempunyai beberapa ciri yang khusus untuk setiap satu. Dalam pemasangan genom, ulangan cenderung lebih panjang dan hadir dalam lebih banyak salinan. Dalam perhimpunan transkrip, ulangan terletak dalam gen dan cenderung lebih pendek dan dalam salinan yang lebih sedikit. Walau bagaimanapun, dalam kes terakhir ini, liputan tidak boleh digunakan untuk mendiskriminasi contigs yang sepadan dengan ulangan, kerana ia boleh dalam genomik dengan menggunakan mis. Statistik A Myers [6, 7], kerana liputan gen bukan sahaja mencerminkan nombor salinannya dalam genom, tetapi juga dan kebanyakannya tahap ekspresinya. Sebilangan gen sangat dinyatakan dan oleh itu sangat dilindungi, sementara kebanyakan gen kurang dinyatakan dan oleh itu kurang dilindungi. Kekhususan sedemikian merumitkan penggunaan strategi penyelesaian ulang genom kepada konteks transkriptomi.

Pada mulanya, dianggap bahawa pengulangan tidak akan menjadi masalah utama dalam RNA-seq, kerana kebanyakannya berada di wilayah intron dan intergenik. Walau bagaimanapun, kebenarannya ialah banyak kawasan yang dianggap intergenik ditranskripsi [8] dan intron tidak selalunya telah disambung apabila mRNA dikumpul untuk dijujukan [9]. Ulangan, terutamanya elemen transposable, oleh itu sangat hadir dalam sampel sebenar dan menyebabkan masalah besar dalam pemasangan transkrip, jika tidak ditangani dengan betul.

Sebilangan besar, jika tidak, semua penghimpun transkripome membaca pendek berdasarkan pada grafik de Bruijn. Antara yang paling terkenal ialah Oases [3], Trinity [2], dan pada tahap yang lebih rendah Trans-Abyss [10] dan IDBA-tran [11]. Biasa kepada kesemuanya ialah kekurangan model yang jelas dan eksplisit untuk ulangan dalam data RNA-seq. Oleh itu, heuristik digunakan untuk mencuba dan menangani ulangan dengan cekap. Sebagai contoh, di Oases simpul pendek dianggap sesuai dengan pengulangan dan oleh itu tidak digunakan untuk menyusun gen. Mereka ditambah dalam langkah kedua, yang diharapkan menyebabkan pengulangan perkongsian gen tidak dipasang bersama. Dalam Trinity, tiada percubaan untuk menangani ulangan dengan memodelkannya secara eksplisit. Modul pertama Trinity, Inchworm, akan mencuba dan menyusun contig paling tertutup yang diharapkan sesuai dengan transkrip alternatif yang paling banyak. Kemudian ekson alternatif dilekatkan pada transkrip utama ini untuk membentuk graf penyambungan. Langkah terakhir adalah menghitung semua transkrip alternatif. Jika pengulangan hadir, liputan tinggi mereka boleh ditafsirkan sebagai pautan yang sangat jelas antara dua transkrip yang tidak berkaitan. Secara keseluruhan, transkrip yang dipasang mungkin chimeric atau disambung ke dalam banyak sub-transkrip.

Dalam kaedah yang telah kita kembangkan sebelumnya, KisSplice, yang merupakan penghimpun transkrip lokal [12], pengulangan kurang bermasalah kerana tujuannya adalah tidak menyusun transkrip panjang penuh. KisSplice sebaliknya bertujuan untuk mencari varian dalam transkriptom (SNP, indel dan splicing alternatif). Walau bagaimanapun, seperti yang kami laporkan dalam [12], KisSplice tidak dapat menangani sebahagian besar graf de Bruijn yang mengandungi subgraf yang dikaitkan dengan jujukan yang sangat berulang, cth. unsur transposable, yang dipanggil Komponen DwiSambung kompleks.

Di sini, kami mencuba dan mencapai tiga matlamat: (1) memberikan pemformalan yang jelas tentang tanggapan ulangan dengan nombor salinan yang tinggi dalam data RNA-seq, (2) menerapkannya pada pemasangan transkrip tempatan dengan memberikan cara praktikal untuk menghitung buih yang hilang kerana pengulangan seperti itu, dan (3) menerapkannya pada pemasangan transkripome global dengan menunjukkan bahawa topologi subgraf di sekitar transkrip dapat memberikan beberapa petunjuk mengenai tahap keyakinannya. Ingat bahawa kita berada dalam konteks de novo, jadi kita menganggap bahawa bukan genom rujukan/transkrip mahupun pangkalan data ulangan yang diketahui, mis. RepBase [13], ada.

Pertama, kami secara formal memperkenalkan model untuk mewakili pengulangan bilangan salinan yang tinggi dan memanfaatkan sifatnya untuk menyimpulkan bahawa subgraf yang berkaitan berulang dalam grafik de Bruijn mengandungi beberapa busur yang dapat dimampatkan. Walau bagaimanapun, kami menunjukkan bahawa masalah mengenal pasti, dalam graf de Bruijn, subgraf yang sepadan dengan ulangan mengikut pencirian tersebut adalah NP-lengkap. Oleh itu, algoritma masa polinomial tidak mungkin wujud.

Kedua, kami menunjukkan bahawa dalam kes khusus perhimpunan tempatan acara penyambungan alternatif (AS), dengan menggunakan strategi berdasarkan pencirian arka boleh mampat, kami boleh secara tersirat elakkan subgraf seperti itu. Lebih tepatnya, adalah mungkin untuk mencari struktur (iaitu gelembung) yang sesuai dengan peristiwa AS dalam grafik de Bruijn yang tidak terdapat dalam subgraf yang berkaitan dengan pengulangan (lihat Rajah 3 sebagai contoh). Walaupun ada banyak usaha dalam literatur untuk menyelesaikan pengulangan, hampir tidak ada penjelajahan tentang cara menghindarinya. Ini dijelaskan oleh fakta bahawa kebanyakan usaha dalam pemasangan menumpukan pada pemasangan genom dan transkriptom penuh, di mana mengelakkan ulangan bukanlah satu pilihan, dan prestasi pemasang boleh dikecilkan kepada sejauh mana ia menyelesaikan ulangan. Walau bagaimanapun, dalam kes kami, pengelakan berulang boleh menjadi teknik yang berkesan. Malah, fakta ini telah disahkan oleh eksperimen kami, di mana menggunakan data RNA-seq simulasi manusia, kami menunjukkan bahawa algoritma baharu meningkatkan kepekaan KisSplice dengan ketara, di samping meningkatkan ketepatannya. Kami selanjutnya membandingkan algoritma kami dengan dua pemasang transkrip yang terbaik, iaitu Trinity [2] dan Oases [3], dalam tugas khusus untuk memanggil peristiwa AS, dan kami menunjukkan bahawa algoritma kami lebih sensitif daripada kedua-dua alat, sementara juga lebih tepat. Di samping itu, keputusan kami menunjukkan bahawa kelebihan menggunakan algoritma baharu yang dicadangkan dalam kerja ini lebih jelas apabila data input mengandungi kandungan pra-mRNA yang tinggi atau peristiwa kepentingan AS berpunca daripada gen yang sangat dinyatakan. Selain itu, kami memberikan petunjuk tentang kegunaan kaedah kami pada data sebenar.

Ketiga, kami menunjukkan bahawa kaedah yang diterangkan juga boleh digunakan dalam konteks pemasangan transkriptom penuh. Kami memperkenalkan ukuran berdasarkan model yang dicadangkan untuk mengenal pasti transkrip keyakinan rendah, iaitu transkrip yang merentasi kawasan kompleks dalam Graf de Bruijn. Dalam bahagian grafik yang rumit ini dihasilkan oleh pengulangan, setiap penyusun harus memilih jalur "betul" di antara banyak yang hadir. Pilihan ini tidak mudah dan boleh menyebabkan penyelesaian yang salah (mis. Transkrip chimeric atau terpotong). Oleh itu, adalah penting untuk dapat mengenal pasti transkrip yang datang dari kawasan kompleks sedemikian untuk mengetahui bahawa penyelesaian yang dibentangkan bukanlah satu-satunya, dan tambahan pula mungkin bukan penyelesaian yang betul. Kami membandingkan ukuran kami dengan dua kaedah canggih untuk penilaian transkripome de novo, iaitu Rsem-Eval [4] dan TransRate [5], untuk tugas khusus mengenal pasti transkrip chimeric dalam kedua-dua set data sebenar dan simulasi. Kami menunjukkan bahawa ukuran kami memberikan hasil yang baik walaupun fakta bahawa ia hanya menggunakan topologi grafik, dan bukan liputan, atau membaca maklumat. Hasil yang diperoleh menunjukkan bahawa menjelajahi topologi subgraf di sekitar transkrip, maklumat yang saat ini tidak dihiraukan oleh kaedah penilaian transkrip, dapat berguna untuk menyimpulkan beberapa sifat transkrip, seperti tahap keyakinan, kualiti, kekerasan pemasangan, dll. Oleh itu, langkah kami boleh menambah baik kaedah terkini untuk penilaian transkrip de novo, kerana ia dapat menangkap ralat pemasangan yang terlepas oleh alatan ini.

Pendahuluan

Biarkan ( Sigma ) menjadi abjad ukuran tetap ( sigma ). Di sini kita selalu menganggap ( Sigma = ) . Diberi urutan (string) (s in Sigma ^ * ), biarkan |s| menunjukkan panjangnya, s[i] yang iunsur ke s, dan s[i, j] substring (s [i] s [i + 1] ldots s [j] ) untuk sebarang (1 le i & ltj le | s | ).

A k-mer ialah jujukan (s in Sigma ^k) . Diberi bilangan bulat k dan satu set S urutan setiap panjang (n ge k ), kami tentukan rentang(S, k) sebagai set semua yang berbeza k-mer yang muncul sebagai subrentetan dalam S.

Definisi 1

Diberi sekumpulan urutan (baca) (R subseteq Sigma ^ * ) dan bilangan bulat k, kita menentukan graf de Bruijn yang diarahkan (G_k (R) = (V, A) ) di mana (V = span (R, k) ) dan ((u, v) in A ) jika dan hanya jika (u [2, k] = v [1, k-1] ).

Diberi graf terarah (G = (V, A) ) dan bucu (v in V ), kami menunjukkan luar kawasan kejiranan (resp. dalam kejiranan) oleh (N ^ + (v) = ) (resp. (N ^ - (v) = )), dan itu keluar-ijazah (resp. dalam darjah oleh (d ^ + (v) = | N ^ + (v) | ) ( (d ^ - (v) = | N ^ - (v) | )). Yang mudah) jalan ( pi = s leadsto t ) masuk G adalah urutan bucu yang berbeza (s = v_0, ldots, v_l = t ) sehingga, untuk setiap (0 le i & lt l ), ((v_i, v_) ) adalah lengkok dari G. Sekiranya grafik diberi wajaran, iaitu ada fungsi (w: A rightarrow Q _ < ge 0> ) mengaitkan berat dengan setiap busur dalam grafik, maka panjang bagi laluan (pi) ialah jumlah pemberat lengkok yang dilalui, dan dilambangkan dengan (|pi |) .

Lengkok ((u,v) dalam A) dipanggil mampat jika (d ^ + (u) = 1 ) dan (d ^ - (v) = 1 ). Intuisi di sebalik definisi ini berasal dari kenyataan bahawa setiap jalan yang dilalui u juga harus melalui v. Oleh itu, adalah mungkin untuk "memampatkan" atau mengecutkan arka ini tanpa kehilangan sebarang maklumat. Perhatikan bahawa grafik de Bruijn yang dimampatkan [2, 3] yang biasa digunakan oleh penghimpun transkripik diperoleh dari grafik de Bruijn dengan menggantikan, untuk setiap busur yang dapat dimampatkan (u, v), bucu u, v oleh bucu baharu x, di mana (N ^ - (x) = N ^ - (u) ), (N ^ + (x) = N ^ + (v) ) dan label adalah gabungan dari k-mer daripada u dan juga k-merdeka v tanpa bahagian yang bertindih (lihat Rajah 1).

Contoh lengkok mampat dalam grafik de Bruijn. a Arka (CTG, TGA) adalah satu-satunya busur mampat dalam grafik de Bruijn yang diberikan ( (k = 3 )). b Graf de Bruijn mampat yang sepadan


Kesimpulannya

Dengan menggunakan pendekatan proteomik dan transkripomik bersepadu, kami telah menunjukkan perbezaan dalam proteome hati NMR jangka panjang berbanding dengan GP yang berumur pendek. Kami telah mengesahkan cara istimewa menggunakan asid lemak untuk memicu pernafasan dalam NMR, yang mencerminkan komposisi mitokondria yang berbeza. Selanjutnya, kami telah mengenal pasti tanda penuaan progresif yang muncul di hati NMR pada tahap molekul. Menariknya, kumpulan protein yang berkaitan dengan fungsi, termasuk enzim jalur detoksifikasi, turut dipengaruhi oleh penuaan pada sampel NMR dan hati manusia. Ini menggariskan hubungan langsung antara proses penuaan kedua-dua spesies ini. Masih harus ditunjukkan apakah jalan yang dipengaruhi oleh penuaan mempengaruhi status kesihatan NMR lama dan mengehadkan jangka hayatnya, seperti yang telah kita tunjukkan pada nematode C. elegans.


KEPUTUSAN

Ketepatan ramalan gen dalam transkrip rujukan

Kami menggunakan GeneMarkS-T, Prodigal, TransDecoder dan ESTscan untuk meramalkan gen pengekodan protein dalam transkrip 'lengkap' dan 'separa' dari A. thaliana, D. melanogaster, M. musculus dan S. pombe (lihat bahagian ‘Bahan dan Kaedah’). Bilangan gen yang diramalkan dalam satu set transkrip bergantung pada panjang gen minimum yang dipilih (mgl). Kami telah berubah mgl sebagai parameter ambang dari 90 hingga 480 bp (dengan 30 bp langkah). Untuk setiap set ramalan kami mengira Sn dan Sp berdasarkan anotasi transkrip dan memplot pergantungan Sn pada 1 - Sp (Rajah 2 dan 3). Dalam plot ini, yang kelihatan serupa dengan lengkung ciri pengendalian penerima (ROC), titik kanan atas diperoleh untuk mgl sama dengan 90 bp. Kami tidak menunjukkan plot untuk ESTscan kerana kami tidak dapat mencapai prestasi yang cukup tinggi (iaitu untuk tetikus kami mempunyai Sn = 0,53 dan Sp = 0,54). Kami percaya bahawa latihan kendiri akan meningkatkan prestasi ESTscan. Dengan ketiadaan pilihan sedemikian, kami terpaksa memilih salah satu model pra-takrif yang tersedia, mis. model manusia untuk analisis transkrip tetikus.

Petak kepekaan ramalan gen (Sn) sebagai fungsi kekhususan ramalan gen (1 - Sp) untuk TransDecoder, Prodigal dan GeneMarkS-T ditentukan pada set ujian transkrip rujukan 'lengkap' A. thaliana, D. melanogaster, M. musculus dan S. pombe. Kami menggunakan tiga alatan dalam kedua-dua mod buta helai dan mod termaklum (S). Untuk membina lengkung, kami menghasilkan set gen yang diramalkan dengan panjang minimum yang dikawal oleh mgl ambang (lihat teks). Sebagai mgl nilai meningkat dari 90 hingga 480 bp (dengan langkah 30 bp) nilai Sn menurun.

Plot sensitiviti ramalan gen (Sn) sebagai fungsi kekhususan ramalan gen (1 − Sp) untuk TransDecoder, Prodigal dan GeneMarkS-T ditentukan pada set ujian transkrip rujukan 'lengkap' bagi A. thaliana, D. melanogaster, M. musculus dan S. pombe. Kami menggunakan ketiga-tiga alat dalam mod strand blind dan strand inform (S). Untuk membina lengkung kami menghasilkan set gen yang diramalkan dengan panjang minimum yang dikendalikan oleh mgl ambang (lihat teks). Sebagai mgl nilai meningkat daripada 90 kepada 480 bp (dengan langkah 30 bp) nilai Sn menurun.

Sama seperti pada Gambar 2 untuk ujian pada transkrip rujukan ‘separa’ simulasi A. thaliana, D. melanogaster, M. musculus dan S. pombe. Transkrip ‘separa’ dibuat dengan memotong urutan pada kedua transkrip ‘lengkap’ 5 dan 3 ((lihat teks untuk rasional kaedah ini). Ketiga-tiga alat itu digunakan dalam mod strand blind dan strand inform (S).

Sama seperti pada Gambar 2 untuk ujian pada transkrip rujukan ‘separa’ simulasi A. thaliana, D. melanogaster, M. musculus dan S. pombe. Transkrip ‘separa’ dibuat dengan memotong urutan pada kedua transkrip ‘lengkap’ 5 dan 3 ((lihat teks untuk rasional kaedah ini). Ketiga-tiga alat itu digunakan dalam mod strand blind dan strand inform (S).

Untuk transkrip ‘lengkap’, versi strand-blind dan strand-khas GeneMarkS-T menunjukkan prestasi yang jauh lebih baik daripada alat lain (Rajah 2). Dalam eksperimen dengan transkrip 'separa' (Gambar 3) Prodigal dan TransDecoder semakin hampir dalam prestasi ke GeneMarkS-T. Yang terbaik (Sn + Sp) / 2 yang kami saksikan untuk GeneMarkS-T, Prodigal dan TransDecoder ketika mgl nilai ialah 150, 210 dan 270 bp, masing-masing. Menambah maklumat mengenai helai RNA dan dengan itu menggunakan versi (S) bagi tiga alat mencari gen, meningkatkan nilai Sp (Rajah 2 dan 3).

Variasi yang ketara dalam kandungan G + C dalam M. musculus dan D. melanogaster transkrip (dari 0,31 hingga 0,76 pada tetikus dan dari 0,27 hingga 0,63 dalam lalat) segera dikenal pasti oleh GeneMarkS-T yang mengelompokkan transkrip menjadi tiga tong kandungan G + C dengan batas yang ditentukan secara automatik (Jadual S1). Latihan diri dilakukan secara berasingan untuk transkrip di setiap tiga kluster. Pada langkah ramalan, parameter algoritma yang digunakan untuk transkrip tertentu dipilih berkenaan dengan kandungan transkrip G + C. Pendekatan ini menghasilkan nilai Sn yang lebih baik daripada ketiadaan pengelompokan (Jadual S1).

Kami mengkaji bagaimana ketepatan ramalan bergantung pada jumlah transkrip dalam latihan. Untuk eksperimen ini kami mengambil sampel secara rawak beberapa set transkrip dengan volum yang sama. Jika volum lebih besar daripada 600 kb, GeneMarkS-T dan Prodigal mencapai dataran tinggi dengan prestasi mantap dan nilai (Sn + Sp)/2 hampir 96% untuk GeneMarkS-T dan 94% untuk Prodigal (Rajah 4). Ketepatan TransDecoder mempunyai corak perubahan yang serupa dengan dataran tinggi pada 91% dicapai pada volume 1 Mb. Penurunan hingga 100 kb menghasilkan prestasi yang lebih rendah tetapi masih baik: 90% untuk GeneMarkS-T dan Prodigal, dan 80% untuk TransDecoder. Jumlah urutan minimum yang diperlukan untuk Prodigal adalah 20 kb sementara had GeneMarkS-T lebih rendah. Di bawah 50 kb GeneMarkS-T secara automatik beralih untuk menggunakan model heuristik wilayah pengekodan protein yang parameternya dapat ditentukan untuk serpihan urutan sesingkat 400 bp (15).

Ketergantungan (Sn + Sp) / 2 dari tiga alat ramalan gen pada ukuran set latihan D. melanogaster transkrip (paksi X menunjukkan jumlah ukuran set, skala log). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. pombe, 6.0% of D. melanogaster and 20.4% of M. musculus. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. terutamanya, S. pombe, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. pombe we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanogaster, 98% for M. musculus and 62% for S. pombe.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. musculus (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanogaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the de novo assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanogaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanogaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanogaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanogaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanogaster transkrip. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanogaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the de novo methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


KEPUTUSAN

Accuracy of gene prediction in reference transcripts

We used GeneMarkS-T, Prodigal, TransDecoder and ESTscan to predict protein-coding genes in ‘complete’ as well as ‘partial’ transcripts of A. thaliana, D. melanogaster, M. musculus dan S. pombe (see ‘Materials and Methods’ section). The number of genes predicted in a set of transcripts depends on the selected minimum gene length (mgl). We have changed mgl as a threshold parameter from 90 to 480 bp (with 30 bp steps). For each set of predictions we computed Sn and Sp based on the transcript annotation and plotted the dependence of Sn on 1 − Sp (Figures 2 and 3). In these plots, which look similar to receiver operating characteristic (ROC) curves, the top right points were obtained for mgl equal to 90 bp. We do not show plots for ESTscan as we were not able to achieve high enough performance (i.e. for mouse we had Sn = 0.53 and Sp = 0.54). We believe that self-training would improve ESTscan performance. In the absence of such an option we were forced to select one of the available pre-defined models, e.g. the human model for analysis of mouse transcripts.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculus dan S. pombe. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). Sebagai mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculus dan S. pombe. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). Sebagai mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculus dan S. pombe. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculus dan S. pombe. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

For ‘complete’ transcripts, both strand-blind and strand-specific versions of GeneMarkS-T demonstrated significantly better performance than the other tools (Figure 2). In experiments with ‘partial’ transcripts (Figure 3) Prodigal and TransDecoder came closer in performance to GeneMarkS-T. The best (Sn + Sp)/2 we saw for GeneMarkS-T, Prodigal and TransDecoder when the mgl values were 150, 210 and 270 bp, respectively. Adding information on RNA strand and thus use of the (S) versions of the three gene finding tools, increased the Sp values (Figures 2 and 3).

Significant variation in G + C content in M. musculus dan D. melanogaster transcripts (from 0.31 to 0.76 in mouse and from 0.27 to 0.63 in fly) was immediately identified by GeneMarkS-T which grouped the transcripts into three G + C content bins with automatically defined borders (Table S1). Self-training was done separately for transcripts in each of the three clusters. In the prediction step, algorithm parameters used for a given transcript were chosen with respect to the transcript G + C content. This approach produced better Sn values than in the absence of clustering (Table S1).

We studied how prediction accuracy depends on the volume of transcripts in training. For these experiments we sampled randomly several sets of transcripts with the same volume. If the volume was larger than 600 kb, GeneMarkS-T and Prodigal reached a plateau with steady performance and (Sn + Sp)/2 value close to 96% for GeneMarkS-T and 94% for Prodigal (Figure 4). Accuracy of TransDecoder had a similar pattern of change with the plateau at 91% reached at the volume of 1 Mb. A decrease to 100 kb produced lower but still decent performance: 90% for GeneMarkS-T and Prodigal, and 80% for TransDecoder. The minimum volume of sequence required for Prodigal was 20 kb while the GeneMarkS-T limit was even lower. Below 50 kb GeneMarkS-T automatically switches to use of heuristic models of protein-coding regions whose parameters could be determined for a sequence fragment as short as 400 bp ( 15).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanogaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. pombe, 6.0% of D. melanogaster and 20.4% of M. musculus. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. terutamanya, S. pombe, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. pombe we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanogaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanogaster, 98% for M. musculus and 62% for S. pombe.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. musculus (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanogaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the de novo assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanogaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanogaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanogaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanogaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanogaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanogaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanogaster transkrip. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanogaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the de novo methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


Fail tambahan 1:

Includes 12 supporting figures and four supporting tables. A description of each is given within the file.

Additional file 2:

Performance of four transcriptome assemblers on the Edgren dataset. A table of which true positive breakpoint sequences were assembled by Trinity, Oases, TransABySS and SOAPdenovo-Trans on the Edgren dataset. Oases assembled the highest number of true positive breakpoints with 31.

Additional file 3:

Fusion genes in the BT-474, SK-BR-3, KPL-4 and MCF-7 cell lines. A list of the true positive fusion genes used in the validation of JAFFA on the Edgren and ENCODE dataset, along with a list of the probable true positives, and the fusion calls from JAFFA, FusionCatcher, SOAPfuse, defuse and TopHat-Fusion.

Additional file 4:

Fusion genes in the glioma dataset. A list of the true positive fusion genes, probable true positives and results from JAFFA, SOAPfuse, defuse and TopHat-Fusion for the gliomas dataset.

Additional file 5:

JAFFA commands. This script provides commands to reproduce the results from JAFFA and other tools shown in the manuscript.


Tonton video: Risk Assesment - HIRAC dan JSA Part 2 (Februari 2023).