
We are searching data for your request:
Upon completion, a link will appear to access the found materials.
Saya menghadapi masalah untuk memahami bagaimana GISTIC membezakan variasi nombor salinan kepada nilai -2, -1, 0, 1, 2. Saya menggunakan variasi nombor salinan TCGA untuk ColoRectal Adenocarcinoma.
Dalam Soalan Lazim cBioPortal ada tertulis bahawa:
Untuk kajian TCGA, jadual di all_thresholded.by_genes.txt (yang merupakan bahagian output GISTIC yang digunakan untuk menentukan status salinan-bilangan setiap gen dalam setiap sampel dalam cBioPortal) diperoleh dengan menerapkan kedua- rendah dan tinggi- ambang tahap ke tahap salinan gen semua sampel. Entri dengan nilai +/- 2 melebihi ambang tahap tinggi untuk amp / del, dan entri dengan +/- 1 melebihi ambang tahap rendah tetapi bukan ambang tahap tinggi. Ambang tahap rendah hanyalah nilai input ambang bunyi 'amp_thresh' dan 'del_thresh' ke GISTIC (biasanya 0.1 atau 0.3) dan sama untuk setiap ambang.
Sebaliknya, ambang tahap tinggi dikira berdasarkan sampel-demi-sampel dan didasarkan pada bilangan salinan penguatan (atau penghapusan) median lengan maksimum (atau minimum) yang terdapat dalam sampel. Ideanya, untuk penghapusan pula, adalah bahawa tahap ini adalah pendekatan yang baik untuk hemizigus memandangkan kemurnian dan kekosongan sampel.
Ambang tahap rendah cukup jelas, sementara ambang tahap tinggi tidak (yang digunakan untuk melabel nilai +/- 2).
Saya cuba mengembalikan fungsi diskretisasi (pemotongan tidak tersedia di firebrowse). Penyelesaian terbaik yang saya dapati adalah, untuk setiap sampel, untuk:
bahagikan nilai nombor salinan dalam dua kumpulan (diperkuat - nilai positif, dihapus - nilai negatif)
untuk setiap kumpulan (diperkuat - dipadam)
- hitung nilai nombor salinan median di dalam setiap lengan kromosom
- ambil nilai median maksimum (minimum untuk kumpulan yang dihapus) di seluruh lengan dan gunakan sebagai ambang (lebih rendah) yang lebih tinggi
Saya mengujinya menggunakan fail:
- all_data_by_genes.txt
- all_thresholded.by_genes.txt
cuba mendapatkan nilai diskret yang betul (-2, -1, 0, 1, 2) bagi fail kedua daripada yang pertama. Walau bagaimanapun, sebahagian kecil daripada nilai tidak dipetakan dengan betul. Adakah saya kehilangan sesuatu?
Penyelesaian terbaik adalah menggunakan hanya perubahan luas, menggunakan failbroad_values_by_arm.txt
.
Khususnya, untuk setiap sampel, ambang tertinggi dikira sebagai jumlah ambang hingar (paras rendah) (mis. 0.1) ditambah dengan nilai maksimum variasi nombor salinan untuk sampel pada semua lengan. Begitu juga, ambang terendah adalah nilai minimum untuk sampel di semua lengan ditambah ambang kebisingan negatif (tahap rendah) (mis. -0.1).
Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC - Biology
GISTIC mengenal pasti kawasan genomik yang diperoleh atau hilang dengan ketara merentas satu set tumor. Talian paip mula-mula menapis sampel biasa daripada data nombor salinan tersegmen dengan memeriksa kod bar TCGA dan kemudian melaksanakan versi GISTIC 2.0.16 (semakan cga svn 38839).
Terdapat 228 sampel tumor yang digunakan dalam analisis ini: 14 keputusan peringkat lengan yang ketara, 0 amplifikasi fokus yang ketara, dan 0 pemadaman fokus yang ketara ditemui.
Rajah 1. Kedudukan genom kawasan yang diperkuat: paksi-X mewakili isyarat penguat yang dinormalisasi (atas) dan makna dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.
Gambar 2. Kedudukan genom kawasan yang dihapuskan: paksi-X mewakili isyarat penghapusan dinormalisasi (atas) dan kepentingan dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.
Jadual 1. Dapatkan Jadual Keertian Aras Lengan Jadual Penuh - 14 keputusan penting ditemui.
Lengan | # Gen | Kekerapan Amp | Markah Amp Z | Nilai Amp Q | Kekerapan Del | Skor Del Z | Nilai Del Q |
---|---|---|---|---|---|---|---|
1p | 2121 | 0.00 | -1.74 | 0.959 | 0.00 | -1.16 | 0.96 |
1q | 1955 | 0.04 | 2.92 | 0.00801 | 0.00 | -1.12 | 0.96 |
2p | 924 | 0.00 | -1.15 | 0.928 | 0.03 | 1.72 | 0.42 |
2q | 1556 | 0.00 | -1.14 | 0.928 | 0.02 | 1.16 | 0.799 |
3p | 1062 | 0.00 | -1.17 | 0.928 | 0.00 | -1.17 | 0.96 |
3q | 1139 | 0.00 | -1.17 | 0.928 | 0.01 | -0.592 | 0.96 |
4p | 489 | 0.01 | -0.0303 | 0.928 | 0.00 | -1.17 | 0.96 |
4q | 1049 | 0.01 | -0.0152 | 0.928 | 0.00 | -1.16 | 0.96 |
5p | 270 | 0.04 | 3.4 | 0.00188 | 0.00 | -1.73 | 0.96 |
5q | 1427 | 0.04 | 3.46 | 0.00188 | 0.00 | -1.72 | 0.96 |
6p | 1173 | 0.01 | -0.598 | 0.928 | 0.00 | -1.75 | 0.96 |
6q | 839 | 0.00 | -1.17 | 0.928 | 0.01 | -0.599 | 0.96 |
7p | 641 | 0.04 | 3.42 | 0.00188 | 0.00 | -1.73 | 0.96 |
7q | 1277 | 0.05 | 4.61 | 7.82e-05 | 0.00 | -1.71 | 0.96 |
8 p | 580 | 0.00 | -1.18 | 0.928 | 0.01 | -0.605 | 0.96 |
8q | 859 | 0.00 | -1.17 | 0.928 | 0.01 | -0.598 | 0.96 |
9p | 422 | 0.00 | -1.17 | 0.928 | 0.02 | 0.544 | 0.96 |
9q | 1113 | 0.01 | -0.56 | 0.928 | 0.03 | 1.74 | 0.42 |
10 p | 409 | 0.01 | -0.602 | 0.928 | 0.01 | -0.602 | 0.96 |
10q | 1268 | 0.01 | -0.576 | 0.928 | 0.01 | -0.00159 | 0.96 |
11 p | 862 | 0.01 | 0.00291 | 0.928 | 0.02 | 0.576 | 0.96 |
11q | 1515 | 0.01 | -0.558 | 0.928 | 0.02 | 1.17 | 0.799 |
12 p | 575 | 0.04 | 3.42 | 0.00188 | 0.00 | -1.73 | 0.96 |
12q | 1447 | 0.04 | 3.46 | 0.00188 | 0.00 | -1.71 | 0.96 |
13q | 654 | 0.01 | -0.551 | 0.928 | 0.04 | 3.45 | 0.00544 |
14q | 1341 | 0.02 | 1.14 | 0.365 | 0.00 | -1.73 | 0.96 |
15q | 1355 | 0.00 | -1.74 | 0.959 | 0.02 | 0.564 | 0.96 |
16p | 872 | 0.04 | 2.87 | 0.00801 | 0.00 | -1.14 | 0.96 |
16q | 702 | 0.03 | 1.73 | 0.148 | 0.01 | 0.0142 | 0.96 |
17 p | 683 | 0.04 | 2.9 | 0.00801 | 0.02 | 0.616 | 0.96 |
17q | 1592 | 0.04 | 3.49 | 0.00188 | 0.00 | -1.12 | 0.96 |
18 p | 143 | 0.00 | -1.18 | 0.928 | 0.01 | -0.0396 | 0.96 |
18q | 446 | 0.00 | -1.17 | 0.928 | 0.01 | -0.0315 | 0.96 |
19p | 995 | 0.01 | -0.582 | 0.928 | 0.01 | -0.00899 | 0.96 |
19q | 1709 | 0.01 | -0.00492 | 0.928 | 0.00 | -1.73 | 0.96 |
20 p | 355 | 0.03 | 1.68 | 0.151 | 0.00 | -1.74 | 0.96 |
20q | 753 | 0.02 | 1.12 | 0.365 | 0.00 | -1.74 | 0.96 |
21q | 509 | 0.00 | -1.17 | 0.928 | 0.02 | 0.547 | 0.96 |
22q | 921 | 0.01 | -1 | 0.928 | 0.15 | 17.3 | 0 |
Fail Segmentasi: Fail segmentasi mengandungi data tersegmentasi untuk semua sampel yang dikenal pasti oleh GLAD, CBS, atau beberapa algoritma segmentasi lain. (Lihat format fail SENANG dalam dokumentasi format fail Genepattern.) Ia ialah fail enam lajur yang dibataskan tab dengan baris pertama pilihan yang mengenal pasti lajur. Posisi berada dalam unit pasangan asas. Tajuk lajur adalah: (1) Sampel (nama sampel), (2) Kromosom (nombor kromosom), (3) Posisi Mula (kedudukan permulaan segmen, dalam pangkalan), (4) Posisi Akhir ( kedudukan akhir segmen, dalam pangkalan), (5) Penanda bilangan (bilangan penanda dalam segmen), (6) Seg.CN (log2 () -1 nombor salinan).
Fail Penanda: Fail penanda mengenal pasti nama penanda dan kedudukan penanda dalam set data asal (sebelum pembahagian). Ia ialah fail tiga lajur, tab-dibataskan dengan pengepala pilihan. Tajuk lajur adalah: (1) Nama Penanda, (2) Kromosom, (3) Kedudukan Penanda (dalam pangkalan).
Genom Rujukan: Fail genom rujukan mengandungi maklumat mengenai lokasi gen dan sitoband pada binaan genom tertentu. Fail genom rujukan dibuat di Matlab dan tidak dapat dilihat dengan penyunting teks.
Fail CNV: Terdapat dua pilihan untuk fail cnv. Pilihan pertama membolehkan CNV dikenal pasti dengan nama penanda. Pilihan kedua membolehkan CNVs dikenal pasti mengikut lokasi genom. Pilihan # 1: Dua lajur, fail yang dibatasi tab dengan baris tajuk pilihan. Nama penanda yang diberikan dalam fail ini mesti sepadan dengan nama penanda yang diberikan dalam fail penanda. Pengecam CNV adalah untuk kegunaan pengguna dan boleh dibuat sewenang-wenangnya. Tajuk lajur adalah: (1) Nama Penanda, (2) Pengenal CNV. Pilihan # 2: Lajur 6, fail yang dibatasi tab dengan baris tajuk pilihan. 'Pengenal CNV' adalah untuk kegunaan pengguna dan boleh sewenang-wenangnya. 'Narrow Region Start' dan 'Narrow Region End' juga tidak digunakan. Pengepala lajur ialah: (1) Pengecam CNV, (2) Kromosom, (3) Permulaan Wilayah Sempit, (4) Hujung Wilayah Sempit, (5) Mula Wilayah Luas, (6) Hujung Wilayah Luas
Ambang Penguatan: Ambang untuk penguatan nombor salinan. Kawasan dengan nisbah log2 di atas nilai ini dianggap diperkuat.
Ambang Had: Ambang untuk penghapusan nombor salinan. Kawasan dengan nisbah log2 di bawah nilai negatif ini dianggap penghapusan.
Nilai Had: Nilai had minimum dan maksimum pada data yang dianalisis. Kawasan dengan nisbah log2 lebih besar daripada topi ditetapkan ke kawasan nilai topi dengan nisbah log2 kurang dari -cap nilai ditetapkan ke -cap. Nilai mesti positif.
Potongan Panjang Luas: Ambang digunakan untuk membezakan luas daripada peristiwa fokus, diberikan dalam unit pecahan lengan kromosom.
Buang X-Kromosom: Bendera menunjukkan sama ada akan membuang data dari kromosom X sebelum dianalisis. Nilai yang dibenarkan= <1,0>(1: Buang X-Kromosom, 0: Jangan keluarkan X-Kromosom.
Tahap Keyakinan: Tahap keyakinan yang digunakan untuk mengira kawasan yang mengandungi pemacu.
Bilangan penanda terkecil untuk dibenarkan dalam segmen daripada data tersegmen. Segmen yang mengandungi bilangan penanda kurang daripada ini bergabung dengan segmen berdekatan yang paling hampir dalam bilangan salinan.
Arm Level Peel Off: Flag diatur untuk membolehkan pengelupasan tahap lengan pada peristiwa semasa definisi puncak. Peningkatan pengelupasan tahap lengan ke kaedah pengelupasan arbitrasi menetapkan semua peristiwa dalam lengan kromosom sampel yang sama ke satu puncak. Ia berguna apabila puncak dipisahkan oleh bunyi atau kromotripsis. Nilai yang dibenarkan = <1,0> (1: Gunakan pengelupasan paras lengan, 0: Gunakan pengelupasan arbitrasi biasa).
Segmen Sampel Maksimum: Jumlah segmen maksimum yang dibenarkan untuk sampel dalam data input. Sampel dengan lebih banyak segmen daripada ambang ini tidak termasuk dalam analisis.
Senarai input yang digunakan untuk menjalankan GISTIC2 ini. Semua fail yang disenaraikan hendaklah disertakan dalam hasil arkib.
Fail Segmentasi = /xchip/cga/gdac-prod/tcga-gdac/jobResults/GDAC_MergeDataFilesPipeline/THCA/1445401/2.GDAC_MergeDataFiles.Finished/THCA.snp__genome_wide_snp_ed__broadment_snp_6__broadment_minuced_txt_snp_6__broadment_snp_6__broadment_minu_txt_broadment_minu_txt.
Fail Penanda = /xchip/cga/reference/gistic2/genome.info.6.0_hg19.na31_minus_frequent_nan_probes_sorted_2.1.txt
Genom Rujukan = /xchip/cga/reference/gistic2/hg19_with_miR_20120227.mat
Fail CNV = /xchip/cga/reference/gistic2/CNV.hg19.bypos.111213.txt
Ambang Penguatan = 0.30
Segmen Sampel Maksimum = 10000
Jadual 2. Dapatkan Jadual Penuh Pertama 10 daripada 228 Sampel Tumor Input.
Nama Contoh Tumor |
---|
TCGA-BJ-A0YZ-01A-11D-A10T-01 |
TCGA-BJ-A0Z0-01A-11D-A10T-01 |
TCGA-BJ-A0Z2-01A-11D-A10T-01 |
TCGA-BJ-A0Z3-01A-11D-A13V-01 |
TCGA-BJ-A0Z5-01A-11D-A10T-01 |
TCGA-BJ-A0Z9-01A-11D-A10T-01 |
TCGA-BJ-A0ZA-01A-11D-A10T-01 |
TCGA-BJ-A0ZB-01A-11D-A10T-01 |
TCGA-BJ-A0ZC-01A-12D-A13V-01 |
TCGA-BJ-A0ZE-01A-11D-A10T-01 |
Rajah 3. Profil nombor salinan bersegmen dalam data input
Fail semua luka merangkum hasil dari menjalankan GISTIC. Ia mengandungi data tentang kawasan penguatan dan pemadaman yang ketara serta sampel yang dikuatkan atau dipadamkan dalam setiap kawasan ini. Kawasan yang dikenal pasti disenaraikan di lajur pertama, dan sampel disenaraikan di baris pertama, bermula di lajur 10.
Data Wilayah
Lajur 1-9 menyajikan data mengenai wilayah penting seperti berikut:
Nama Unik: Nama yang diberikan untuk mengenal pasti wilayah.
Deskriptor: Penjelaskan genomik kawasan itu.
Lebar Puncak Lebar: Batas 'puncak lebar' kemungkinan besar mengandungi gen yang disasarkan. Ini disenaraikan dalam koordinat genom dan indeks penanda (atau siasatan).
Batas Puncak: Batasan wilayah penguatan atau penghapusan maksimum.
Had Kawasan: Batasan dari keseluruhan wilayah penguatan atau penghapusan yang ketara.
Nilai Q: Nilai Q bagi kawasan puncak.
Nilai Q sisa: Nilai Q dari kawasan puncak setelah mengeluarkan ('mengupas') amplifikasi atau penghapusan yang bertindih dengan kawasan puncak lain yang lebih ketara dalam kromosom yang sama.
Luas atau Tumpuan: Mengenal pasti sama ada rantau ini mencapai kepentingan disebabkan terutamanya oleh peristiwa luas (dipanggil 'luas'), peristiwa fokus (dipanggil 'fokus'), atau peristiwa luas dan fokus yang signifikan secara bebas (dipanggil 'kedua-duanya').
Ambang Amplitud: Kunci memberi makna nilai pada lajur berikutnya yang berkaitan dengan setiap sampel.
Data Sampel
Setiap sampel yang dianalisis ditunjukkan dalam salah satu lajur yang mengikuti data lesi (lajur 10 hingga akhir). Data yang terkandung dalam lajur ini sedikit berbeza mengikut bahagian file. Bahagian pertama dapat dikenal pasti dengan kunci yang diberikan dalam lajur 9 - ia bermula pada baris 2 dan berlanjutan hingga baris yang berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian ini mengandungi data yang diringkaskan untuk setiap sampel. '0' menunjukkan bahawa nombor salinan sampel tidak dikuatkan atau dipadamkan melebihi jumlah ambang di kawasan puncak tersebut. A '1' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat rendah (melebihi ambang rendah yang ditunjukkan dalam lajur 9), dan '2' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat tinggi (melebihi ambang tinggi yang ditunjukkan dalam lajur 9). Bahagian kedua dapat dikenal pasti baris di mana lajur 9 berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian kedua betul-betul mengeluarkan semula bahagian pertama, kecuali di sini perubahan sebenar dalam nombor salinan disediakan dan bukannya sifar, satu dan dua. Bahagian akhir adalah serupa dengan bahagian pertama, kecuali di sini hanya acara luas disertakan. A 1 di lajur sampel (lajur 10+) menunjukkan bahawa jumlah salinan median sampel di seluruh rantau yang signifikan melebihi ambang yang diberikan dalam lajur 9. Maksudnya, ini menunjukkan sama ada sampel mempunyai peristiwa yang dilanjutkan secara geografi, dan bukannya penguatan fokus atau penghapusan yang meliputi lebih sedikit daripada kawasan puncak.
Fail gen amp mengandungi satu lajur untuk setiap puncak penguatan yang dikenal pasti dalam analisis GISTIC. Empat baris pertama adalah:
Baris ini mengenal pasti lesi dengan cara yang sama seperti semua fail lesi. Baris yang tersisa menyenaraikan gen yang terdapat di setiap puncak lebar. Untuk puncak yang tidak mengandungi gen, gen terdekat disenaraikan dalam kurungan.
Fail del gen mengandungi satu lajur untuk setiap puncak penghapusan yang dikenal pasti dalam analisis GISTIC. Format fail untuk fail del gen adalah sama dengan format untuk fail gen amp.
Fail skor menyenaraikan nilai Q [disajikan sebagai -log10 (q)], skor G, amplitud rata-rata di antara sampel yang menyimpang, dan kekerapan penyimpangan, di seluruh genom untuk kedua-dua penguatan dan penghapusan. Fail skor dapat dilihat dengan modul Genepattern SNPViewer dan boleh diimport ke Integrated Genomics Viewer (IGV).
Nombor salinan bersegmen ialah fail pdf yang mengandungi imej peta warna profil nombor salinan bersegmen dalam data input.
Penguatan pdf adalah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan penguatan untuk semua penanda di seluruh wilayah yang dianalisis.
pdf pemadaman ialah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan pemadaman untuk semua penanda di seluruh rantau yang dianalisis.
Jadual maklumat asas mengenai kawasan genom (puncak) yang ditentukan GISTIC untuk diperkuat atau dihapuskan dengan ketara. Ini menerangkan tiga jenis batas puncak, dan menyenaraikan gen yang terdapat dalam dua daripadanya. Lajur permulaan dan hujung rantau (bersama-sama lajur kromosom) mengehadkan keseluruhan kawasan yang mengandungi puncak yang melebihi paras keertian. Kawasan ini mungkin sama untuk pelbagai puncak. Permulaan dan penamat puncak mengehadkan nilai maksimum puncak. Puncak lanjutan ialah puncak yang ditentukan oleh teguh, dan terkandung dalam puncak lebar yang dilaporkan dalam Jadual hasil statistik per-lengan untuk set data. Setiap lengan adalah satu barisan di meja. Lajur pertama menentukan lengan dan lajur kedua mengira bilangan gen yang diketahui berada pada lengan. Untuk penguatan dan penghapusan, jadual mempunyai lajur untuk kekerapan penguatan atau penghapusan lengan, dan skor Z dan nilai Q. Jadual tahap penguatan lengan kromosom untuk setiap sampel. Setiap baris ialah lengan kromosom, dan setiap lajur adalah sampel. Data terdapat dalam unit nombor salinan mutlak -2. Jadual peringkat gen bagi nilai nombor salinan untuk semua sampel. Setiap baris ialah data untuk gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur selebihnya adalah contohnya. Nilai nombor salinan dalam jadual adalah dalam unit (nombor salin -2), sehingga tidak ada penguatan atau penghapusan 0, gen dengan penguatan mempunyai nilai positif, dan gen dengan penghapusan adalah nilai negatif. Data ditukar daripada tahap penanda ke tahap gen menggunakan kaedah ekstrem: gen diberikan penguatan terbesar atau nilai pemadaman paling sedikit antara penanda yang diliputinya. Jadual peringkat gen data salin yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan peristiwa luas dengan panjang lebih besar daripada potongan panjang lebar. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt. Jadual peringkat gen bagi data nombor salinan yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan acara fokus dengan panjang lebih besar daripada pemotongan panjang fokus. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt. Jadual tahap gen bagi penunjuk penguatan dan pemadaman diskret pada untuk semua sampel. Terdapat satu baris untuk setiap gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai jadual 0 bermaksud tiada penguatan atau penghapusan melebihi ambang. Amplifikasi ialah nombor positif: 1 bermaksud amplifikasi melebihi ambang amplifikasi 2 bermaksud amplifikasi yang lebih besar kepada amplifikasi paras lengan yang diperhatikan untuk sampel. Penghapusan diwakili oleh nilai jadual negatif: -1 mewakili penghapusan melebihi ambang -2 bermaksud penghapusan lebih besar daripada penghapusan tahap lengan minimum yang diperhatikan untuk sampel. Jadual pemotongan ambang per sampel (dalam unit nombor salinan mutlak -2) yang digunakan untuk membezakan penguatan tahap tinggi (+/- 2) dari penguatan biasa (+/- 1) dalam fail keluaran all_thresholded.by_genes.txt . Jadual mengandungi tiga lajur: pengecam sampel diikuti dengan nilai potong rendah (pemadaman) dan tinggi (penguatan). Potongan dikira sebagai tahap penguatan tahap lengan minimum ditolak ambang penghapusan untuk penghapusan dan penguatan tahap lengan maksimum ditambah ambang penguatan untuk penguatan. Senarai segmen nombor salinan yang menerangkan hanya peristiwa fokus yang terdapat dalam data. Tahap penguatan / penghapusan segmen adalah dalam unit (nombor salin -2), dengan amplifikasi positif dan penghapusan nombor negatif. Fail ini boleh dilihat dengan IGV. Imej yang menunjukkan korelasi antara kiraan gen dan kekerapan perubahan nombor salinan. Fail yang menunjukkan kedudukan selang keyakinan di sekitar puncak GISTIC yang dapat dimuat sebagai trek dalam penyemak imbas penonton yang serasi seperti IGV atau penyemak imbas genom UCSC. GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Ia mengambil nisbah nombor salinan tersegmen sebagai input, memisahkan peristiwa peringkat lengan daripada peristiwa fokus, dan kemudian melakukan dua ujian: (i) mengenal pasti lengan kromosom yang dikuatkan/dipadamkan dengan ketara dan (ii) mengenal pasti kawasan yang dikuatkan atau dipadamkan secara ketara. Untuk analisis fokus, tahap keertian (nilai Q) dikira dengan membandingkan keuntungan/kerugian yang diperhatikan pada setiap lokus dengan yang diperoleh dengan mengubah suai secara rawak peristiwa sepanjang genom untuk mencerminkan hipotesis nol bahawa mereka semua adalah 'penumpang' dan boleh mempunyai. berlaku di mana-mana sahaja. Tahap kepentingan khusus lokus kemudiannya diperbetulkan untuk ujian hipotesis berbilang. Kepentingan peringkat lengan dikira dengan membandingkan kekerapan keuntungan/kerugian setiap lengan dengan kadar yang dijangkakan berdasarkan saiznya.Kaedah ini menghasilkan pandangan genom dari kawasan yang diperkuat dan dihapus secara signifikan, serta jadual gen dengan skor keuntungan atau kerugian. Perbincangan yang lebih mendalam tentang algoritma GISTIC dan utilitinya diberikan dalam [1], [3], dan [5]. Kawasan genom yang rentan terhadap variasi garis kuman dalam jumlah salinan dikecualikan dari analisis GISTIC menggunakan senarai variasi nombor salinan garis kuman (CNV). CNV adalah urutan DNA yang mungkin terdapat pada nombor salinan yang berlainan dalam garis kuman dua individu yang berbeza. Variasi garis kuman sedemikian boleh mengelirukan analisis GISTIC, yang menemui variasi nombor salinan somatik yang ketara dalam kanser. Perbincangan yang lebih mendalam diberikan dalam [6]. GISTIC kini menggunakan dua senarai pengecualian CNV. Satu adalah berdasarkan kesusasteraan yang menerangkan variasi nombor salinan, dan yang kedua datang daripada analisis variasi ketara antara normal darah dalam set data TCGA. Ini adalah ciri eksperimen. Hasil analisis yang diringkaskan dalam laporan ini boleh dimuat turun dari Pusat Penyelarasan Data TCGA. GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Saluran paip mula-mula menapis sampel biasa daripada data nombor salinan tersegmen dengan memeriksa kod bar TCGA dan kemudian melaksanakan versi GISTIC 2.0.17a (versi tugas Firehose: 0.0.8). Terdapat 66 sampel tumor yang digunakan dalam analisis ini: 14 hasil aras lengan yang signifikan, 2 penguatan fokus yang signifikan, dan 0 penghapusan fokus yang signifikan dijumpai. Rajah 1. Kedudukan genom kawasan yang diperkuat: paksi-X mewakili isyarat penguat yang dinormalisasi (atas) dan makna dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25. Jadual 1. Dapatkan Jadual Amplifikasi Jadual Penuh - 2 amplifikasi penting ditemui. Klik pautan dalam lajur terakhir untuk melihat senarai komprehensif gen calon. Sekiranya tidak ada gen yang dikenal pasti dalam puncak, gen terdekat muncul dalam tanda kurung. Ini adalah senarai lengkap diperkuatkan gen di puncak lebar untuk 8q11.21. Jadual S1. Gen dalam huruf tebal adalah gen kanser seperti yang ditakrifkan oleh Banci Gen Kanser Institut Sanger [7]. Ini adalah senarai lengkap dikuatkan gen di puncak lebar untuk 15q22.31. Jadual S2. Gen dalam huruf tebal adalah gen kanser seperti yang ditakrifkan oleh Banci Gen Kanser Institut Sanger [7]. Gambar 2. Kedudukan genom kawasan yang dihapuskan: paksi-X mewakili isyarat penghapusan dinormalisasi (atas) dan kepentingan dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25. Jadual 2. Dapatkan Jadual Keertian Aras Lengan Jadual Penuh - 14 keputusan penting ditemui. Potongan keertian adalah pada nilai Q=0.25. Fail Segmentasi: Fail segmentasi mengandungi data tersegmentasi untuk semua sampel yang dikenal pasti oleh GLAD, CBS, atau beberapa algoritma segmentasi lain. (Lihat format fail SENANG dalam dokumentasi format fail Genepattern.) Ia ialah fail enam lajur yang dibataskan tab dengan baris pertama pilihan yang mengenal pasti lajur. Posisi berada dalam unit pasangan asas. Tajuk lajur adalah: (1) Sampel (nama sampel), (2) Kromosom (nombor kromosom), (3) Posisi Mula (kedudukan permulaan segmen, dalam pangkalan), (4) Posisi Akhir ( kedudukan akhir segmen, dalam pangkalan), (5) Penanda bilangan (bilangan penanda dalam segmen), (6) Seg.CN (log2 () -1 nombor salinan). Fail Penanda: Fail penanda mengenal pasti nama penanda dan kedudukan penanda dalam set data asal (sebelum pembahagian). Ia ialah fail tiga lajur, tab-dibataskan dengan pengepala pilihan. Tajuk lajur adalah: (1) Nama Penanda, (2) Kromosom, (3) Kedudukan Penanda (dalam pangkalan). Genom Rujukan: Fail genom rujukan mengandungi maklumat mengenai lokasi gen dan sitoband pada binaan genom tertentu. Fail genom rujukan dibuat di Matlab dan tidak dapat dilihat dengan penyunting teks. Fail CNV: Terdapat dua pilihan untuk fail cnv. Pilihan pertama membolehkan CNV dikenal pasti dengan nama penanda. Pilihan kedua membolehkan CNVs dikenal pasti mengikut lokasi genom. Pilihan # 1: Dua lajur, fail yang dibatasi tab dengan baris tajuk pilihan. Nama penanda yang diberikan dalam fail ini mesti sepadan dengan nama penanda yang diberikan dalam fail penanda. Pengecam CNV adalah untuk kegunaan pengguna dan boleh dibuat sewenang-wenangnya. Tajuk lajur adalah: (1) Nama Penanda, (2) Pengenal CNV. Pilihan # 2: Lajur 6, fail yang dibatasi tab dengan baris tajuk pilihan. 'Pengenal CNV' adalah untuk kegunaan pengguna dan boleh sewenang-wenangnya. 'Narrow Region Start' dan 'Narrow Region End' juga tidak digunakan. Pengepala lajur ialah: (1) Pengecam CNV, (2) Kromosom, (3) Permulaan Wilayah Sempit, (4) Hujung Wilayah Sempit, (5) Mula Wilayah Luas, (6) Hujung Wilayah Luas Ambang Penguatan: Ambang untuk penguatan nombor salinan. Kawasan dengan nisbah log2 di atas nilai ini dianggap diperkuat. Ambang Had: Ambang untuk penghapusan nombor salinan. Kawasan dengan nisbah log2 di bawah nilai negatif ini dianggap penghapusan. Nilai Had: Nilai had minimum dan maksimum pada data yang dianalisis. Kawasan dengan nisbah log2 lebih besar daripada topi ditetapkan ke kawasan nilai topi dengan nisbah log2 kurang dari -cap nilai ditetapkan ke -cap. Nilai mesti positif. Potongan Panjang Luas: Ambang digunakan untuk membezakan luas daripada peristiwa fokus, diberikan dalam unit pecahan lengan kromosom. Buang X-Kromosom: Bendera menunjukkan sama ada akan membuang data dari kromosom X sebelum dianalisis. Nilai yang dibenarkan= <1,0>(1: Buang X-Kromosom, 0: Jangan keluarkan X-Kromosom. Tahap Keyakinan: Tahap keyakinan yang digunakan untuk mengira kawasan yang mengandungi pemacu. Sertai Saiz Segmen: Bilangan penanda terkecil untuk dibenarkan dalam segmen daripada data tersegmen. Segmen yang mengandungi bilangan penanda kurang daripada ini bergabung dengan segmen berdekatan yang paling hampir dalam bilangan salinan. Arm Level Peel Off: Flag diatur untuk membolehkan pengelupasan tahap lengan pada peristiwa semasa definisi puncak. Peningkatan pengelupasan tahap lengan ke kaedah pengelupasan arbitrasi menetapkan semua peristiwa dalam lengan kromosom sampel yang sama ke satu puncak. Ia berguna apabila puncak dipisahkan oleh bunyi atau kromotripsis. Nilai yang dibenarkan = <1,0> (1: Gunakan pengelupasan paras lengan, 0: Gunakan pengelupasan arbitrasi biasa). Segmen Sampel Maksimum: Jumlah segmen maksimum yang dibenarkan untuk sampel dalam data input. Sampel dengan lebih banyak segmen daripada ambang ini tidak termasuk dalam analisis. Senarai input yang digunakan untuk menjalankan GISTIC2 ini. Semua fail yang disenaraikan hendaklah disertakan dalam hasil arkib. Fail Segmentasi = /xchip/cga/gdac-prod/tcga-gdac/jobResults/GDAC_MergeDataFilesPipeline/KICH-TP/3348831/GDAC_MergeDataFiles_3125456/KICH-TP.snp__genome_wide_snp_6___mn__mans__mn_s_mand_sng Fail Penanda = /xchip/cga/reference/gistic2/genome.info.6.0_hg19.na31_minus_frequent_nan_probes_sorted_2.1.txt Genom Rujukan = /xchip/cga/reference/gistic2/hg19_with_miR_20120227.mat Fail CNV = /xchip/cga/reference/gistic2/CNV.hg19.bypos.111213.txt Ambang Amplifikasi = 0.1 Segmen Sampel Maksimum = 2000 Jadual 3. Dapatkan Jadual Penuh Pertama 10 daripada 66 Sampel Tumor Input. Rajah 3. Profil nombor salinan bersegmen dalam data input Fail semua luka merangkum hasil dari menjalankan GISTIC. Ia mengandungi data tentang kawasan penguatan dan pemadaman yang ketara serta sampel yang dikuatkan atau dipadamkan dalam setiap kawasan ini. Kawasan yang dikenal pasti disenaraikan di lajur pertama, dan sampel disenaraikan di baris pertama, bermula di lajur 10. Data Wilayah Lajur 1-9 menyajikan data mengenai wilayah penting seperti berikut: Nama Unik: Nama yang diberikan untuk mengenal pasti wilayah. Deskriptor: Penjelaskan genomik kawasan itu. Lebar Puncak Lebar: Batas 'puncak lebar' kemungkinan besar mengandungi gen yang disasarkan. Ini disenaraikan dalam koordinat genom dan indeks penanda (atau siasatan). Batas Puncak: Batasan wilayah penguatan atau penghapusan maksimum. Had Kawasan: Batasan dari keseluruhan wilayah penguatan atau penghapusan yang ketara. Nilai Q: Nilai Q bagi kawasan puncak. Nilai Q sisa: Nilai Q dari kawasan puncak setelah mengeluarkan ('mengupas') amplifikasi atau penghapusan yang bertindih dengan kawasan puncak lain yang lebih ketara dalam kromosom yang sama. Luas atau Tumpuan: Mengenal pasti sama ada rantau ini mencapai kepentingan disebabkan terutamanya oleh peristiwa luas (dipanggil 'luas'), peristiwa fokus (dipanggil 'fokus'), atau peristiwa luas dan fokus yang signifikan secara bebas (dipanggil 'kedua-duanya'). Ambang Amplitud: Kunci memberi makna nilai pada lajur berikutnya yang berkaitan dengan setiap sampel. Data Sampel Setiap sampel yang dianalisis ditunjukkan dalam salah satu lajur yang mengikuti data lesi (lajur 10 hingga akhir). Data yang terkandung dalam lajur ini sedikit berbeza mengikut bahagian file. Bahagian pertama dapat dikenal pasti dengan kunci yang diberikan dalam lajur 9 - ia bermula pada baris 2 dan berlanjutan hingga baris yang berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian ini mengandungi data yang diringkaskan untuk setiap sampel. '0' menunjukkan bahawa nombor salinan sampel tidak dikuatkan atau dipadamkan melebihi jumlah ambang di kawasan puncak tersebut. A '1' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat rendah (melebihi ambang rendah yang ditunjukkan dalam lajur 9), dan '2' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat tinggi (melebihi ambang tinggi yang ditunjukkan dalam lajur 9). Bahagian kedua dapat dikenal pasti baris di mana lajur 9 berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian kedua betul-betul mengeluarkan semula bahagian pertama, kecuali di sini perubahan sebenar dalam nombor salinan disediakan dan bukannya sifar, satu dan dua. Bahagian akhir adalah serupa dengan bahagian pertama, kecuali di sini hanya acara luas disertakan. A 1 di lajur sampel (lajur 10+) menunjukkan bahawa jumlah salinan median sampel di seluruh rantau yang signifikan melebihi ambang yang diberikan dalam lajur 9. Maksudnya, ini menunjukkan sama ada sampel mempunyai peristiwa yang dilanjutkan secara geografi, dan bukannya penguatan fokus atau penghapusan yang meliputi lebih sedikit daripada kawasan puncak. Fail gen amp mengandungi satu lajur untuk setiap puncak penguatan yang dikenal pasti dalam analisis GISTIC. Empat baris pertama adalah: Baris ini mengenal pasti lesi dengan cara yang sama seperti semua fail lesi. Baris yang tersisa menyenaraikan gen yang terdapat di setiap puncak lebar. Untuk puncak yang tidak mengandungi gen, gen terdekat disenaraikan dalam kurungan. Fail del gen mengandungi satu lajur untuk setiap puncak penghapusan yang dikenal pasti dalam analisis GISTIC. Format fail untuk fail del gen adalah sama dengan format untuk fail gen amp. Fail skor menyenaraikan nilai Q [disajikan sebagai -log10 (q)], skor G, amplitud rata-rata di antara sampel yang menyimpang, dan kekerapan penyimpangan, di seluruh genom untuk kedua-dua penguatan dan penghapusan. Fail skor dapat dilihat dengan modul Genepattern SNPViewer dan boleh diimport ke Integrated Genomics Viewer (IGV). Nombor salinan bersegmen ialah fail pdf yang mengandungi imej peta warna profil nombor salinan bersegmen dalam data input. Penguatan pdf adalah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan penguatan untuk semua penanda di seluruh wilayah yang dianalisis. pdf pemadaman ialah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan pemadaman untuk semua penanda di seluruh rantau yang dianalisis. Jadual maklumat asas mengenai kawasan genom (puncak) yang ditentukan GISTIC untuk diperkuat atau dihapuskan dengan ketara. Ini menerangkan tiga jenis batas puncak, dan menyenaraikan gen yang terdapat dalam dua daripadanya. Lajur permulaan dan hujung rantau (bersama-sama lajur kromosom) mengehadkan keseluruhan kawasan yang mengandungi puncak yang melebihi paras keertian. Kawasan ini mungkin sama untuk pelbagai puncak. Permulaan dan penamat puncak mengehadkan nilai maksimum puncak. Puncak lanjutan ialah puncak yang ditentukan oleh teguh, dan terkandung dalam puncak lebar yang dilaporkan dalam Jadual hasil statistik per-lengan untuk set data. Setiap lengan adalah satu barisan di meja. Lajur pertama menentukan lengan dan lajur kedua mengira bilangan gen yang diketahui berada pada lengan. Untuk penguatan dan penghapusan, jadual mempunyai lajur untuk kekerapan penguatan atau penghapusan lengan, dan skor Z dan nilai Q. Jadual tahap penguatan lengan kromosom untuk setiap sampel. Setiap baris ialah lengan kromosom, dan setiap lajur adalah sampel. Data terdapat dalam unit nombor salinan mutlak -2. Jadual peringkat gen bagi nilai nombor salinan untuk semua sampel.Setiap baris ialah data untuk gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai nombor salinan dalam jadual adalah dalam unit (nombor salin -2), sehingga tidak ada penguatan atau penghapusan 0, gen dengan penguatan mempunyai nilai positif, dan gen dengan penghapusan adalah nilai negatif. Data ditukar daripada tahap penanda ke tahap gen menggunakan kaedah ekstrem: gen diberikan penguatan terbesar atau nilai pemadaman paling sedikit antara penanda yang diliputinya. Jadual peringkat gen data salin yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan peristiwa luas dengan panjang lebih besar daripada potongan panjang lebar. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt. Jadual peringkat gen bagi data nombor salinan yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan acara fokus dengan panjang lebih besar daripada pemotongan panjang fokus. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt. Jadual tahap gen bagi penunjuk penguatan dan pemadaman diskret pada untuk semua sampel. Terdapat satu baris untuk setiap gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai jadual 0 bermaksud tiada penguatan atau penghapusan melebihi ambang. Amplifikasi ialah nombor positif: 1 bermaksud amplifikasi melebihi ambang amplifikasi 2 bermaksud amplifikasi yang lebih besar kepada amplifikasi paras lengan yang diperhatikan untuk sampel. Penghapusan diwakili oleh nilai jadual negatif: -1 mewakili penghapusan melebihi ambang -2 bermaksud penghapusan lebih besar daripada penghapusan tahap lengan minimum yang diperhatikan untuk sampel. Jadual pemotongan ambang per sampel (dalam unit nombor salinan mutlak -2) yang digunakan untuk membezakan penguatan tahap tinggi (+/- 2) dari penguatan biasa (+/- 1) dalam fail keluaran all_thresholded.by_genes.txt . Jadual mengandungi tiga lajur: pengecam sampel diikuti dengan nilai potong rendah (pemadaman) dan tinggi (penguatan). Potongan dikira sebagai tahap penguatan tahap lengan minimum ditolak ambang penghapusan untuk penghapusan dan penguatan tahap lengan maksimum ditambah ambang penguatan untuk penguatan. Senarai segmen nombor salinan yang menerangkan hanya peristiwa fokus yang terdapat dalam data. Tahap penguatan / penghapusan segmen adalah dalam unit (nombor salin -2), dengan amplifikasi positif dan penghapusan nombor negatif. Fail ini boleh dilihat dengan IGV. Imej yang menunjukkan korelasi antara kiraan gen dan kekerapan perubahan nombor salinan. Fail yang menunjukkan kedudukan selang keyakinan di sekitar puncak GISTIC yang dapat dimuat sebagai trek dalam penyemak imbas penonton yang serasi seperti IGV atau penyemak imbas genom UCSC. GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Ia mengambil nisbah nombor salinan tersegmen sebagai input, memisahkan peristiwa peringkat lengan daripada peristiwa fokus, dan kemudian melakukan dua ujian: (i) mengenal pasti lengan kromosom yang dikuatkan/dipadamkan dengan ketara dan (ii) mengenal pasti kawasan yang dikuatkan atau dipadamkan secara ketara. Untuk analisis fokus, tahap keertian (nilai Q) dikira dengan membandingkan keuntungan/kerugian yang diperhatikan pada setiap lokus dengan yang diperoleh dengan mengubah suai secara rawak peristiwa sepanjang genom untuk mencerminkan hipotesis nol bahawa mereka semua adalah 'penumpang' dan boleh mempunyai. berlaku di mana-mana sahaja. Tahap kepentingan khusus lokus kemudiannya diperbetulkan untuk ujian hipotesis berbilang. Kepentingan peringkat lengan dikira dengan membandingkan kekerapan keuntungan/kerugian setiap lengan dengan kadar yang dijangkakan berdasarkan saiznya. Kaedah ini menghasilkan pandangan genom dari kawasan yang diperkuat dan dihapus secara signifikan, serta jadual gen dengan skor keuntungan atau kerugian. Perbincangan yang lebih mendalam tentang algoritma GISTIC dan utilitinya diberikan dalam [1], [3], dan [5]. Kawasan genom yang rentan terhadap variasi garis kuman dalam jumlah salinan dikecualikan dari analisis GISTIC menggunakan senarai variasi nombor salinan garis kuman (CNV). CNV adalah urutan DNA yang mungkin terdapat pada nombor salinan yang berlainan dalam garis kuman dua individu yang berbeza. Variasi garis kuman sedemikian boleh mengelirukan analisis GISTIC, yang menemui variasi nombor salinan somatik yang ketara dalam kanser. Perbincangan yang lebih mendalam diberikan dalam [6]. GISTIC kini menggunakan dua senarai pengecualian CNV. Satu adalah berdasarkan kesusasteraan yang menerangkan variasi nombor salinan, dan yang kedua datang daripada analisis variasi ketara antara normal darah dalam set data TCGA. Ini adalah ciri eksperimen. Hasil analisis yang diringkaskan dalam laporan ini boleh dimuat turun dari Pusat Penyelarasan Data TCGA. Sebanyak 93 aksesi beras termasuk landraces perwakilan dan kultivar moden (Fail tambahan 1: Jadual S1, Rajah 1a, b) telah dipilih untuk penjujukan semula genom keseluruhan dengan kedalaman purata kira-kira 50 × dan menghasilkan sejumlah 2.06 Tb bacaan mentah. Dengan menggunakan Nipponbare RefSeq [28] (versi 7.0) sebagai rujukan, liputan data penambahan aksesori ini berkisar antara 82.81% hingga 96.06%. Sampel akar padi yang ditanam dalam kultur hidroponik selama 35 hari dikumpulkan untuk RNA-Seq. Jumlah data setiap sampel adalah melebihi 5 Gb (julat dari 5.03 hingga 9.86 Gb) dan 576 Gb data RNA-seq mentah dijana daripada 93 aksesi secara keseluruhan. Kadar bacaan yang dipetakan secara unik antara 79.64% hingga 90.95% (Fail tambahan 1: Jadual S1). Hasil dan pengesahan CNV memerlukan 93 penambahan beras. a Pohon filogenetik 93 O. sativa aksesi berdasarkan penanda SNP, dengan dua O. glumaepatula aksesi (W1183 dan W1187, cawangan ungu) digunakan sebagai kumpulan luar. Dan O. sativa Kumpulan Xian dan kumpulan Geng masing-masing ditandai hijau kuning dan biru. Cabang merah mewakili dua tropika O. sativa penyertaan dari Asia Tenggara. b Bilangan pemadaman (merah) dan pendua (biru) bagi setiap penyertaan berbanding dengan Nipponbare RefSeq. c, d Taburan kedalaman di sekeliling GL7 (c) dan penganjur IPA1 (d). Bar merah dan biru masing-masing menunjukkan kawasan pendua dan normal. Setiap tong mewakili panjang 5 bp. Dan XF13 dan XF75 dipilih sebagai kawalan negatif. e, f Pengesahan PCR bagi pertindihan di sekeliling GL7 (c) dan penganjur IPA1 (d) Untuk memanggil CNV dalam genom, kami menyepadukan CNVnator [29] serta Delly [30] dan membangunkan algoritma baharu (dinamakan sebagai CtgRef-CNV), yang menggabungkan kaedah pemasangan kedalaman bacaan dan de novo (Fail tambahan 2: Rajah S1). Kami mula-mula mengumpulkan genom setiap aksesi oleh CtgRef-CNV dan kemudian memetakan bacaan NGS dari setiap aksesi ke genom tersusunnya sendiri untuk mendapatkan data kedalaman. Berdasarkan data kedalaman dan hasil penjajaran (jumlah salinan setiap blok penjajaran) antara genom pertanyaan dan genom rujukan, kami mengira kedalaman setiap fragmen genom rujukan, yang digunakan untuk memanggil CNV. Kami kemudian menentukan batas CNV menggunakan strategi serupa CNVnator [29] (lihat "Kaedah"). Dengan memetakan bacaan ke genomnya sendiri, CtgRef-CNV mengurangkan potensi bias pemetaan kerana perbezaan antara genom pertanyaan dan genom rujukan. Di samping itu, CtgRef-CNV menggunakan data kedalaman yang diubah untuk memanggil CNV, yang dapat mengelakkan kelemahan kaedah berasaskan pemasangan dalam mengesan kawasan berbilang salinan dengan sedikit perbezaan urutan. Kemudian kami menyaring CNV yang dikesan dengan ketiga-tiga kaedah ini dengan standard yang ketat untuk mendapatkan set data CNV akhir setiap sampel. Dalam piawaian penapis kami, kedalaman bacaan, bacaan berpecah dan pasangan bacaan bercanggah telah diambil kira. Untuk pendua, peratusan kawasan kedalaman tinggi tidak kurang dari 50%. Untuk pemadaman, liputan hendaklah tidak lebih daripada 50%, dan bilangan bacaan pecahan/pasangan bacaan bercanggah dalam hulu dan hiliran 500 bp daripada dua titik putus hendaklah tidak kurang daripada 5 (Untuk butiran lanjut lihat “Kaedah”) . Saiz genom yang dipasang de novo sebanyak 93 aksesi adalah antara 317.1 hingga 406.8 Mb, dengan saiz N50 contig sebanyak 85 aksesi yang lebih besar daripada 10 kb. Hasil BUSCO menunjukkan kelengkapan 89 gen akses lebih tinggi daripada 90% (Fail tambahan 1: Jadual S1). Untuk mengungkap pemandangan CNV di antara beras yang berlainan, kami memanggil CNV dari sampel ini menggunakan CNVnator, Delly, dan CtgRef-CNV kami. Berbanding dengan genom rujukan Nipponbare, nombor CNV dalam genom setiap aksesi bervariasi dari 2000 hingga 8000 (Gambar 1b), yang menunjukkan terdapat perbezaan genomik yang signifikan antara subspesies padi. Bilangan CNV di Oryza sativa indica (Xian) kumpulan [31] adalah lebih tinggi daripada itu dalam O. sativa japonica (Geng) kumpulan [31] (Rajah 1a, b, dan fail Tambahan 2: Gambar S3a, P nilai & lt 2.2 × 10 - 16), menunjukkan bahawa jumlah variasi dalam subspesies kurang daripada yang terdapat dalam subspesies dari segi CNV, yang selaras dengan hasil SV di Zhang et al. [32] dan Zhou et al. [33]. Bagi setiap tetingkap tidak bertindih 500-kb dalam genom rujukan Nipponbare, lebih daripada 7 CNV secara purata telah dikesan (Fail tambahan 2: Rajah S2), dan taburan CNV pada sama ada kromosom yang berbeza atau kawasan kromosom yang berbeza adalah tidak sekata (Tambahan fail 2: Gambar S2, dan fail Tambahan 2: Gambar S3c). Kami mengesan sejumlah 32.051 CNV (Fail tambahan 3: Jadual S2) dari 93 aksesi ini, di mana 120 CNV lebih besar daripada 100 kb. Panjangnya menunjukkan taburan berbentuk L khas (Fail tambahan 2: Gambar S3b). Beberapa CNV didapati berkaitan dengan variasi sifat agronomi penting dalam beras. Sebagai contoh, kami mengesan pendua yang tersembunyi GL7 (LOC_Os07g41200) [23] dalam tujuh aksesi, dan peristiwa pertindihan berlaku pada penganjur IPA1 (LOC_Os08g39890) [25] dalam dua aksesi, masing-masing (Fail tambahan 4: Jadual S3). Semua kejadian pendua ini disahkan oleh eksperimen PCR (Gambar 1c – f). Untuk menilai lebih lanjut kesahihan hasil CNV kami, 10 lokasi CNV rawak telah disahkan dalam 15 aksesi dengan qPCR (lihat "Kaedah"). Menurut hasil eksperimen, ketepatan CNV kami hampir 95% (Fail tambahan 2: Gambar S4 dan Fail tambahan 4: Jadual S4). Hasil ini menunjukkan bahawa kaedah kami adalah tepat. Lebih-lebih lagi, dalam analisis pokok filogenetik dan analisis komponen utama (PCA) berdasarkan CNV, kedua-dua subspesies pada dasarnya dipisahkan, yang sesuai dengan hasil filogenetik SNP (Fail tambahan 2: Gambar S5). Di samping itu, kami mendapati bahawa gen dengan nombor salinan tinggi yang melampau (tidak kurang daripada 10) dalam lebih daripada 5 aksesi adalah gen berbilang salinan biasa dan kebanyakan (92.12%) daripadanya menunjukkan tidak kurang daripada 10 jenis nombor salinan dan juga kebanyakan (84.24%) gen tidak menunjukkan perbezaan penduduk yang jelas (VST ≤ 0.2, Fail tambahan 4: Jadual S5). Kecuali untuk gen yang tidak diketahui fungsi, gen multi-salinan ini terutama (64.81%, Fail tambahan 4: Jadual S5) terdiri daripada gen pengekodan subunit protein ribosom, sintase ATP, sitokrom, dan beberapa komponen kompleks pemula transkripsi dan sistem fotosistem . Hasil ini mengesahkan bahawa pendekatan kami dapat mengesan CNV secara komprehensif dengan kepekaan tinggi. Untuk mengesahkan perbezaan ketepatan antara CtgRef-CNV, CNVnator dan Delly, tiga matriks nombor salinan 10 lokus CNV rawak dalam 15 capaian (Fail tambahan 4: Jadual S6) dibandingkan dengan keputusan qPCR (Fail tambahan 4: Jadual S4 ) secara berasingan. Menurut nombor salinan yang disahkan oleh qPCR, kami genotip 150 lokus ini menjadi DEL (penghapusan), DUP (pendua), dan CN1 (jenis biasa) untuk mengira ketepatan setiap jenis lokus dalam hasil tiga perisian (Fail tambahan 4 : Jadual S6, lihat "Kaedah"). Kami mendapati bahawa ketepatan DUP CNVnator adalah yang tertinggi (93.75%), sementara Delly mempunyai ketepatan tertinggi dalam pengesanan DEL (96.88%), dan ketepatan DUP (62.50%) dan DEL (76.56%) dari CtgRef-CNV adalah kedua-duanya antara kedua-dua perisian yang lain (Fail tambahan 4: Jadual S6, dan Jadual S7). Dalam pengesanan lokus CN1, terdapat sedikit perbezaan dalam ketepatan ketiga-tiga perisian (Fail tambahan 4: Jadual S6 dan Jadual S7). Kemudian, menggabungkan dengan peratusan tiga jenis lokus dalam 15 aksesi ini, kami mengira ketepatan tertimbang dari ketiga perisian tersebut (lihat "Kaedah"). Dan kami mendapati bahawa CtgRef-CNV kami mempunyai ketepatan berwajaran lebih tinggi (88.93%) daripada Delly (86.26%) atau CNVnator (84.84%, Fail tambahan 4: Jadual S7), yang menunjukkan bahawa CtgRef-CNV disyorkan semasa menggunakan data NGS untuk memanggil CNV. Kami juga menilai perbezaan keputusan CNV yang dikenal pasti oleh CtgRef-CNV, CNVnator dan Delly. Untuk menganalisis pertindihan CNV ketepatan tinggi antara tiga perisian, hasil penyaringan dari 15 akses (Fail tambahan 4: Jadual S8) oleh piawai kami dipilih sebagai data ujian. Pengenalpastian CNV yang sama telah dirujuk kepada kaedah dalam Wang et al. kajian [31]. Kami mendapati bahawa 10.16 18.97% (keseluruhan 4939) CNV dihasilkan oleh CNVnator, dan 22.88 56.33% (berjumlah 7789) daripada CNV yang dijana oleh Delly, bertindih dengan yang dikenal pasti oleh CtgRef-CNV (Fail tambahan 4: Jadual S8). Dan bilangan CNV bertindih antara CNVnator dan Delly adalah jauh lebih tinggi (22,462 Fail tambahan 4: Jadual S8), yang mungkin disebabkan oleh kedua-dua algoritma ini dibina berdasarkan hasil pemetaan bacaan berasaskan rujukan. Di samping itu, kami juga memilih dua set CNV tanpa pilihan dari 15 akses, dan menyaring ketepatannya oleh perisian IGV [34]. Set pertama ialah CNV yang dikesan oleh CtgRef-CNV tetapi tidak dikesan oleh CNVnator, antaranya 90.67% juga tidak dikesan oleh Delly, dan ketepatannya ialah 83.33% (Fail tambahan 4: Jadual S9). Kumpulan lain adalah CNV yang dikesan oleh CNVnator tetapi tidak dikesan oleh CtgRef-CNV, di antaranya 68% juga dikesan oleh Delly, dan ketepatannya adalah 86% (Fail tambahan 4: Jadual S10). Selain itu, kadar pengesahan qPCR bagi hasil integratif adalah hampir 95% (disebutkan di atas Fail tambahan 2: Rajah S4 dan Fail tambahan 4: Jadual S4), yang jauh lebih tinggi daripada setiap perisian (84.84%, 86.26% atau 88.93% Fail tambahan 4: Jadual S7). Hasil ini menunjukkan bahawa penyatuan pelbagai algoritma penting untuk meningkatkan hasil panggilan CNV berdasarkan data NGS. Oleh itu, kami menggunakan hasil integrasi ketiga-tiga perisian sebagai set CNV terakhir kami untuk setiap penyediaan beras. Panggilan CNV yang tepat sangat penting di kawasan genomik, dan banyak set data CNV telah diterbitkan dalam beras [31, 35,36,37,38]. Secara keseluruhan, 641 CNV dikesan antara Guangluai-4 dan Nipponbare oleh CGH array [35]. Kami mendapati bahawa 302 daripada 641 CNV mereka juga dikesan oleh kajian ini (Fail tambahan 4: Jadual S11). Selain itu, keputusan kami mengesan lebih daripada 7000 CNV antara Guangluai-4 dan Nipponbare, yang tidak ditemui dalam kerja sebelumnya [35]. Keputusan ini menunjukkan kaedah kami menggunakan data NGS boleh mengesan CNV secara lebih komprehensif daripada teknologi hibridisasi genomik perbandingan (CGH) berasaskan tatasusunan yang digunakan sebelumnya. Pada tahun 2017, genom rujukan hampir lengkap bagi indica varieti beras Shuhui-498 telah dipasang dan 9909 variasi kehadiran (PV, ≥ 500 bp) dalam Nipponbare telah dikenal pasti, berbanding dengan 17 genom beras yang dipasang yang lain [36]. Dan 65.34% (6475) PV ini bertindih dengan 49.35% (6833 / 13.847) dari teras teras kami (Fail tambahan 4: Jadual S12). Terdapat 25.380 dan 5813 gen yang dikenal pasti sebagai gen "Core" dan "Dispensable", dalam analisis pan-genom (Fail tambahan 2: Gambar S6) [37]. Dengan menggunakan kriteria yang sama, kebanyakan gen “Core” (23,941) bertindih dengan gen inti yang dikenal pasti dalam kerja kami (Fail tambahan 2: Gambar S6). Sebagai tambahan, kami mengekstrak 9632 CNV tidak lebih pendek daripada 1 kb dari variasi genom 3010 padi beras [31] dan mendapati bahawa 84.94% (8181) daripadanya bertindih dengan CNV teras kami (Fail tambahan 4: Jadual S13). Baru-baru ini, SV daripada 3000 genom beras juga dianalisis oleh kumpulan lain [38] dan 183, 943 CNV (≥ 1 kb) telah dipilih daripada keputusan SV mereka. Dengan kaedah yang dijelaskan dalam Wang et al. [31], keseluruhan 52,883 CNV teras dihasilkan. Kami mendapati bahawa 60.26% (31,865) daripada CNV teras tersebut bertindih dengan set CNV teras kami (Fail tambahan 4: Jadual S14). Semua hasil ini menunjukkan bahawa set CNV kami adalah makanan tambahan yang berharga untuk kumpulan data variasi genom padi. Salah satu kesan utama CNV adalah menyebabkan pertukaran tahap ekspresi gen [21, 23, 24, 39], dengan mengganggu gen, dan menjejaskan kawasan kawal selia [10, 22, 25, 40, 41]. Dalam makalah ini, mempertimbangkan kesan bias penjujukan pendek pada pengenalpastian sempadan CNV, hanya gen, liputan wilayah mana lebih dari 50% oleh CNV, digunakan untuk analisis korelasi. Sekiranya gen menunjukkan nombor salinan yang sama dalam aksesi yang berbeza, tahap ekspresi (TPM) gen dalam aksesi yang sesuai akan dikelompokkan bersama. Matriks nombor salinan 14,435 gen pada 93 aksesi dihasilkan dan hanya 2642 gen yang dipilih untuk analisis korelasi antara tahap ekspresi dan nombor salinan mengikut standard ketat kami (lihat "Kaedah"). Kolerasi positif yang ketara bermakna tahap ekspresi meningkat dengan peningkatan nombor salinan, manakala korelasi negatif yang ketara ialah tahap ekspresi berkurangan dengan peningkatan nombor salinan (selaras dengan P nilai & lt 0.05, lihat "Kaedah"). Secara mengejutkan, 82.32% gen yang dianalisis (Fail tambahan 5: Jadual S15, dan Fail tambahan 6: Jadual S18) tidak menunjukkan hubungan yang signifikan antara tahap ekspresi dan nombor salinan dan 13.17% gen mempunyai korelasi positif secara signifikan (Fail tambahan 5: Jadual S16 dan Fail tambahan 6: Jadual S18). Selain itu, kami mendapati bahawa 4.50% gen menunjukkan korelasi negatif (Fail tambahan 5: Jadual S17 dan Fail tambahan 6: Jadual S18). Semua keputusan korelasi telah disahkan lagi oleh keputusan analisis kesan dos (Rajah 2a–c). Untuk GL7 lokus, korelasi yang ketara telah dikesan (Rajah 2d), yang konsisten dengan kerja sebelumnya [23]. Analisis varians menunjukkan perbezaan yang signifikan dalam tahap ekspresi antara bilangan salinan yang berbeza kira-kira 75% daripada gen yang berkorelasi (P nilai & lt 0.05, Fail tambahan 6: Jadual S18). Kesan variasi nombor salinan pada ekspresi gen. a–c Pembahagian lipatan ekspresi (pendua ke nombor salinan normal) gen yang berkorelasi positif (agen yang berkorelasi negatif (b, dan gen yang tidak berkaitan secara signifikan (c). CN1 bermaksud nombor salinannya sama dengan 1 dan seterusnya. * dan ** menunjukkan perbezaan yang signifikan pada P & lt 0.05 dan P & lt 0,01, masing-masing, ditentukan oleh ujian Tukey HSD di R. The outliers (dari μ ± 3σ) tidak dipaparkan. d Korelasi antara nombor salinan dan tahap ekspresi bagi GL7 (LOC_Os07g41200), dan outlier TPM daripada kumpulan CN1 telah dibuang. Ujian pas dan signifikan bagi persamaan linear dilakukan oleh fungsi "trendline" dari pakej "basicTrendline" di R. e Pengagihan kadar peningkatan dua statistik gen berkorelasi positif: AddCN1 (tambah satu salinan pada satu masa) dan DupCN1 (penduaan berbanding nombor salinan biasa). Nilai lebih daripada 400% tidak termasuk dalam gambar. Data di kawasan berbayang merah jambu merangkumi lebih daripada 80% setiap kumpulan. f Kesan berbeza duplikasi tandem (TD) dan duplikasi bukan tandem (nonTD) pada tahap ekspresi gen.* dan ** menunjukkan perbezaan yang signifikan pada P& lt 0.05 dan P < 0.01, masing-masing, ditentukan oleh ujian Wilcoxon dalam R. Outlier (daripada μ ± 3σ) tidak dipaparkan Untuk gen yang berkorelasi positif, kadar peningkatan tahap ekspresi gen pendua terutamanya (menyumbang & gt 81%) bervariasi dari −45% hingga 185% (Gbr. 2e), dengan membuat perbandingan antara tahap ekspresi gen dan normal nombor salinan (CN = 1). Untuk setiap salinan gen tambahan, kadar kenaikan (membandingkan dengan CN1) pada tahap ekspresi juga terutama (menyumbang & gt 87%) bervariasi dari −45% hingga 185% (Gbr. 2e) dan kadar ini menurun ketika bilangan salinan meningkat (Fail tambahan 6: Jadual S19). Semasa pada keseluruhan genom, kesan penduaan (bukan poliploidisasi) pada ekspresi gen adalah dua arah, dan kadar pertumbuhan menunjukkan sebaran simetri kira-kira pada kedua sisi paksi menegak (Fail tambahan 2: Gambar S7), yang mencerminkan kekuatan peraturan ekspresi gen dalam vivo. Di samping itu, kami juga mendapati bahawa kesan penduaan tandem pada ekspresi pada amnya lebih kuat daripada yang tersebar, kecuali ketika nombor salinannya 5 (Gambar 2f). Keputusan ini menunjukkan bahawa kesan dos gen tidak eksponen atau linear, yang konsisten dengan laporan sebelumnya [42]. Konsekuensi evolusi utama gen pendua adalah pseudogenisasi, neofungsi (Neo-), subfungsi (Sub-), dan tidak membezakan (Bukan) [43,44,45,46,47,48]. Pasangan pendua, kedua-duanya boleh dipasang daripada bacaan NGS, telah dipilih untuk analisis selanjutnya. Dan secara keseluruhan, kami mengenal pasti 8163 pasangan gen daripada gabungan 93 aksesi yang dipasang. Dengan menggunakan kaedah pengenalan domain protein, kami mendapati bahawa sekitar 5.39% (440/8163) pasangan pendua mengalami perbezaan evolusi fungsi gen (Neo- / Sub-) dan kira-kira 36.46% (2976/8163) dan 58.15% (4747/8163) pasangan pendua mengalami pseudogenisasi dan pembezaan masing-masing (Fail tambahan 6: Jadual S20). Dalam analisis kami, enam tahap (termasuk "Terbaru," Gambar 3a) digunakan untuk menentukan usia kejadian pendua gen, dipisahkan dengan "Ks (kadar penggantian nukleotida sinonim) > 0” dan empat lagi Ks nilai yang sepadan dengan empat peristiwa spesiasi semasa perbezaan Oryza genera, menurut kajian lepas [49]. The Ks pengedaran pasangan bukan pseudogenetik (5338) menyiratkan bahawa kejadian pendua berlaku sepanjang enam peringkat, terutama pada masa lalu (lebih daripada 35%, Gambar 3a, Jadual 1). Pada setiap tahap, jumlah pasangan pendua yang tidak membezakan benar-benar unggul (lebih dari 80%, kecuali 3/5 pada tahap II, Jadual 1). Di antara pasangan pendua tahap I, lapan pendua tidak berfungsi, menunjukkan bahawa pembezaan fungsional juga dapat dicapai dalam waktu yang singkat. Menariknya, dalam dua tempoh terkini (peringkat I dan II), semua pasangan pembezaan berfungsi adalah subfungsi, tetapi tiada neofungsional diperhatikan. Walau bagaimanapun, pada peringkat lain, bahagian pasangan neofungsi menunjukkan trend yang semakin meningkat dengan penuaan penduaan (Jadual 1), yang mengesahkan bahawa subfungsionalisasi adalah keadaan pertengahan neofungsi [50]. Ekspresi dan evolusi gen pendua. a The Ks pembahagian pasangan pendua bukan pseudogenetik. Keempat-empatnya Ks nilai (garis putus merah ditandai) mewakili peristiwa evolusi utama dalam evolusi Oryza genera, masing-masing, merujuk dalam Stein et al. (2018). "Terkini" bermaksud mereka Ks nilai adalah 0. b Komponen salinan pseudogen. Kira-kira separuh daripada salinan pseudogene tidak dapat dibezakan. Dan selebihnya dikuasai oleh salinan keturunan. c – e Perbezaan pada Ka (c), Ks (d), Ka/Ks (edan antara gen neo-fungsional (Neo-), subfungsional (Sub-), tidak dibezakan (Non-) duplikasi, pasangan gen pseudogene berfungsi (Gene-Ψ), dan pasangan pseudogene-pseudogene (Ψ-Ψ). * dan ** menunjukkan perbezaan yang signifikan pada P & lt 0.05 dan P & lt 0.01, masing-masing, ditentukan oleh ujian Wilcoxon di R. The outliers (daripada μ ± 3σ) tidak dipaparkan. f, g Perkongsian dos major/minor (f) dan ibu bapa / keturunan (g) salinan. Lipatan ekspresi dinormalisasi ke nilai TPM rata-rata gen normalnya yang sepadan (CN = 1). ** menunjukkan perbezaan yang signifikan pada P < 0.01 ditentukan oleh ujian Tukey HSD dalam R. Outlier (daripada μ ± 3σ) tidak dipaparkan. h, i Bahagian salinan utama / kecil (h) atau salinan yang dibezakan (i) antara salinan ibu bapa dan keturunan Untuk menganalisis hubungan antara kekangan terpilih dan pembezaan fungsi gen pendua, Ka (kadar penggantian nukleotida yang tidak dinamakan), Ks, dan Ka/ Ks nisbah kumpulan yang berbeza (Neo-, Sub-, Non-, Gene-Ψ, dan Ψ-Ψ) dikira menggunakan kaedah Nei-Gojobori [51]. Nilai pasangan pendua yang terlibat dalam pseudogene (Gene-Ψ, dan Ψ-Ψ) adalah sangat tinggi daripada pasangan pendua lain (semua P nilai adalah & lt 2.2 × 10 - 16, Rajah 3c – e). 84.18% (2895/3439) daripada Ka/ Ks nilai pasangan pendua fungsional (Neo-, Sub-, dan Non-) kurang dari 1, di antaranya pasangan yang tidak dibezakan (Non-) jauh lebih tinggi daripada pasangan yang dibezakan (Neo- dan Sub-, P nilai: 7.292 × 10 − 9 dan < 2.2 × 10 − 16 , Rajah 3e), menunjukkan bahawa ia tertakluk kepada darjah kekangan pemilihan yang berbeza, diperkukuh selepas pembezaan fungsi. Berbanding dengan pasangan yang tidak berfungsi, pasangan yang tidak berfungsi mengumpulkan lebih banyak mutasi yang tidak dinamakan (P nilai = 6.06 × 10 − 4 , Rajah 3c) dalam masa yang lebih lama (tiada kepentingan, P nilai = 0.05929), jadi kekangan pemilihan pada pasangan yang tidak berfungsi secara signifikan lebih kuat (P nilai = 8.658 × 10 - 4, Rajah 3e), dan urutannya lebih konservatif. Mengenal pasti salinan induk/anak daripada pasangan gen menawarkan peluang untuk mencirikan perbezaan gen pendua. Kaedah berdasarkan blok collinearity yang dipelihara dalam populasi (lihat "Metode") dilakukan, dan menghasilkan sejumlah 3129 pasangan pendua yang dibezakan. Gen pendua dengan lebih daripada dua salinan (18 kumpulan) dibuang. Hasil kajian kami menunjukkan bahawa bahagian salinan pseudogene dalam salinan keturunan (43,30%) jauh lebih tinggi daripada salinan induk (15,56%, Gambar 3i). Dan sejajar dengan itu, dalam pseudogenes, bahagian salinan anak (38.22%) adalah lebih tinggi daripada salinan induk (13.73%, Rajah 3b). Sebagai tambahan, 77.92% (2424/3111) salinan induk gagal mengubah fungsinya (Bukan dalam Gambar 3i). Oleh itu, salinan induk terutamanya mengekalkan fungsi gen asalnya, terutama ketika salinan keturunan menjadi pseudogenes, peratusan salinan induk mengekalkan fungsi asal tetap meningkat (89.92%, Fail tambahan 2: Gambar S8). Jadi, keputusan kami mengesahkan bahawa salinan keturunan lebih berkemungkinan menjadi pseudogene dalam beras dan gen pendua adalah tidak simetri dalam nasib evolusi mereka. Variasi khusus salinan (CSV), sama dengan nukleotida unik tunggal (SUN) [52], digunakan untuk menetapkan tahap ekspresi gen. Oleh itu, pasangan pendua tanpa perbezaan urutan dikecualikan dari analisis ekspresi salinan kami. Kami benar-benar memperoleh 548 pasangan pendua, yang tahap ekspresi khusus salinannya dapat dibagi dalam data RNA-Seq root dari tisu akar (Fail tambahan 6: Jadual S21). Keputusan kami menunjukkan bahawa tahap ekspresi salinan ekspresi utama adalah jauh lebih tinggi daripada tahap ekspresi minor (Rajah 3f, P nilai & lt 1.0 × 10 - 7), dan sebahagian besar (97.57%) pasangan pendua utama-kecil ini dapat dikesan kembali ke tahap sebelum perbezaan beras Asia (& gt 0,55 mya, Ks > 0.0072, Fail tambahan 2: Rajah S9). Lebih menarik lagi, kami mendapati bahawa tahap ekspresi salinan keturunan juga jauh lebih tinggi dinyatakan daripada salinan induk (Gambar 3g, P nilai = 4.44 × 10 - 5). Sebaliknya, peratusan salinan utama dalam salinan keturunan (64.84%) adalah lebih tinggi daripada salinan induk (35.16%, Rajah 3h). Oleh itu, keputusan kami menyokong bahawa salinan keturunan lebih cenderung untuk menyatakan terutamanya selepas peristiwa pendua dan gen pendua juga tidak simetri dalam tahap ekspresi mereka. Kesimpulannya, evolusi asimetri gen yang digandakan dalam beras tercermin dalam nasib evolusi dan tahap ekspresi. Sarkoma pediatrik merangkumi kumpulan neoplasma heterogen yang jarang berlaku yang timbul pada tulang dan tisu lembut di dalam badan [1]. Walaupun terdapat pendekatan multi-modaliti untuk merawat sarkoma pediatrik, hasil klinikal bagi pesakit-pesakit ini masih tetap lemah kerana timbulnya kambuh / kambuhan yang dimulakan oleh pelbagai perubahan molekul [8,9,10]. Walaupun sarkoma pediatrik tertentu seperti RMS dan ESFT lebih ditakrifkan secara genetik dengan mempunyai translokasi kromosom, sarkoma pediatrik lain seperti OS dianggap lebih kompleks secara genetik [23,24,25,26]. Sebagai contoh, ESFT dicirikan secara genetik oleh translokasi kromosom tertentu t (1122) (q24q12) dalam 85% ESFT [28]. Walau bagaimanapun, baki 15% ESFT mempunyai translokasi kromosom lain, yang melibatkan anggota keluarga FET dan ETS lain [9]. Begitu juga, rhabdomyosarcoma alveolar dicirikan oleh translokasi kromosom t(213) (q35q14) atau t(113)(p36q14) yang menggabungkan PAX3 atau PAX7 dengan FOXO1 [17, 18]. Sebaliknya, dalam osteosarkoma sporadis terdapat pelbagai perubahan genetik seperti penyimpangan pada kromosom 15q dan 8p di mana penyusunan semula yang tidak konsisten dan perubahan nombor salinan telah diperhatikan [35,36,37]. Terlepas dari landskap genetik mereka, usaha oleh beberapa kumpulan pelbagai institusi telah terus berjalan untuk menyelidiki pilihan terapi baru untuk meningkatkan kelangsungan hidup keseluruhan untuk keganasan pediatrik ini. Walau bagaimanapun, walaupun dengan kemajuan ini, kadar kelangsungan hidup 5 tahun untuk pesakit sarkoma pediatrik yang kambuh / berulang masih tetap kurang daripada 30% [1, 2]. Oleh itu, bersama-sama dengan mengenal pasti sasaran hiliran sarkoma kanak-kanak yang berciri molekul dan kompleks ini, adalah sama penting untuk menilai dan mengenal pasti perubahan genetik lain yang diperoleh seperti CNV yang melibatkan penguatan genetik dan/atau penghapusan yang mungkin memberikan pilihan terapeutik baru untuk meningkatkan hasil klinikal [ 29]. Terutama, OS, RMS, dan ESFT mempamerkan pelbagai CNV yang boleh berfungsi sebagai biomarker prognostik untuk sarkoma pediatrik ini [23,24,25,26,27,28,29,30,31]. Objektif kami untuk kajian ini adalah untuk mengenal pasti CNV yang biasa untuk ketiga-tiga sarkoma pediatrik (OS, RMS, ESFT) dan menilai peranan CNV ini sebagai tindak balas kepada agen yang merosakkan DNA untuk menentukan sama ada mereka adalah biomarker ramalan tindak balas terapeutik. Kajian komprehensif ini mengkaji perubahan band dan gen penguatan dan penghapusan nombor salinan somatik pada 27 sarkoma tulang dan tisu lembut menggunakan susunan aGGH (Affymetrix). Disebabkan peningkatan ketersediaan set data yang tersedia secara umum, sumber yang lebih baik dan cekap untuk penjujukan genomik integratif, dan pencirian molekul tumor khusus pesakit, ia kini boleh dilaksanakan dan berpotensi digunakan untuk membimbing pemilihan terapi yang diperibadikan. Melalui analisis genomik perbandingan OS, RMS dan ESFT dan subjek yang sihat, kami mengenal pasti CNV (penguatan dan pemadaman) dalam pelbagai kawasan kromosom (Rajah 2). Analisis bioinformatik juga dilakukan untuk mengenal pasti corak ketidakstabilan genom pada sarkoma pediatrik ini. Sepengetahuan kami, ini adalah kajian pertama untuk membandingkan ketidakstabilan genom antara OS, RMS, ESFT dan kawalan populasi yang sihat. Gen yang berkaitan dengan kelangsungan hidup dan / kambuhnya sarkoma ini dengan kepentingan statistik didapati pada lengan panjang kromosom 8 dengan frekuensi penguatan yang jauh lebih tinggi yang diperhatikan pada OS (0.8-0.92). Ini termasuk MYC (8q24.21), LRRC6 (8q24.22), MTSS1 (8q24.13), ODF1 (8q22.3), SQLE (8q24.13), RAD21 (8q24.11), TRPS1 (8q23.2) , PMP2 (8q21.13), TMEM65 (8424.13). Dalam ESFT, terdapat frekuensi penguatan yang lebih tinggi (0,5-0,7) untuk majoriti pita dan frekuensi penghapusan yang lebih rendah (0-0,1) pada kromosom 8. Hasil yang serupa diperoleh dalam RMS. CNV, khususnya, amplifikasi yang melibatkan kromosom 8 juga telah dilaporkan oleh kumpulan lain dalam OS, RMS, dan ESFT, oleh itu, mengesahkan lagi data kami [23,24,25,26,27,28,29,30,31]. Walaupun penerokaan lebih lanjut diperlukan untuk menilai peranan dan fungsi banyak gen yang diperkuatkan yang terdapat pada kromosom 8 pada sarkoma pediatrik, satu gen utama yang telah banyak dikaji dalam sarkoma pediatrik ini adalah MYC, yang berperanan dalam pelbagai jenis barah lain [36 , 37]. MYC adalah faktor transkripsi yang diketahui mengatur fungsi biologi kritikal seperti kitaran sel, apoptosis, dan metabolisme [36]. Perubahan genetik yang mengakibatkan perubahan kepada MYC, seperti amplifikasi MYC, boleh mendisregulasi fungsi normalnya dan mengubah keseimbangan antara penindas tumor berbanding tumorigenik [36]. Seiring dengan perubahan kromosom yang diperhatikan pada kromosom 8, penyimpangan yang lebih kecil pada OS, RMS, dan ESFT juga dikenal pasti pada kromosom 1q, 12q dan x. Lengan panjang (1q) kromosom 1 juga menandakan penguatan dengan gen SELL menunjukkan kepentingan yang lebih tinggi dalam OS. Majoriti pita pada lengan panjang (1q) kromosom 1 mempunyai frekuensi penguatan 0,2-0,4 sementara frekuensi penghapusan adalah antara 0,1-0,2 pada ES. Beberapa analisis CNV [17, 28, 30, 31] telah mengesahkan dan mengesahkan ketepatan hasil kami. Walau bagaimanapun, CNV yang dikaitkan dengan pengulangan dalam sarkoma pediatrik ini berkorelasi dengan prognosis yang buruk oleh translokasi kromosom tertentu atau variasi dalam OS, RMS, dan ESFT yang boleh berfungsi sebagai biomarker prognostik untuk penyakit ini [4,5,6,7]. Sehingga kini, korelasi antara biomarker prognostik ini dan tindak balas mereka terhadap terapi masih memerlukan penerokaan lanjut menggunakan model sarkoma pediatrik dalam vivo. Kami mengenal pasti CNV dalam 63 gen di antara tiga sarkoma pediatrik (OS, RMS, dan ESFT) yang berkorelasi dengan kambuhnya penyakit, menunjukkan bahawa CNV dalam 63 gen mungkin memberikan biomarker prognostik untuk sarkoma ini. 63 gen mempunyai frekuensi penguatan yang tinggi serta penghapusan pada sarkoma ini. Sebagai contoh, gen seperti KIF7, IGF1R dan SNRPA1 pada 15q16.1-15q16.4 dikuatkan dalam OS. Dalam amplifikasi RMS PAX3 (2q36.1) dengan kekerapan 0.413 diperhatikan, manakala kekerapan pemadaman tinggi 0.9-1 terbukti dalam gen CFL1, ALG2, PRKAB2, ITGAL, PEX1, PRKCD, AP2A1, KIN, ITGAM, THAP2. . ESFT menunjukkan STAG2 yang sering bermutasi pada kromosom Xq25 [2, 40] dengan frekuensi penghapusan tinggi 0.75 dalam kajian kami. Dengan menyepadukan pemeriksaan dadah berskala besar untuk menilai profil tindak balas ubat CNV yang dikenal pasti dalam 63 gen daripada 27 garisan sel sarcoma, telah dikenalpasti bahawa 33 gen dengan CNV mempunyai tindak balas sama ada sensitif atau tidak sensitif kepada 17 kemoterapi. CNV dalam 33 gen ini dapat berfungsi sebagai potensi biomarker ramalan tindak balas terapeutik yang masih perlu diterokai lebih lanjut. Contohnya termasuk CNV yang dikenal pasti dalam IGFR1 (Jadual 3). IGFR1 adalah reseptor untuk faktor pertumbuhan insulin hormon pertumbuhan (IGF) yang dapat memantapkan percambahan sel [26]. Pengikatan IGF kepada IGFR1 memulakan lata tunggal hiliran untuk meningkatkan percambahan sel dan mengurangkan apoptosis, yang diperhatikan dalam sarkoma kanak-kanak ini [26]. Rajah 6a, b menunjukkan bahawa CNV dalam IGFR1 mengakibatkan IGFR1 berfungsi sebagai biomarker sensitif tindak balas terapeutik terhadap Clofarabine. Clofarabine ialah analog nukleosida purin yang boleh menghalang polimerase DNA/RNA dan menggalakkan apoptosis sel kanser [41, 42]. Kajian ini memberikan pandangan baru mengenai bagaimana perubahan genetik seperti CNV berpotensi berfungsi sebagai biomarker prognostik dan biomarker ramalan tindak balas terapeutik pada sarkoma pediatrik. Pendekatan farmakologi sistem yang dijelaskan di sini menyediakan platform untuk memperibadikan terapi yang dapat meningkatkan hasil klinikal dalam keganasan pediatrik yang agresif [43, 44]. GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Saluran paip mula-mula menapis sampel biasa daripada data nombor salinan tersegmen dengan memeriksa kod bar TCGA dan kemudian melaksanakan versi GISTIC 2.0.21 (versi tugas Firehose: 127). Terdapat 19 sampel tumor yang digunakan dalam analisis ini: 13 keputusan peringkat lengan yang ketara, 2 amplifikasi fokus yang ketara, dan 2 pemadaman fokus yang ketara ditemui. Rajah 1. Kedudukan genom kawasan yang diperkuat: paksi-X mewakili isyarat penguat yang dinormalisasi (atas) dan makna dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25. Jadual 1. Dapatkan Jadual Amplifikasi Jadual Penuh - 2 amplifikasi penting ditemui. Klik pautan dalam lajur terakhir untuk melihat senarai komprehensif gen calon. Sekiranya tidak ada gen yang dikenal pasti dalam puncak, gen terdekat muncul dalam tanda kurung. Ini adalah senarai lengkap dikuatkan gen di puncak lebar untuk 8p11.23. Jadual S1. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7]. Ini adalah senarai lengkap dikuatkan gen di puncak lebar untuk 20q13.2. Jadual S2. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7]. Gambar 2. Kedudukan genom kawasan yang dihapuskan: paksi-X mewakili isyarat penghapusan dinormalisasi (atas) dan kepentingan dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25. Jadual 2. Dapatkan Jadual Penghapusan Jadual Penuh - 2 penghapusan ketara dijumpai. Klik pautan dalam lajur terakhir untuk melihat senarai komprehensif gen calon. Sekiranya tidak ada gen yang dikenal pasti dalam puncak, gen terdekat muncul dalam tanda kurung. Ini adalah senarai lengkap dipadamkan gen di puncak lebar untuk 8p21.3. Jadual S3. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7]. Ini adalah senarai lengkap dipadamkan gen di puncak lebar untuk 11q22.3. Jadual S4. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7]. Jadual 3. Dapatkan jadual kepentingan Aras lengan penuh - 13 keputusan penting dijumpai. Potongan keertian adalah pada nilai Q=0.25. Fail Segmentasi: Fail segmentasi mengandungi data tersegmentasi untuk semua sampel yang dikenal pasti oleh GLAD, CBS, atau beberapa algoritma segmentasi lain. (Lihat format fail SENANG dalam dokumentasi format fail Genepattern.) Ia ialah fail enam lajur yang dibataskan tab dengan baris pertama pilihan yang mengenal pasti lajur. Posisi berada dalam unit pasangan asas. Tajuk lajur adalah: (1) Sampel (nama sampel), (2) Kromosom (nombor kromosom), (3) Posisi Mula (kedudukan permulaan segmen, dalam pangkalan), (4) Posisi Akhir ( kedudukan akhir segmen, dalam pangkalan), (5) Penanda bilangan (bilangan penanda dalam segmen), (6) Seg.CN (log2 () -1 nombor salinan). Fail Penanda: Fail penanda mengenal pasti nama penanda dan kedudukan penanda dalam set data asal (sebelum pembahagian). Ia ialah fail tiga lajur, tab-dibataskan dengan pengepala pilihan. Tajuk lajur adalah: (1) Nama Penanda, (2) Kromosom, (3) Kedudukan Penanda (dalam pangkalan). Genom Rujukan: Fail genom rujukan mengandungi maklumat mengenai lokasi gen dan sitoband pada binaan genom tertentu. Fail genom rujukan dibuat di Matlab dan tidak dapat dilihat dengan penyunting teks. Fail CNV: Terdapat dua pilihan untuk fail cnv. Pilihan pertama membolehkan CNV dikenal pasti dengan nama penanda. Pilihan kedua membolehkan CNVs dikenal pasti mengikut lokasi genom. Pilihan # 1: Dua lajur, fail yang dibatasi tab dengan baris tajuk pilihan. Nama penanda yang diberikan dalam fail ini mesti sepadan dengan nama penanda yang diberikan dalam fail penanda. Pengecam CNV adalah untuk kegunaan pengguna dan boleh dibuat sewenang-wenangnya. Tajuk lajur adalah: (1) Nama Penanda, (2) Pengenal CNV. Pilihan # 2: Lajur 6, fail yang dibatasi tab dengan baris tajuk pilihan. 'Pengenal CNV' adalah untuk kegunaan pengguna dan boleh sewenang-wenangnya. 'Narrow Region Start' dan 'Narrow Region End' juga tidak digunakan. Pengepala lajur ialah: (1) Pengecam CNV, (2) Kromosom, (3) Permulaan Wilayah Sempit, (4) Hujung Wilayah Sempit, (5) Mula Wilayah Luas, (6) Hujung Wilayah Luas Ambang Penguatan: Ambang untuk penguatan nombor salinan. Kawasan dengan nisbah log2 di atas nilai ini dianggap diperkuat. Ambang Had: Ambang untuk penghapusan nombor salinan. Kawasan dengan nisbah log2 di bawah nilai negatif ini dianggap penghapusan. Nilai Had: Nilai had minimum dan maksimum pada data yang dianalisis. Kawasan dengan nisbah log2 lebih besar daripada topi ditetapkan ke kawasan nilai topi dengan nisbah log2 kurang dari -cap nilai ditetapkan ke -cap. Nilai mesti positif. Potongan Panjang Luas: Ambang digunakan untuk membezakan luas daripada peristiwa fokus, diberikan dalam unit pecahan lengan kromosom. Buang X-Kromosom: Bendera menunjukkan sama ada akan membuang data dari kromosom X sebelum dianalisis. Nilai yang dibenarkan= <1,0>(1: Buang X-Kromosom, 0: Jangan keluarkan X-Kromosom. Tahap Keyakinan: Tahap keyakinan yang digunakan untuk mengira kawasan yang mengandungi pemacu. Sertai Saiz Segmen: Bilangan penanda terkecil untuk dibenarkan dalam segmen daripada data tersegmen. Segmen yang mengandungi bilangan penanda kurang daripada ini bergabung dengan segmen berdekatan yang paling hampir dalam bilangan salinan. Arm Level Peel Off: Flag diatur untuk membolehkan pengelupasan tahap lengan pada peristiwa semasa definisi puncak. Peningkatan pengelupasan tahap lengan ke kaedah pengelupasan arbitrasi menetapkan semua peristiwa dalam lengan kromosom sampel yang sama ke satu puncak. Ia berguna apabila puncak dipisahkan oleh bunyi atau kromotripsis. Nilai yang dibenarkan = <1,0> (1: Gunakan pengelupasan paras lengan, 0: Gunakan pengelupasan arbitrasi biasa). Segmen Sampel Maksimum: Jumlah segmen maksimum yang dibenarkan untuk sampel dalam data input. Sampel dengan lebih banyak segmen daripada ambang ini tidak termasuk dalam analisis. Gen GISTIC: Apabila diaktifkan (nilai = 1), pilihan ini menyebabkan GISTIC menganalisis penghapusan menggunakan gen dan bukannya penanda array untuk mencari lesi. Dalam mod ini, nombor salinan yang diberikan kepada gen adalah nombor salinan terendah antara penanda yang mewakili gen. Senarai input yang digunakan untuk menjalankan GISTIC2 ini. Semua fail yang disenaraikan hendaklah disertakan dalam hasil arkib. Fail Pembahagian = /xchip/cga/gdac-prod/tcga-gdac/jobResults/PrepareGisticDNASeq/BRCA-TP/22507115/segmentationfile.txt Fail Penanda = /xchip/cga/gdac-prod/tcga-gdac/jobResults/PrepareGisticDNASeq/BRCA-TP/22507115/markersfile.txt Rujukan Genom = /xchip/cga/reference/gistic2/hg19_GENCODE_v18_20140127.mat Fail CNV = /xchip/gistic/CNV/SNP6.merged.151117.hg19.CNV.txt Ambang Penguatan = 0.3 Segmen Sampel Maksimum = 10000 Jadual 4. Dapatkan Jadual Penuh Pertama 10 daripada 19 Sampel Tumor Input. Rajah 3. Profil nombor salinan bersegmen dalam data input Fail semua luka merangkum hasil dari menjalankan GISTIC. Ia mengandungi data tentang kawasan penguatan dan pemadaman yang ketara serta sampel yang dikuatkan atau dipadamkan dalam setiap kawasan ini. Kawasan yang dikenal pasti disenaraikan di lajur pertama, dan sampel disenaraikan di baris pertama, bermula di lajur 10. Data Wilayah Lajur 1-9 menyajikan data mengenai wilayah penting seperti berikut: Nama Unik: Nama yang diberikan untuk mengenal pasti wilayah. Deskriptor: Penjelaskan genomik kawasan itu. Lebar Puncak Lebar: Batas 'puncak lebar' kemungkinan besar mengandungi gen yang disasarkan. Ini disenaraikan dalam koordinat genom dan indeks penanda (atau siasatan). Batas Puncak: Batasan wilayah penguatan atau penghapusan maksimum. Had Kawasan: Batasan dari keseluruhan wilayah penguatan atau penghapusan yang ketara. Nilai Q: Nilai Q bagi kawasan puncak. Nilai Q sisa: Nilai Q dari kawasan puncak setelah mengeluarkan ('mengupas') amplifikasi atau penghapusan yang bertindih dengan kawasan puncak lain yang lebih ketara dalam kromosom yang sama. Luas atau Tumpuan: Mengenal pasti sama ada rantau ini mencapai kepentingan disebabkan terutamanya oleh peristiwa luas (dipanggil 'luas'), peristiwa fokus (dipanggil 'fokus'), atau peristiwa luas dan fokus yang signifikan secara bebas (dipanggil 'kedua-duanya'). Ambang Amplitud: Kunci memberi makna nilai pada lajur berikutnya yang berkaitan dengan setiap sampel. Data Sampel Setiap sampel yang dianalisis ditunjukkan dalam salah satu lajur yang mengikuti data lesi (lajur 10 hingga akhir). Data yang terkandung dalam lajur ini sedikit berbeza mengikut bahagian file. Bahagian pertama dapat dikenal pasti dengan kunci yang diberikan dalam lajur 9 - ia bermula pada baris 2 dan berlanjutan hingga baris yang berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian ini mengandungi data yang diringkaskan untuk setiap sampel. '0' menunjukkan bahawa nombor salinan sampel tidak dikuatkan atau dipadamkan melebihi jumlah ambang di kawasan puncak tersebut.A '1' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat rendah (melebihi ambang rendah yang ditunjukkan dalam lajur 9), dan '2' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat tinggi (melebihi ambang tinggi yang ditunjukkan dalam lajur 9). Bahagian kedua dapat dikenal pasti baris di mana lajur 9 berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian kedua betul-betul mengeluarkan semula bahagian pertama, kecuali di sini perubahan sebenar dalam nombor salinan disediakan dan bukannya sifar, satu dan dua. Bahagian akhir adalah serupa dengan bahagian pertama, kecuali di sini hanya acara luas disertakan. A 1 di lajur sampel (lajur 10+) menunjukkan bahawa jumlah salinan median sampel di seluruh rantau yang signifikan melebihi ambang yang diberikan dalam lajur 9. Maksudnya, ini menunjukkan sama ada sampel mempunyai peristiwa yang dilanjutkan secara geografi, dan bukannya penguatan fokus atau penghapusan yang meliputi lebih sedikit daripada kawasan puncak. Fail gen amp mengandungi satu lajur untuk setiap puncak penguatan yang dikenal pasti dalam analisis GISTIC. Empat baris pertama adalah: Baris ini mengenal pasti lesi dengan cara yang sama seperti semua fail lesi. Baris yang tersisa menyenaraikan gen yang terdapat di setiap puncak lebar. Untuk puncak yang tidak mengandungi gen, gen terdekat disenaraikan dalam kurungan. Fail del gen mengandungi satu lajur untuk setiap puncak penghapusan yang dikenal pasti dalam analisis GISTIC. Format fail untuk fail del gen adalah sama dengan format untuk fail gen amp. Fail skor menyenaraikan nilai Q [disajikan sebagai -log10 (q)], skor G, amplitud rata-rata di antara sampel yang menyimpang, dan kekerapan penyimpangan, di seluruh genom untuk kedua-dua penguatan dan penghapusan. Fail skor dapat dilihat dengan modul Genepattern SNPViewer dan boleh diimport ke Integrated Genomics Viewer (IGV). Nombor salinan bersegmen ialah fail pdf yang mengandungi imej peta warna profil nombor salinan bersegmen dalam data input. Penguatan pdf adalah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan penguatan untuk semua penanda di seluruh wilayah yang dianalisis. pdf pemadaman ialah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan pemadaman untuk semua penanda di seluruh rantau yang dianalisis. Jadual maklumat asas mengenai kawasan genom (puncak) yang ditentukan GISTIC untuk diperkuat atau dihapuskan dengan ketara. Ini menerangkan tiga jenis batas puncak, dan menyenaraikan gen yang terdapat dalam dua daripadanya. Lajur permulaan dan hujung rantau (bersama-sama lajur kromosom) mengehadkan keseluruhan kawasan yang mengandungi puncak yang melebihi paras keertian. Kawasan ini mungkin sama untuk pelbagai puncak. Permulaan dan penamat puncak mengehadkan nilai maksimum puncak. Puncak lanjutan ialah puncak yang ditentukan oleh teguh, dan terkandung dalam puncak lebar yang dilaporkan dalam Jadual hasil statistik per-lengan untuk set data. Setiap lengan adalah satu barisan di meja. Lajur pertama menentukan lengan dan lajur kedua mengira bilangan gen yang diketahui berada pada lengan. Untuk penguatan dan penghapusan, jadual mempunyai lajur untuk kekerapan penguatan atau penghapusan lengan, dan skor Z dan nilai Q. Jadual tahap penguatan lengan kromosom untuk setiap sampel. Setiap baris ialah lengan kromosom, dan setiap lajur adalah sampel. Data terdapat dalam unit nombor salinan mutlak -2. Jadual peringkat gen bagi nilai nombor salinan untuk semua sampel. Setiap baris ialah data untuk gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai nombor salinan dalam jadual adalah dalam unit (nombor salin -2), sehingga tidak ada penguatan atau penghapusan 0, gen dengan penguatan mempunyai nilai positif, dan gen dengan penghapusan adalah nilai negatif. Data ditukar daripada tahap penanda ke tahap gen menggunakan kaedah ekstrem: gen diberikan penguatan terbesar atau nilai pemadaman paling sedikit antara penanda yang diliputinya. Jadual peringkat gen data salin yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan peristiwa luas dengan panjang lebih besar daripada potongan panjang lebar. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt. Jadual peringkat gen bagi data nombor salinan yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan acara fokus dengan panjang lebih besar daripada pemotongan panjang fokus. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt. Jadual tahap gen bagi penunjuk penguatan dan pemadaman diskret pada untuk semua sampel. Terdapat satu baris untuk setiap gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai jadual 0 bermaksud tiada penguatan atau penghapusan melebihi ambang. Amplifikasi ialah nombor positif: 1 bermaksud amplifikasi melebihi ambang amplifikasi 2 bermaksud amplifikasi yang lebih besar kepada amplifikasi paras lengan yang diperhatikan untuk sampel. Penghapusan diwakili oleh nilai jadual negatif: -1 mewakili penghapusan melebihi ambang -2 bermaksud penghapusan lebih besar daripada penghapusan tahap lengan minimum yang diperhatikan untuk sampel. Jadual pemotongan ambang per sampel (dalam unit nombor salinan mutlak -2) yang digunakan untuk membezakan penguatan tahap tinggi (+/- 2) dari penguatan biasa (+/- 1) dalam fail keluaran all_thresholded.by_genes.txt . Jadual mengandungi tiga lajur: pengecam sampel diikuti dengan nilai potong rendah (pemadaman) dan tinggi (penguatan). Potongan dikira sebagai tahap penguatan tahap lengan minimum ditolak ambang penghapusan untuk penghapusan dan penguatan tahap lengan maksimum ditambah ambang penguatan untuk penguatan. Senarai segmen nombor salinan yang menerangkan hanya peristiwa fokus yang terdapat dalam data. Tahap penguatan / penghapusan segmen adalah dalam unit (nombor salin -2), dengan amplifikasi positif dan penghapusan nombor negatif. Fail ini boleh dilihat dengan IGV. Imej yang menunjukkan korelasi antara kiraan gen dan kekerapan perubahan nombor salinan. Fail yang menunjukkan kedudukan selang keyakinan di sekitar puncak GISTIC yang dapat dimuat sebagai trek dalam penyemak imbas penonton yang serasi seperti IGV atau penyemak imbas genom UCSC. GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Ia mengambil nisbah nombor salinan tersegmen sebagai input, memisahkan peristiwa peringkat lengan daripada peristiwa fokus, dan kemudian melakukan dua ujian: (i) mengenal pasti lengan kromosom yang dikuatkan/dipadamkan dengan ketara dan (ii) mengenal pasti kawasan yang dikuatkan atau dipadamkan secara ketara. Untuk analisis fokus, tahap keertian (nilai Q) dikira dengan membandingkan keuntungan/kerugian yang diperhatikan pada setiap lokus dengan yang diperoleh dengan mengubah suai secara rawak peristiwa sepanjang genom untuk mencerminkan hipotesis nol bahawa mereka semua adalah 'penumpang' dan boleh mempunyai. berlaku di mana-mana sahaja. Tahap kepentingan khusus lokus kemudiannya diperbetulkan untuk ujian hipotesis berbilang. Kepentingan peringkat lengan dikira dengan membandingkan kekerapan keuntungan/kerugian setiap lengan dengan kadar yang dijangkakan berdasarkan saiznya. Kaedah ini menghasilkan pandangan genom dari kawasan yang diperkuat dan dihapus secara signifikan, serta jadual gen dengan skor keuntungan atau kerugian. Perbincangan yang lebih mendalam tentang algoritma GISTIC dan utilitinya diberikan dalam [1], [3], dan [5]. Kawasan genom yang rentan terhadap variasi garis kuman dalam jumlah salinan dikecualikan dari analisis GISTIC menggunakan senarai variasi nombor salinan garis kuman (CNV). CNV adalah urutan DNA yang mungkin terdapat pada nombor salinan yang berlainan dalam garis kuman dua individu yang berbeza. Variasi garis kuman sedemikian boleh mengelirukan analisis GISTIC, yang menemui variasi nombor salinan somatik yang ketara dalam kanser. Perbincangan yang lebih mendalam diberikan dalam [6]. GISTIC kini menggunakan dua senarai pengecualian CNV. Satu adalah berdasarkan kesusasteraan yang menerangkan variasi nombor salinan, dan yang kedua datang daripada analisis variasi ketara antara normal darah dalam set data TCGA. Sebagai tambahan kepada pautan di bawah, hasil analisis yang diringkaskan dalam laporan ini juga boleh dimuat turun secara teratur menggunakan firehose_get, atau secara interaktif dari laman web Broad GDAC atau TCGA Data Coordination Center Portal. Sebanyak 227 hasil hibridisasi genomik perbandingan yang dinormalisasi (aCGH) untuk pesakit GBM diambil dari portal data TCGA (http://tcga-data.nci.nih.gov/). Eksperimen aCGH dilakukan oleh Pusat Kanser Memorial Sloan-Kettering menggunakan platform Agilent Human Genome CGH Microarray 244A (Agilent Technologies, Inc., Santa Clara, California). Dari 227 sampel (Jadual S4), 167 adalah sampel tumor dan 60 lagi adalah sampel darah. Apabila terdapat lebih daripada satu sampel tisu yang sama untuk pesakit, satu sampel dipilih secara rawak (lihat Bahan Tambahan untuk senarai sampel). Dari 167 sampel tumor, 58 mempunyai sampel darah berpasangan dari pesakit yang sama. Data nombor salinan yang dinormalisasi yang diperoleh dari 227 sampel dipetakan ke dalam genom manusia menggunakan kumpulan Build 18 (NCBI 36) dengan fail anotasi yang disediakan oleh pengeluar (http://www.chem.agilent.com/). Prosedur normalisasi array dilakukan oleh Pusat Kanser Memorial Sloan Kettering dengan algoritma dalam & # x02013house mereka yang membetulkan bias kandungan CG (lihat portal Data TCGA http://tcga.cancer.gov/dataportal). Data nombor salinan telah ditapis menggunakan algoritma Circular Binary Segmentation (CBS) seperti yang dilaksanakan dalam DNAcopy pakej R dengan tetapan parameter lalai [12]. Pengesanan penyimpangan dilakukan di sini sebagai penyimpangan yang tidak layak. Akibat kebimbangan kritikal ini dengan model null yang belum teruji, pilihan kaedah mesti memenuhi dua kebimbangan tentang kemungkinan bias. Pertama, ia tidak boleh membuat andaian mengenai rujukan isyarat yang tidak menyimpang. Kedua, ia tidak boleh membuat andaian mengenai bentuk variasinya. Keperluan bukan parametrik ini dipenuhi oleh pendekatan yang menggunakan ketumpatan langkah yang diperhatikan untuk menilai kandungan maklumat isyarat. Oleh itu, isyarat individu dinilai oleh kebarangkalian, hlm, sisihan dalam konteks isyarat yang diperhatikan. Entropi Shannon (Pers. 1) dikira untuk setiap kedudukan probe DNA, i & # x0200a = & # x0200a1, & # x02026, n. Kebarangkalian, hlmij, untuk setiap nilai nombor salinan ditentukan sebagai pecahan kepadatan kernel, K, yang diperhatikan dalam semua sampel, j & # x0200a = & # x0200a1, & # x02026m, pada kedudukan itu (Pers. 2). Kaedah tetingkap Parzen [39] dengan fungsi kernel Gaussian telah digunakan untuk menganggarkan nilai ketumpatan kebarangkalian K nisbah log2 nombor salinan yang diperhatikan pada kedudukan itu, CNi,j. Teknik ini menganggap bahawa setiap elemen dalam populasi adalah pusat lengkung Gaussian, dan nilai ketumpatan kebarangkalian untuk titik tertentu ialah jumlah semua nilai Gaussian pada titik itu. Pengiraan kepadatan kernel untuk semua probe DNA memerlukan sejumlah besar usaha pengiraan. Oleh itu, kepadatan kernel disampel dalam 100 titik yang sama rata, KS, mulai dari nilai minimum hingga maksimum nisbah log2 salinan nombor (Pers. 3). Nilai ketumpatan kebarangkalian, K (CNij), kemudian diperoleh dengan interpolasi dengan vektor KS. Parameter σ, relatif dengan lebar jalur kernel, didefinisikan sebagai sisihan piawai data mentah di dalam setiap segmen yang diringkaskan untuk semua segmen dalam semua sampel. Kaedah untuk anggaran lebar jalur yang dirancang untuk populasi Gauss menghasilkan parameter lebar jalur yang terlalu pendek, yang mengakibatkan beberapa puncak dalam taburan ketumpatan kebarangkalian (data tidak ditunjukkan). Kriteria pemilihan lebar jalur kami menghasilkan ketumpatan kebarangkalian unimodal berpusat pada 0. Memandangkan kebanyakan CNA penting mempunyai amplitud yang tinggi, dan akibatnya berkemungkinan berketumpatan rendah, pengesanan kawasan menyimpang secara relatifnya tidak sensitif terhadap parameter lebar jalur yang besar. Jumlah maklumat yang dikaitkan dengan rration” adalah berkadar songsang dengan entropi S. Jika rantau yang ditentukan dikuatkan atau dipadamkan secara berulang, ia sepatutnya mempunyai kandungan maklumat yang lebih tinggi, dan dengan itu entropi yang lebih rendah, jika dibandingkan dengan pengedaran keseluruhan dari entropi. Pelaksanaan prosedur tiga langkah ini diperincikan menggunakan kod m Matlab: Menjana pengedaran rujukan dan ganti setiap nilai dengan ketumpatannya (Persamaan 3) Hitung kebarangkalian sebenar sekarang sebagai bahagian kepadatan baris (Pers. 2) Hitung entropi Shannon (Pers. 1) Walaupun diterapkan pada eksperimen aCGH dalam karya ini, kaedah entropi sesuai untuk mana-mana platform nombor salinan berasaskan array. Seperti yang dibincangkan dalam [11], terdapat dua bentuk utama CNA dalam sel tumor: peristiwa luas, yang boleh mengandungi beberapa Mb nukleotida dan merangkumi banyak gen dan peristiwa fokus, yang lebih setempat. Peristiwa fokus di dalam acara luas mewakili cabaran untuk kaedah yang berdasarkan ambang untuk panggilan binari penguatan dan pemadaman, setelah keseluruhan kawasan luas boleh dianggap penting, justeru menyembunyikan peristiwa fokus. Walau bagaimanapun, beberapa kaedah untuk mengesan RRA, sambil bergantung pada ambang sewenang-wenangnya, menggunakan amplitud untuk memisahkan peristiwa fokus bersarang ini [11], [17]. Walaupun peristiwa luas boleh menjadi lazim dalam genom kanser [14], kebolehgunaannya untuk mencari onkogen baru atau penindas tumor adalah terhad disebabkan oleh sejumlah besar gen yang terdapat di kawasan tersebut. Oleh itu, dalam makalah ini pengesanan RRA hanya terbatas pada peristiwa fokus. Untuk menghapuskan pengaruh keseluruhan penguatan atau penghapusan kromosom, ketumpatan kernel dikira secara individu untuk setiap kromosom. Selain itu, untuk mengurangkan kesan peristiwa luas pada entropi, garis dasar isyarat entropi telah dikeluarkan menggunakan penapis Whitaker [40] (melicinkan). Bagi setiap kedudukan kuar, nilai entropi ditentukan seperti berikut: Entropi akhir =𠂮ntropi asal𢄮ntropi terlicin. Oleh itu, hanya puncak dalam entropi, yang mewakili peristiwa fokus, kekal dalam isyarat. Akhirnya, ambang untuk entropi diperoleh menggunakan kuantiti 0.05 taburan bootstrap entropi. Kawasan yang mempunyai entropi akhir lebih rendah daripada ambang dianggap RRA. Kawasan yang diwakili oleh hanya satu penyelidikan tidak dipertimbangkan. Dalam alat CGB, penghapusan garis dasar diberikan sebagai pilihan kepada pengguna. Oleh itu, adalah mungkin untuk menyahaktifkan prosedur ini untuk menganalisis peristiwa yang luas juga. Oleh kerana kaedah entropi tidak mempertimbangkan ukuran peristiwa, ia mampu mengesan peristiwa luas seperti ukuran lengan atau bahkan keseluruhan kejadian kromosom. Untuk kejadian kromosom keseluruhan, entropi harus diukur di seluruh genom dan bukannya secara individu pada setiap kromosom. CNV dalam sel normal baru-baru ini digambarkan sebagai kejadian yang agak biasa dalam genom manusia [22]. Untuk mengesan sama ada RRA ialah variasi nombor salinan biasa atau perubahan menyimpang yang menggalakkan percambahan sel, kawasan tersebut dibandingkan dengan entri Pangkalan Data Varian Genomik (http://projects.tcag.ca/variation/ version 18v1 [22] ]) dan anotasi & # x0201cStruktural & # x0201d dalam Penyemak Imbas Genom UCSC [41]. Entropi juga dikira untuk 60 sampel normal menggunakan prosedur yang sama seperti yang dinyatakan di atas. Kawasan entropi rendah dalam sampel normal tidak digunakan ketika menganalisis set data tumor. Seratus simulasi telah dilakukan untuk menganalisis kelakuan entropi mengikut variasi dalam amplitud dan kelaziman CNA. Panjang setiap penyimpangan tidak berubah kerana kaedah kami mempertimbangkan setiap kedudukan secara bebas. Satu set dengan 100 pesakit tiruan dibina menggunakan nilai nombor salinan sampel secara rawak dari data GBM. Amplitud CNA simulasi berjulat dari 0 hingga 0.4 (skala nisbah log2) dengan prevalens dari 0 hingga 25%. Kawasan di bawah kurva ciri operator penerima (ROC) digunakan untuk penilaian prestasi dalam setiap keadaan yang disimulasikan. Analisis simulasi dijelaskan di bahagian Hasil. Glioblastoma (GBM) adalah tumor primer malignan yang paling biasa pada sistem saraf pusat. Tanpa terapi yang berkesan, prognosis bagi pesakit sangat buruk. Ia sangat heterogen dan EGFR penguatan adalah perubahan molekulnya yang paling kerap. Oleh itu, kami bertujuan untuk mengkaji heterogeniti genetik GBM dan mengaitkannya dengan ciri klinikal pesakit. Untuk tujuan itu, kami menganalisis status EGFR dan pengubahan nombor salinan somatik (CNA) bagi satu set gen penindas tumor dan onkogen. Oleh itu, kami menjumpai GBM dengan tahap tinggi EGFR penguatan, tahap rendah dan dengan tidak EGFR penguatan. Tumor yang sangat kuat menunjukkan ciri histologi keagresifan. Menariknya, pengumpulan CNA, sebagai ukuran beban mutasi tumor, sering dan secara signifikan dikaitkan dengan kelangsungan hidup yang pendek. EGFR-GBM yang diperkuat memperlihatkan bilangan CNA konkrit yang lebih tinggi dan beban mutasi tumor global yang lebih tinggi daripada bilangannya EGFR-sama yang diperkuatkan. Sebagai tambahan kepada perubahan genetik yang dijelaskan sebelumnya dalam GBM, kami dapati TAMAN2 dan BESAR1 CNA yang berkaitan dengan EGFR penguatan. Kumpulan gen yang dianalisis membolehkan kami meneroka jalur isyarat yang relevan di GBM. Kedua-duanya TAMAN2 dan BESAR1 berkaitan dengan reseptor tyrosine kinase/PI3K/PTEN/AKT/ Laluan isyarat mTOR. Akhirnya, kami mendapati hubungan antara jalur molekul diubah, EGFR amplifikasi dan hasil yang buruk. Hasil kami menggarisbawahi potensi minat mengkategorikan GBM mengikut keputusan mereka EGFR tahap penguatan dan kegunaan menilai beban mutasi tumor. Pendekatan ini akan membuka kemungkinan pengetahuan baru yang berkaitan dengan biologi dan terapi GBM. Fail data tambahan 1: 295 varian ulangan (menjangkau 218 kluster UniGene) dikesan dalam analisis kami, dengan maklumat tentang ulangan dan penerangan bagi jujukan wakil kluster. (XLS 86 KB) Fail data tambahan 2: Sekat panjang ulangan dikumpulkan ke dalam 249 lokus ulangan unik. Untuk setiap lokus, heterozigositas frekuensi alel panjang berulang telah dikira. (XLS 51 KB) Fail data tambahan 3: Data yang digunakan untuk Rajah 3. Kiraan ulangan varian dan invarian dengan panjang unit dan nombor salinan berbeza dijadualkan. (XLS 22 KB) Untuk mengira peratusan kandungan GC bagi setiap exon, kami menggunakan runut gc5Base yang dimuat turun daripada tapak web UCSC [48].Trek gc5Base memberikan peratusan asas G (guanine) dan C (sitosin) dalam tetingkap lima asas. Bias kebolehmetaan adalah disebabkan oleh fakta bahawa genom mengandungi banyak unsur berulang dan penjajaran bacaan kepada kedudukan ini membawa kepada pemetaan yang tidak jelas. Kami menggunakan data unik dalam [49] untuk mengira skor pemetaan untuk setiap exon. Dalam makalah ini, penulis memperkenalkan sumber genomik untuk memahami bahagian jujukan genomik yang boleh dipetakan secara unik. Kami menilai keunikan urutan genom menggunakan penjajaran all-against-all untuk ukuran perkataan yang berbeza. Penjajaran dilakukan dengan Imagenix Sequence Alignment System (ISAS) [50]. Keselarasan semua-terhadap-semua dilakukan secara bebas untuk panjang teg antara 25 dan 90 nukleotida dengan bilangan ketidakcocokan yang berbeza-beza, di ruang nukleotida dan ruang warna. Keputusan analisis ini telah diformatkan sebagai fail bigBED dan bigWig dan boleh dimuat turun dari [51]. Fail bigWig mengandungi nilai liputan yang dinyatakan sebagai persentil integer bulat bagi liputan penuh (contohnya, nilai 100 menunjukkan bahawa 100% daripada N-mers bertindih adalah unik dan menyumbang kepada liputan koordinat itu sama seperti nilai 50 menunjukkan bahawa 50% daripada N-mers yang bertindih adalah unik). Skor kebolehpasaran untuk setiap ekson diperoleh dengan merata-rata nilai liputan nukleotida milik ekson terpilih. Untuk meminimumkan kesan tiga sumber variasi, kami menggunakan prosedur penyingkiran berat sebelah tiga langkah berdasarkan pendekatan normalisasi median yang diperkenalkan dalam [23] dan dalam [31]. Dalam praktiknya, untuk semua peratusan GC (0,1,2,…, 100%), semua bin skor kebolehmetaan (0,0.1,0.2,…,1) dan semua tong saiz exon (10 bp, 20 bp, 30 bp, …) kami mengira sisihan EMRC daripada purata exome dan kemudian membetulkan setiap EMRC mengikut: di mana EMRC iialah bilangan bacaan min exon bagi iekson ke- mX ialah median EMRC bagi semua ekson yang mempunyai nilai X yang sama (di mana X = [kandungan GC, skor kebolehmetaan, saiz ekson]) sebagai iexon, dan m adalah median keseluruhan semua ekson. Pada akhir prosedur ini, EMRC untuk setiap ekson telah diperbetulkan untuk tiga sumber bias. Untuk mengukur kemampuan data EMRC untuk meramalkan bilangan salinan DNA yang tepat dari kawasan genomik, kami memeriksa beberapa kawasan genomik luas yang sebelumnya dilaporkan mempunyai nombor salinan sama dengan 0, 1, 2, 3 atau 4 oleh McCarroll et al.[7] untuk lapan sampel (NA10847, NA19131, NA19138, NA19152, NA19153, NA19159, NA19206 dan NA19223) yang dijana oleh Konsortium Projek 1000 Genom. McCarroll et al.[7] merancang susunan genotip hibrid (Affymetrix SNP 6.0) untuk mengukur 906.600 SNP dan menyalin nombor di 1.8 juta lokasi genom secara serentak. Mereka menggunakan susunan ini untuk mengembangkan peta resolusi tinggi variasi nombor salinan untuk 270 sampel HapMap. Matlamat mereka adalah untuk membina peta yang tepat dan tepat untuk sempadan kawasan genomik yang terjejas oleh CNV dan untuk menentukan tahap nombor salinan integer yang tepat untuk setiap segmen dalam setiap individu. Sempadan setiap CNV ditentukan menggunakan model Markov tersembunyi dan tahap nombor salinan integer dianggarkan menggunakan PCR kuantitatif. Untuk sampel NA19152, NA19159, NA19131, NA19153, NA19138, NA19223, NA19206 dan NA10847 mereka mengesan 191, 193, 183, 173, 172, 202, 185 dan 148 wilayah CNV, masing-masing, dengan nombor salinan sama dengan 0, 1, 3 atau 4. Jadual nombor salinan DNA yang dianggarkan dalam [7] telah dimuat turun dari laman web Nature Genetics. Keputusan yang ditunjukkan dalam Rajah 1i,g diperolehi menggunakan median data EMRC yang dinormalisasi untuk menyalin nombor 2 daripada tujuh sampel keturunan Yoruba untuk kawasan genomik, manakala keputusan yang dilaporkan dalam Rajah 1h, j diperoleh menggunakan nisbah EMRC antara tujuh sampel keturunan Yoruba dan sampel NA10847 untuk kawasan genomik ini. Untuk menilai hubungan linear antara kawasan RC dan CNV, kami mengira pekali korelasi Pearson. Untuk mengklasifikasikan setiap ruas yang disegmentasikan sebagai salah satu daripada lima keadaan nombor salinan diskrit (penghapusan dua salinan, penghapusan satu salinan, pendua satu salinan, penguatan satu salinan atau penguatan beberapa salinan) kami menggunakan algoritma FastCall [36], yang kami kembangkan untuk mengklasifikasikan data array-CGH. Prosedur panggilan FastCall adalah algoritma berdasarkan model campuran, yang dapat digunakan untuk mengklasifikasikan setiap ruas yang tersegmentasi sebagai salah satu daripada lima keadaan salinan yang telah ditentukan: kehilangan dua kali, kehilangan, neutral, keuntungan atau keuntungan berganda. Prosedur panggilan kami memodelkan min setiap segmen sebagai campuran lima taburan normal terpotong dan juga boleh mengambil kira heterogeniti sampel menggunakan parameter selular c (lihat Fail tambahan 1 untuk butiran lanjut). Algoritma mengambil sebagai input tahap min setiap segmen m = (m1,m2,…,m i,…,m N), dikenal pasti oleh algoritma HSLM dan memberikan kebarangkalian bahawa segmen (min) tergolong dalam keadaan tertentu. Semua algoritma dan kaedah yang diterangkan di sini telah dibungkus dalam perisian EXCAVATOR. EXCAVATOR adalah koleksi kod Perl, Bash, R dan Fortran. Rajah 5 ialah perwakilan skematik langkah aliran kerja EXCAVATOR. Dibutuhkan sebagai fail input BAM dan memberikan angka output untuk data mentah dan dinormalisasi, plot hasil segmentasi dan panggilan dan senarai CNV yang dikesan sebagai fail teks yang dibatasi tab. Pakej ini dapat menganalisis sampel dengan dua reka bentuk eksperimen yang berbeza: ‘pooling’ dan ‘somatic’. Dalam skema penyatuan, setiap sampel ujian dibandingkan dengan rujukan gabungan yang diperoleh dengan menjumlahkan jumlah bacaan untuk setiap ekson di semua sampel kawalan. Dalam skema somatik, setiap sampel ujian dibandingkan dengan kawalan sepadannya. Alat EXCAVATOR boleh dijalankan pada mana-mana sistem UNIX (desktop dan stesen kerja). Pada komputer desktop dengan CPU 2.5-GHz dan RAM 8 GB, diperlukan empat jam untuk menganalisis sepuluh sampel WES yang diuraikan pada 60 ×. Alat EXCAVATOR boleh didapati secara percuma dari [52]. Aliran kerja EXCAVATOR. Fail BAM bagi kedua-dua sampel ujian dan kawalan diproses melalui SAMtools dan skrip R untuk pengiraan EMRC. Selepas pengiraan EMRC, EXCAVATOR membetulkan data untuk kandungan GC, kebolehpasaran dan ukuran exon. Selepas penormalan, kiraan bacaan ternormal (NRC) untuk setiap sampel disusun mengikut mod analisis (penghimpunan atau somatik) yang dipilih oleh pengguna: mod pengumpulan untuk membandingkan satu sampel kepada kumpulan kawalan biasa, mod somatik untuk membandingkan satu sampel dengannya. kawalan normal yang sepadan. Akhirnya, HLSM dan FastCall digunakan untuk data yang dinormalisasi dan hasilnya disediakan sebagai fail teks yang dibatasi tab (format panggilan varian, format VCF dan BED). HSLM, model tahap pergeseran heterogen RC, jumlah baca. Genom bagi kesemua 27 individu telah dijujukan oleh 1000 Genomes Project Consortium dan data telah dimuat turun daripada [53] sebagai fail BAM. Data pertama kali disaring dan dinormalkan seperti yang dilaporkan dalam file Tambahan 1 dan kemudian dianalisis menggunakan HSLM diikuti oleh algoritma FastCall dengan parameter lalai (lihat Fail tambahan 1 untuk lebih jelasnya). Untuk set data melanoma, semua sampel tumor dan normal telah ditangkap menggunakan kit pengayaan sasaran yang sama (kit Agilent SureSelect Human All Exon 50 Mb) dan disusun, satu sampel setiap lorong, dalam larian GAIIx akhir berpasangan 76-bp, dengan itu memperoleh kedalaman min pada sasaran 43 × (julat 32 × hingga 54 ×) (lihat Jadual 1 dan Fail tambahan 1: Jadual S3). Data penjujukan Exome boleh didapati di Arkib Baca Urutan di bawah aksesi ERP001844. Bacaan WES daripada 12 sampel telah diselaraskan dengan genom rujukan manusia hg19 melalui penjajaran BWA, kemudian ditapis, dinormalkan dan dianalisis oleh algoritma HSLM dan FastCall dengan parameter lalai (lihat Fail tambahan 1). Oleh kerana kami tidak mempunyai sampel normal autologous untuk kawalan yang sesuai, bacaan WES dari enam sampel darah normal dikumpulkan dan digunakan sebagai garis dasar rujukan umum (lihat Fail tambahan 1). 12 sampel yang sama diprofilkan menggunakan platform Affymetrix 250K SNP Array dan intensiti isyarat diperoleh oleh perisian GCOS dan dinormalisasi dengan perisian CNAG. Data garis sel melanoma dibandingkan dengan kumpulan rujukan umum yang terdiri daripada enam sampel darah normal. Nilai nombor salinan SNP nisbah log2 ternormal yang dijana untuk setiap sampel tumor telah dibahagikan menggunakan algoritma segmentasi SLM dan prosedur panggilan FastCall digunakan untuk mengklasifikasikan semua kawasan genomik yang tersegmentasi ke dalam keadaan nombor salinan yang ditentukan (lihat Fail tambahan 1). Kedua-dua sampel ID ditangkap menggunakan kit Illumina Truseq Target Enrichment yang sama dan diuraikan sebagai bacaan berpasangan-hujung 100-bp dengan liputan dasar rata-rata 63 × menggunakan platform Illumina HiSeq2000 (lihat Jadual 1 dan fail Tambahan 1: Jadual S4). Data penjujukan Exome boleh didapati di Arkib Baca Urutan di bawah aksesi ERP001831. Data WES bagi individu sihat keturunan Eropah yang dijujukan oleh [39] dihasilkan oleh platform penangkapan dan penjujukan exome yang sama yang digunakan untuk dua sampel ID (kit Pengayaan Sasaran Illumina Truseq dan platform Illumina HiSeq2000). Bacaan daripada tiga sampel telah diselaraskan dengan genom rujukan manusia hg19 oleh penjajar BWA, kemudian ditapis, dinormalkan dan dianalisis oleh algoritma HSLM dan FastCall dengan parameter lalai (lihat Fail tambahan 1). Kami membandingkan algoritma kami dengan tiga pakej perisian yang diterbitkan sebelum ini: ExomeCNV [25], CoNIFER [26] dan XHMM [27]. Kami memuat turun pakej ExomeCNV R versi 1.4 dari [54]. Kami menggunakan ExomeCNV dengan parameter lalai: kepekaan dan kekhususan ditetapkan pada 0,9999 untuk ekson (memaksimumkan kekhususan) dan 0,99 untuk panggilan (pilihan 'auc'), dan kadar campuran ditetapkan pada nilai 0,5 (walaupun semua sampel yang digunakan dalam ini kerja tidak mempunyai campuran biologi, kami mendapati bahawa tetapan ini mengurangkan bilangan panggilan positif palsu). Kami memuat turun CoNIFER 0.2.2 daripada [55]. Selepas menjalankan analisis dengan − − skrin_plot pilihan, kami memeriksa plot komponen dan kami memutuskan untuk menjalankan analisis CoNIFER akhir dengan tetapan untuk membuang dua komponen penguraian nilai tunggal (- - svd 2). XHMM dimuat turun dari [56]. Alat XHMM telah digunakan pada tiga set data menggunakan tetapan parameter lalai dan mengikut arahan pada [57].
Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC - Biology
Cytoband nilai Q Nilai Q baki Batas Puncak Lebar # Gen dalam Wide Peak 8q11.21 0.23712 0.23712 chr8:51697150-53706540 6 15q22.31 0.23712 0.23712 chr15: 1-66482794 492
Gen BUB1B TCF12 FLJ27352 C15orf55 hsa-mir-4311 hsa-mir-1272 hsa-mir-422a hsa-mir-190 hsa-mir-2116 hsa-mir-628 hsa-mir-1266 hsa-mir-147b hsa-mir-1282 hsa-mir-627 hsa-mir-4310 hsa-mir-626 hsa-mir-1233-2 hsa-mir-1233-1 hsa-mir-211 hsa-mir-1268 hsa-mir-3118-6 hsa-mir-3118-4 ACTC1 ADAM10 ANXA2 APBA2 AQP9 B2M NBEAP1 BNIP2 CA12 CAPN3 CHRM5 CHRNA7 CKMT1B CYP19A1 DUT EPB42 FBN1 FGF7 GABPB1 GABRA5 GABRB3 GABRG3 GALK2 GANC GATM GCHFR PDIA3 GTF2A2 HDC ONECUT1 IPW ITPKA IVD LIPC LTK MAP1A MEIS2 MFAP1 TRPM1 MYO1E MYO5A NDN NEDD4 OAZ2 OCA2 PLCB2 PPIB PETA6 RAB27A RAD51 RORA RYR3 SCG5 SLC12A1 SNRPN SNX1 SORD SPINT1 SRP14 THBS1 TJP1 TP53BP1 TPM1 TYRO3 UBE3A MKN3 SLC30A4 PAR5 CILP EIF3J JMJD7-PLA2G4B RAB11A SNAP23 ALDH1A2 HERC2 HERC1 SNURF USP8 CCNB2 SLC28A2 SLC24A1 CCPG1 GCNT3 COPS2 PERJALANAN4 TGM5 PIGB IGDCC3 PPIP5K1 AQR SECISBP2L KIAA0101 ARHGAP11A LCMT2 USP3 SLC12A6 BCL2L10 PDCD7 RASGRP1 SERF2 DENND4A GNB5 ARPP19 CLPX SLC27A2 GPR176 CHP OIP5 BAHD1 KIPAS1 CEP152 MAPKBP1 GOLGA8A ZNF609 RTF1 CYFIP1 MGA DMXL2 VPS39 FAM189A1 AP4E1 CCNDBP1 DAPK2 EID1 C15orf2 C15orf63 TMEM87A RPAP1 DKFZP434L187 PYGO1 PLDN GREM1 FOXB1 RPUSD2 TUBGCP4 SCG3 TMOD3 TMOD2 EHD4 DUOX2 MYEF2 RPS27L NDUFAF1 RSL24D1 NUSAP1 TMEM85 RASL12 SPG21 SPTBN5 PTPLAD1 CTDSPL2 KLF13 RAB8B DUOX1 CSSK1G1 MAGEL2 DLL4 INO80 FAM63B RNF111 ZNF280D TRPM7 VPS13C PPP1R14D DPP8 MTMR10 PARP16 ZNF770 FLJ10038 HAUS2 FAM82A2 DNAJC17 MNS1 NOP10 MYO5C NDNL2 FAM214A C15orf24 PAK6 DTWD1 CASC5 AVEN ATP10A GJD2 STARD9 VPS18 IGDCC4 SQRDL ZFP106 RFX7 SPATA5L1 CHAC1 NARG2 C15orf29 SLTM SNX22 ATP8B4 WDR76 TMEM62 SEMA6D PIF1 SPG11 ELL3 PLEKHO2 POLR2M C15orf44 NIPA2 APH1B TLN2 FAM96A C15orf48 MEGF11 C15orf41 SPPL2A ZFYVE19 CGNL1 FRMD5 DISP2 CHRFAM7A ULK4P3 ULK4P1 ARHGAP11B ATPBD4 C15orf57 C15orf23 BMF SHF DUOXA1 SNORD107 LDHAL6B CHST14 CASC4 LACTB TUBGCP5 TGM7 CATSPER2 LEO1 MTFMT OSTBETA NIPA1 PLA2G4E TRIM69 PAR1 C15orf43 LOC145663 C2CD4A FAM81A GCOM1 LOC145783 LOC145845 TMCO5A ZSCAN29 TTBK2 CDAN1 STRC DYX1C1 CSNK1A1P1 OTUD7A SPRED1 PGBD4 ADAL EXD1 FSIP1 RHOV C15orf33 MGC15885 UBR1 PATL2 LPCAT4 PLA2G4F LRRC57 LYSMD2 WDR72 HMGN2P46 SLC24A5 PRTG LOC283663 LOC283683 OR4N4 LOC283710 FAM98B PLA2G4D HERC2P3 GOLGA6L1 GOLGA8G GOLGA8IP FBXL22 SNORD108 SNORD109A SNORD109B SNORD115-1 WHAMMP3 POTEB GLDN FMN1 SNORD64 PAR4 PAR-SN RBPMS2 ANKDD1A LOC348120 MRPL42P5 USP50 TEX9 C15orf52 TNFAIP8L3 C2CD4B GOLGA8E ATAU4M2 OR4N3P KBTBD13 UBAP1L SHC4 CTXN2 HERC2P2 C15orf53 C15orf54 DUOXA2 MIR190A MIR211 NF1P2 HERC2P9 WHAMMP2 GOLGA8B EIF2AK4 CATSPER2P1 UNC13C LOC503519 CKMT1A SERINC4 C15orf62 C15orf56 PHGR1 LOC645212 CHEK2P2 LOC646214 CXADRP2 LOC646278 REREP3 LOC653061 LOC653075 HSP90AB4P MIR626 MIR627 MIR628 ANP32AP1 SNORD116-19 GOLGA6L6 LOC727924 LOC728758 OIP5-AS1 GOLGA8C PWRN1 PWRN2 SNORD116-1 SNORD116-2 SNORD116-3 SNORD116-4 SNORD116-5 SNORD116-6 SNORD116-7 SNORD116-8 SNORD116-9 SNORD116-10 SNORD116-11 SNORD116-12 SNORD116-13 SNORD116-14 SNORD116-15 SNORD116-16 SNORD116-17 SNORD116-18 SNORD116-20 SNORD116-21 SNORD116-22 SNORD116-23 SNORD116-24 SNORD116-25 SNORD115-2 SNORD116-26 SNORD116-27 SNORD115-3 SNORD115-4 SNORD115-5 SNORD115-6 SNORD115-7 SNORD115-8 SNORD115-9 SNORD115-10 SNORD115-11 SNORD115-12 SNORD115-13 SNORD115-14 SNORD115-15 SNORD115-16 SNORD115-17 SNORD115-18 SNORD115-19 SNORD115-20 SNORD115-21 SNORD115-22 SNORD115-23 SNORD115-25 SNORD115-26 SNORD115-29 SNORD115-30 SNORD115-31 SNORD115-32 SNORD115-33 SNORD115-34 SNORD115-35 SNORD115-36 SNORD115-37 SNORD115-38 SNORD115-39 SNORD115-40 SNORD115-41 SNORD115-42 SNORD115-43 SNORD115-44 SNORD116-28 SNORD116-29 SNORD115-48 SNORD115-24 SNORD115-27 SNORD115-28 SNORD115-45 SNORD115-47 MIR147B LOC100128714 LOC100129387 LOC100130855 LOC100131089 ANKRD63 HERC2P7 GOLGA8F LOC100132724 GOLGA8DP JMJD7 PLA2G4B ULK4P2 LOC100288615 LOC100288637 LOC100289656 MIR1233-1 MIR1272 MIR1266 MIR1282 LOC100306975 MIR2116 MIR1233-2 MIR4311 MIR4310 MIR3942 LOC100505648 LOC100507466 SERF2-C15ORF63 DYX1C1-CCPG1 MIR4509-1 MIR4509-2 MIR4508 MIR4510 MIR4716 MIR4713 MIR4511 MIR4509-3 MIR4712 MIR4715 TMCO5B
MYZAP
Lengan # Gen Kekerapan Amp Markah Amp Z Nilai Amp Q Kekerapan Del Skor Del Z Nilai Del Q 1p 2121 0.06 -2.17 0.996 0.77 7.92 5.43e-15 1q 1955 0.06 -2.19 0.996 0.75 7.9 5.77e-15 2p 924 0.09 -1.65 0.996 0.69 8.35 0 2q 1556 0.09 -1.97 0.996 0.69 7.28 5.7e-13 3p 1062 0.12 -2.21 0.996 0.15 -1.72 1 3q 1139 0.14 -2.09 0.996 0.12 -2.33 1 4p 489 0.31 1.83 0.338 0.02 -3.19 1 4q 1049 0.29 0.815 0.593 0.02 -3.61 1 5p 270 0.12 -1.58 0.996 0.12 -1.58 1 5q 1427 0.12 -2.64 0.996 0.12 -2.64 1 6p 1173 0.06 -1.86 0.996 0.75 9.19 0 6q 839 0.06 -1.72 0.996 0.75 9.84 0 7p 641 0.37 2.81 0.0986 0.02 -3.11 1 7q 1277 0.37 1.96 0.338 0.02 -3.52 1 8 p 580 0.29 1.18 0.463 0.20 -0.344 1 8q 859 0.30 1.09 0.463 0.18 -0.879 1 9p 422 0.16 -0.976 0.996 0.16 -0.976 1 9q 1113 0.16 -1.58 0.996 0.18 -1.34 1 10 p 409 0.15 -0.657 0.996 0.73 10.1 0 10q 1268 0.10 -1.65 0.996 0.72 8.31 0 11 p 862 0.25 0.306 0.829 0.14 -1.68 1 11q 1515 0.27 -0.0978 0.996 0.14 -2.16 1 12 p 575 0.28 1.19 0.463 0.04 -2.98 1 12q 1447 0.28 0.0754 0.94 0.02 -3.92 1 13q 654 0.04 -2.21 0.996 0.63 7.85 7.67e-15 14q 1341 0.28 0.27 0.829 0.04 -3.52 1 15q 1355 0.30 0.537 0.696 0.04 -3.48 1 16p 872 0.31 1.27 0.463 0.09 -2.46 1 16q 702 0.31 1.56 0.393 0.11 -1.98 1 17 p 683 0.00 -2.3 0.996 0.73 9.72 0 17q 1592 0.00 -2.66 0.996 0.73 8.05 2.22e-15 18 p 143 0.25 1.1 0.463 0.12 -1.37 1 18q 446 0.24 0.547 0.696 0.15 -1.03 1 19p 995 0.28 0.592 0.696 0.02 -3.61 1 19q 1709 0.25 -0.607 0.996 0.06 -3.57 1 20 p 355 0.31 1.94 0.338 0.09 -2.06 1 20q 753 0.30 1.34 0.463 0.06 -2.72 1 21q 509 0.09 -1.68 0.996 0.54 6.25 6.42e-10 22q 921 0.29 0.931 0.542 0.16 -1.27 1
Xq 1312 0.42 1.69 0.365 0.75 8.24 6.34e-16
Nama Contoh Tumor TCGA-KL-8323-01A-21D-2308-01 TCGA-KL-8324-01A-11D-2308-01 TCGA-KL-8325-01A-11D-2308-01 TCGA-KL-8326-01A-11D-2308-01 TCGA-KL-8327-01A-11D-2308-01 TCGA-KL-8328-01A-11D-2308-01 TCGA-KL-8329-01A-11D-2308-01 TCGA-KL-8330-01A-11D-2308-01 TCGA-KL-8331-01A-11D-2308-01 TCGA-KL-8332-01A-11D-2308-01
Keputusan
Pengesanan variasi nombor salinan dalam 93 aksesi beras
Pengesahan CNV
Penilaian kuasa saluran paip CtgRef-CNV
Perbandingan dengan CNV yang diterbitkan dalam beras
Kesan CNV pada ekspresi gen
Nasib gen yang digandakan
Evolusi asimetri gen pendua
Perbincangan
Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC - Biology
Cytoband nilai Q Nilai Q baki Batas Puncak Lebar # Gen dalam Wide Peak 8p11.23 0.16771 0.16771 chr8: 36121788-39714022 35
20q13.2 0.22371 0.22371 chr20:46463398-63025520 182
Gen FGFR1 WHSC1L1 ADAM3A ADAM5 SNORD38 | ENSG00000207199.1 PLEKHA2 RPS20P22 BINTANG RN7SL709P BRF2 ZNF703 RNA5SP264 RN7SKP201 ADRB3 EIF4EBP1 ADAM2 TACC1 ADAM18 ADAM9 ASH2L BAG4 ERLIN2 PROSC DDHD2 GPR124 LSM1 RAB11FIP1 TM2D2 PPAPDC1B GOT1L1 LETM2 KCNU1 HTRA4 ADAM32 C8orf86
Gen GNAS SS18L1 NPBWR2 MIR647 MIR1914 C20ORF135 SLC2A4RG MIR4326 MIR3196 HAR1A HAR1B LINC00029 GID8 LINC00659 LINC00686 MIR133A2 MIR4758 ATP5E MGC4294 ANKRD60 RAE1 RN7SL170P U3 | ENSG00000252536.1 FAM209A GCNT7 snoU13|ENSG00000238294.1 RNA5SP487 RNU4ATAC7P RN7SKP184 RN7SL603P MIR3194 RN7SL672P RN7SL636P LINC00651 snoU13|ENSG00000239157.1 RN7SL197P KCNB1 SNORD12 SNORD12B SNORD12C ZFAS1 LINC00494 SNORD36|ENSG00000252227.1 RNA5SP486 BMP7 CDH4 CEBPB CHRNA4 COL9A3 CSE1L CSTF1 CTSZ CYP24A1 EDN3 EEF1A2 KCNG1 KCNQ2 LAMA5 MC3R MYT1 NFATC2 NTSR1 OPRL1 PCK1 PFDN4 PPP1R3D PSMA7 PTGIS PTK6 PTPN1 RPS21 SNAI1 SRMS STAU1 AURKA TAF4 TCEA2 TFAP2C TPD52L2 UBE2V1 ZNF217 BCAS1 STX16 TNFRSF6B DPM1 VAPB B4GALT5 SPATA2 OSBPL2 ATP9A ARFRP1 RGS19 SYCP2 ARFGEF2 TCFL5 ADRM1 OGFR DIDO1 HRH3 SLC9A8 ADNP SPO11 PRPF6 MTG2 GMEB2 MOCS3 SLCO4A1 STMN3 SLMO2 NELFCD RTFDC1 RTEL1 SOX18 YTHDF1 BATAS1 UCKL1 PCMTD2 MRGBP PPP4R1L RBM38 BCAS4 DDX27 ZFP64 ARFGAP1 DOK5 RNF114 PMEPA1 CASS4 SALL4 ZNFX1 RAB22A ZNF512B PREX1 COL20A1 CDH26 SLC17A9 FAM217B C20orf195 PPDPF BIRC7 NPEPL1 DNAJC5 TUBB1 ZBP1 KABEL2 PARD6B ZGPAT HELZ2 FAM210B PHACTR3 BHLHE23 NKAIN4 TSHZ2 C20orf85 ZNF831 C20orf166 GATA5 ZBTB46 CBLN4 CTCFL SAMD10 ABHD16B FAM65C RBBP8NL LSM14B APCDD1L C20orf201 LINC00176 C20orf197 TMEM189 FAM209B MIR296 MIR645 MIR646 MIR298 MIR1257 MIR4325 MTRNR2L3 MIR4756 MIR4532 MIR4533
MIR548AG2
Cytoband nilai Q Nilai Q baki Batas Puncak Lebar # Gen dalam Wide Peak 8p21.3 0.17599 0.17599 chr8:1-26298992 202 11q22.3 0.17599 0.17599 chr11: 78569205-135006516 434
Gen PCM1 SDAD1P1 RNA5SP258 RN7SL651P NEFL SNORA67|ENSG00000207027.1 FP15737 SLC25A37 TNFRSF10A RN7SL303P NUDT18 FGF17 snoU13|ENSG00000238466.1 U3|ENSG00000251944.1 SNORA62|ENSG00000201157.1 RNA5SP256 MIR548V MTMR7 ZDHHC2 FGF20 RN7SL474P MIR383 RNA5SP255 LINC00681 FAM86B2 FAM66A RNA5SP254 FAM66D RNA5SP253 DEFB130 | ENSG00000233050.1 DEFB134 C8orf49 LINC00208 RN7SL293P C8orf12 LINC00529 MIR598 SNORD112|ENSG00000252565.1 SOX7 RNA5SP252 PRSS51 snoU13 | ENSG00000238496.1 snoU13|ENSG00000239065.1 MIR597 U3 | ENSG00000252543.1 SNORA70|ENSG00000207244.1 RN7SL178P SGK223 ALG1L13P FAM86B3P LRLE1 FAM85B FAM90A24P FAM66E DEFB105A DEFB105B DEFB103B ZNF705G FAM66B XKR5 MIR4659A AGPAT5 RN7SKP159 RN7SL318P SNORA70|ENSG00000206661.1 RN7SL872P RNA5SP251 RPL23AP53 OR4F21 NAT1 NAT2 ANGPT2 ASAH1 ATP6V1B2 BLK BMP1 POLR3D BNIP3L CTSB DEFA1 DEFA3 DEFA4 DEFA5 DEFA6 DEFB1 DEFB4A EGR3 DMTN CLN8 FDFT1 FGL1 GATA4 GFRA2 GNRH1 LOXL2 LPL MSR1 MSRA NEFM PDGFRL PPP2R2A PPP3CC SFTPC SLC7A2 SLC18A1 STC1 TUSC3 TNKS ADAM7 TNFRSF10D TNFRSF10C TNFRSF10B DOK2 MYOM2 DLGAP2 MFHAS1 ENTPD4 ARHGEF10 PHYHIP KBTBD11 SORBS3 NPM2 DLC1 SPAG11B ADAM28 LZTS1 XPO7 RHOBTB2 JPA3 SLC39A14 FBXO25 ADAMDEC1 CNOT7 KCTD9 PINX1 PIWIL2 INTS10 CSGALNACT1 HR BIN3 MTUS1 KIAA1456 KIAA1967 SH2D4A PDLIM2 CSMD1 EBF2 FAM160B2 MTMR9 MCPH1 PPP1R3B DOCK5 REEP4 SOX7 FAM167A SLC35G5 FAM86B1 ERI1 LONRF1 CHMP7 RP1L1 CLDN23 VPS37A SGCZ DEFB104A PEBP4 CDCA2 TDRP ERICH1 TDH C8orf48 ZNF596 R3HCC1 PRSS55 C8orf74 LGI3 DEFB106A DEFB107A DEFB130 | ENSG00000232948.1 NEIL2 XKR6 MICU3 USP17L2 LINC00599 MIR320A DEFB103A DEFB107B DEFB104B DEFB106B C8orf58 DEFB135 DEFB136 SPAG11A MIR596 DEFA1B ZNF705D ZNF705B DEFB4B MIR548I3 MIR4286 MIR4660
MIR5692A2
Gen DDX6 PCSK7 SDHD MAML2 BIRC3 ATM CBL DDX10 FLI1 PAFAH1B2 POU2AF1 SDHD GAMBAR ARHGEF12 snoU13 | ENSG00000238693.1 RNU6ATAC12P RN7SL167P LINC00167 KCNJ5 RN7SKP279 RN7SKP121 MIR3167 snoU13|ENSG00000238855.1 RN7SL351P KRT18P59 SLC37A2 RNA5SP352 TBRG1 OR10D3 U8|ENSG00000200496.1 SNORD14C SNORD14D SNORD14E snoU13 | ENSG00000239079.1 RNU4ATAC5P RNU4ATAC10P SC5D TBCEL OAF MEREKA1 MFRP ACA64 | ENSG00000252119.1 HINFP C2CD2L MIR3656 RPS25 RN7SL529P RN7SL688P BCL9L CXCR5 TTC36 RN7SL86P CD3G MPZL3 TMPRSS4 SCARNA11|ENSG00000252992.1 RNY4P6 ZNF259 snoU13 | ENSG00000238625.1 LINC00900 snoU13|ENSG00000239153.1 ACA59 | ENSG00000252870.1 snoU13 | ENSG00000238724.1 ATF4P4 snosnR66 C11orf34 RNA5SP351 HSPB2 ALG9 ALG9 RN7SKP273 SIK2 RNA5SP350 SNORD39 | ENSG00000264997.1 RNA5SP349 RNA5SP348 MMP12 WTAPP1 snoU13|ENSG00000239154.1 snoU13 | ENSG00000252679.1 MIR3920 snoU13 | ENSG00000238388.1 RN7SKP115 RN7SL222P RN7SKP53 RNA5SP347 RNA5SP346 RNA5SP345 SRSF8 SRSF8 MIR548L VSTM5 RN7SL195P snoU13 | ENSG00000238437.1 MED17 SNORA40|ENSG00000210825.1 SNORA18|ENSG00000207145.1 SNORD5 | ENSG00000239195.1 SNORA8|ENSG00000207304.1 SNORA1 | ENSG00000206834.1 SNORD6 SNORA32 | ENSG00000206799.1 SNORA25 | ENSG00000207112.1 SCARNA9 RN7SL223P SLC36A4 snoU13|ENSG00000239086.1 DISC1FP1 CHORDC1 SNORD56|ENSG00000207299.1 TRIM49D1 TRIM64B TRIM77 FOLH1B GRM5 TMEM135 RN7SL225P snoU13 | ENSG00000238666.1 PCF11 SNORA70E snoU13 | ENSG00000238995.1 SNORD112 | ENSG00000252592.1 ACAT1 ACRV1 BIRC2 APLP2 APOA1 APOA4 APOC3 ARCN1 FXYD2 CASP1 CASP4 CASP5 CD3D CD3E CTSC CHEK1 JENAYAH DLAT DLG2 DPAGT1 DRD2 ETS1 FDX1 FUT4 SLC37A4 GRIA4 GRIK4 GUCY1A2 H2AFX HMBS HSPA8 HTR3A IL10RA IL18 STT3A KCNJ1 VWA5A MCAM KMT2A MMP1 MMP3 MMP7 MMP8 MMP10 MMP13 MRE11A MTNR1B NCAM1 NFRKB NNMT NPAT NRGN OPCML PGR PPP2R1B PRCP PTS PVRL1 RDX SCN2B SCN4B ST3GAL4 SLN SORL1 SRPR ST14 TAGLN TECTA TRPC6 TYR UPK2 ZBTB16 ZNF202 CUL5 FZD4 BARX2 JRKL EED MTMR2 USP2 HTR3B ZW10 MMP20 UBE4A EI24 FEZ1 CEP57 ARHGAP32 NAALAD2 RBM7 MPZL2 YAP1 HYOU1 ATP5L ME3 GPR83 ADAM8 PRSS23 TREH CEP164 IGSF9B AKHIR1 EXPH5 PHLDB1 NCAPD3 SIK3 VSIG2 BACE1 TRIM29 RAB38 CADM1 PANX1 POU2F3 REXO2 TENM4 OR8B8 TIMM8B ATAU8B2 ACAD8 B3GAT1 RAB30 DCPS C11orf54 ZBTB44 THYN1 DDX25 NOX4 NTM CDON SIDT2 PERDAGANGAN4 C11orf73 CWC15 SPA17 FXYD6 CNTN5 SIAE C11orf71 ROBO4 SLC35F2 RAB39A BTG4 NXPE4 SYTL2 ANKRD49 TTC12 C11orf57 ELMOD1 FOXRED1 KDM4D SCN3B VPS11 TMEM126B TEX12 CRTAM IFT46 SMCO4 PRDM10 TRIM49 DSCAML1 GRAMD1B KIAA1377 ARHGAP20 USP28 CREBZF KAD18 CCDC90B CCDC81 AASDHPPT PKNOX2 TP53AIP1 MMP27 ABCG4 ROBO3 C11orf1 TAF1D RNF26 FAM118B DYNC2H1 NLRX1 MSANTD2 CCDC82 CLMP PDZD3 C11orf63 CCDC15 PDGFD TMPRSS5 PUS3 MFRP JAM3 BCO2 TMEM133 TMPRSS13 TMEM126A DCUN1D5 MSANTD4 KIRREL3 BUD13 TMEM25 RPUSD4 UBASH3B C11orf70 DIXDC1 KIAA1731 ZC3H12C GLB1L2 ESAM ALKBH8 FDXACB1 C11orf52 VPS26B GLB1L3 TIRAP KAD16 C1QTNF5 TMEM123 PANX3 APOA5 FAT3 TMEM45B C11orf93 PIH1D2 NXPE1 NXPE2 AMICA1 FAM76B SESN3 PIWIL4 ARHGAP42 KBTBD3 CWF19L2 KDELC2 LAYANG AMOTL1 CCDC67 PATE1 C11orf65 KELEBIHAN15 C11orf45 HYLS1 TMEM218 OR8B12 OR10G8 ATAU10G9 OR10S1 ATAU6T1 OR4D5 TMEM136 SPATA19 C11orf82 CCDC83 HEPACAM FAM181B CCDC89 ANGPTL5 ANKK1 RNF214 FOXR1 CCDC153 OR8D1 ATAU8D2 ATAU8B4 C11orf44 CCDC84 TMEM225 OR8D4 ANKRD42 C11orf53 HEPHL1 FOLR4 KDM4E BSX OR6X1 ATAU6M1 ATAU10G4 OR10G7 ATAU8B3 OR8A1 C11orf87 C11orf92 C11orf88 PATE2 PATI4 SNX19 MIRLET7A2 MIR100 MIR125B1 MIR34B MIR34C DDI1 HILANG KAD17 HEPN1 TRIM49C CLDN25 MIR708 PATE3 MIR1261 MIR1304 MIR4300 MIR4301 MIR1260B MIR3166 CASP12 MIR4697 MIR4490 MIR4493 MIR4491 MIR4492 MIR4693
MIR5579
Lengan # Gen Kekerapan Amp Markah Amp Z Nilai Amp Q Kekerapan Del Skor Del Z Nilai Del Q 1p 1300 0.12 0.295 0.98 0.12 0.295 0.668 1q 1195 0.71 7.94 4e-14 0.29 1.51 0.217 2p 624 0.00 -1.87 0.98 0.11 -0.763 0.888 2q 967 0.00 -1.62 0.98 0.11 -0.359 0.888 3p 644 0.00 -1.86 0.98 0.11 -0.741 0.888 3q 733 0.11 -0.642 0.98 0.00 -1.79 0.964 4p 289 0.00 -2.05 0.98 0.16 -0.54 0.888 4q 670 0.06 -1.19 0.98 0.11 -0.627 0.888 5p 183 0.18 -0.432 0.98 0.12 -0.916 0.888 5q 905 0.18 0.432 0.98 0.12 -0.174 0.876 6p 710 0.13 -0.298 0.98 0.24 0.825 0.482 6q 556 0.00 -1.68 0.98 0.32 1.56 0.217 7p 389 0.29 1.01 0.98 0.14 -0.51 0.888 7q 783 0.22 0.807 0.98 0.07 -0.934 0.888 8 p 338 0.00 -1.59 0.98 0.47 2.94 0.0165 8q 551 0.50 3.13 0.0175 0.42 2.14 0.106 9p 301 0.17 -0.343 0.98 0.41 2.09 0.106 9q 700 0.00 -1.46 0.98 0.42 3.05 0.0165 10 p 253 0.18 -0.36 0.98 0.12 -0.852 0.888 10q 738 0.00 -1.79 0.98 0.11 -0.636 0.888 11 p 509 0.25 0.683 0.98 0.20 0.161 0.718 11q 975 0.19 0.65 0.98 0.19 0.65 0.544 12 p 339 0.15 -0.438 0.98 0.35 1.54 0.217 12q 904 0.19 0.544 0.98 0.19 0.544 0.567 13q 560 0.09 -0.757 0.98 0.44 2.95 0.0165 14q 938 0.00 -1.54 0.98 0.21 0.94 0.463 15q 810 0.00 -1.58 0.98 0.26 1.37 0.262 16p 559 0.44 2.71 0.0451 0.25 0.649 0.544 16q 455 0.00 -1.28 0.98 0.63 4.91 1.82e-05 17 p 415 0.00 -1.63 0.98 0.42 2.5 0.0498 17q 972 0.12 -0.0913 0.98 0.18 0.531 0.567 18 p 104 0.15 -0.642 0.98 0.35 1.22 0.317 18q 275 0.14 -0.614 0.98 0.29 0.855 0.482 19p 681 0.12 -0.43 0.98 0.18 0.129 0.718 19q 935 0.12 -0.138 0.98 0.18 0.476 0.577 20 p 234 0.39 1.81 0.354 0.08 -1.11 0.888 20q 448 0.33 1.54 0.492 0.08 -1.04 0.888 21q 258 0.12 -0.948 0.98 0.12 -0.948 0.888 22q 564 0.00 -1.68 0.98 0.32 1.57 0.217
Xq 668 0.21 0.482 0.98 0.31 1.57 0.217
Nama Contoh Tumor TCGA-A2-A0EU-01A-22D-A060-02 TCGA-A7-A0D9-01A-31D-A060-02 TCGA-AO-A0JF-01A-11D-A060-02 TCGA-AO-A0JJ-01A-11D-A060-02 TCGA-AO-A0JL-01A-11D-A060-02 TCGA-AR-A0TU-01A-31D-A106-02 TCGA-B6-A0RE-01A-11D-A060-02 TCGA-B6-A0RG-01A-11D-A060-02 TCGA-B6-A0RI-01A-11D-A060-02 TCGA-B6-A0X4-01A-11D-A106-02
Kaedah
Data sumber
Kaedah analisis data
Mengesan kawasan yang menarik
Mengenal pasti CNV normal
Simulasi kawasan menyimpang
Abstrak
Bahan tambahan elektronik
13059_2005_1104_MOESM1_ESM.xls
13059_2005_1104_MOESM2_ESM.xls
13059_2005_1104_MOESM3_ESM.xls
Bahan dan kaedah
Kandungan dan pemetaan GC
Exon bermakna penormalan data kiraan baca
Salin anggaran nombor
Algoritma panggilan
Alat EXCAVATOR
Set data populasi
Set data melanoma
Set data ketidakupayaan intelektual
Perbandingan algoritma
Tonton video: Variasi Gerak Manipulatif (Februari 2023).