Maklumat

Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC

Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya menghadapi masalah untuk memahami bagaimana GISTIC membezakan variasi nombor salinan kepada nilai -2, -1, 0, 1, 2. Saya menggunakan variasi nombor salinan TCGA untuk ColoRectal Adenocarcinoma.

Dalam Soalan Lazim cBioPortal ada tertulis bahawa:

Untuk kajian TCGA, jadual di all_thresholded.by_genes.txt (yang merupakan bahagian output GISTIC yang digunakan untuk menentukan status salinan-bilangan setiap gen dalam setiap sampel dalam cBioPortal) diperoleh dengan menerapkan kedua- rendah dan tinggi- ambang tahap ke tahap salinan gen semua sampel. Entri dengan nilai +/- 2 melebihi ambang tahap tinggi untuk amp / del, dan entri dengan +/- 1 melebihi ambang tahap rendah tetapi bukan ambang tahap tinggi. Ambang tahap rendah hanyalah nilai input ambang bunyi 'amp_thresh' dan 'del_thresh' ke GISTIC (biasanya 0.1 atau 0.3) dan sama untuk setiap ambang.

Sebaliknya, ambang tahap tinggi dikira berdasarkan sampel-demi-sampel dan didasarkan pada bilangan salinan penguatan (atau penghapusan) median lengan maksimum (atau minimum) yang terdapat dalam sampel. Ideanya, untuk penghapusan pula, adalah bahawa tahap ini adalah pendekatan yang baik untuk hemizigus memandangkan kemurnian dan kekosongan sampel.

Ambang tahap rendah cukup jelas, sementara ambang tahap tinggi tidak (yang digunakan untuk melabel nilai +/- 2).

Saya cuba mengembalikan fungsi diskretisasi (pemotongan tidak tersedia di firebrowse). Penyelesaian terbaik yang saya dapati adalah, untuk setiap sampel, untuk:

  • bahagikan nilai nombor salinan dalam dua kumpulan (diperkuat - nilai positif, dihapus - nilai negatif)

  • untuk setiap kumpulan (diperkuat - dipadam)

    • hitung nilai nombor salinan median di dalam setiap lengan kromosom
    • ambil nilai median maksimum (minimum untuk kumpulan yang dihapus) di seluruh lengan dan gunakan sebagai ambang (lebih rendah) yang lebih tinggi

Saya mengujinya menggunakan fail:

  • all_data_by_genes.txt
  • all_thresholded.by_genes.txt

cuba mendapatkan nilai diskret yang betul (-2, -1, 0, 1, 2) bagi fail kedua daripada yang pertama. Walau bagaimanapun, sebahagian kecil daripada nilai tidak dipetakan dengan betul. Adakah saya kehilangan sesuatu?


Penyelesaian terbaik adalah menggunakan hanya perubahan luas, menggunakan failbroad_values_by_arm.txt.

Khususnya, untuk setiap sampel, ambang tertinggi dikira sebagai jumlah ambang hingar (paras rendah) (mis. 0.1) ditambah dengan nilai maksimum variasi nombor salinan untuk sampel pada semua lengan. Begitu juga, ambang terendah adalah nilai minimum untuk sampel di semua lengan ditambah ambang kebisingan negatif (tahap rendah) (mis. -0.1).


Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC - Biology

GISTIC mengenal pasti kawasan genomik yang diperoleh atau hilang dengan ketara merentas satu set tumor. Talian paip mula-mula menapis sampel biasa daripada data nombor salinan tersegmen dengan memeriksa kod bar TCGA dan kemudian melaksanakan versi GISTIC 2.0.16 (semakan cga svn 38839).

Terdapat 228 sampel tumor yang digunakan dalam analisis ini: 14 keputusan peringkat lengan yang ketara, 0 amplifikasi fokus yang ketara, dan 0 pemadaman fokus yang ketara ditemui.

Rajah 1. Kedudukan genom kawasan yang diperkuat: paksi-X mewakili isyarat penguat yang dinormalisasi (atas) dan makna dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.

Gambar 2. Kedudukan genom kawasan yang dihapuskan: paksi-X mewakili isyarat penghapusan dinormalisasi (atas) dan kepentingan dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.

Jadual 1. Dapatkan Jadual Keertian Aras Lengan Jadual Penuh - 14 keputusan penting ditemui.

Lengan # Gen Kekerapan Amp Markah Amp Z Nilai Amp Q Kekerapan Del Skor Del Z Nilai Del Q
1p 2121 0.00 -1.74 0.959 0.00 -1.16 0.96
1q 1955 0.04 2.92 0.00801 0.00 -1.12 0.96
2p 924 0.00 -1.15 0.928 0.03 1.72 0.42
2q 1556 0.00 -1.14 0.928 0.02 1.16 0.799
3p 1062 0.00 -1.17 0.928 0.00 -1.17 0.96
3q 1139 0.00 -1.17 0.928 0.01 -0.592 0.96
4p 489 0.01 -0.0303 0.928 0.00 -1.17 0.96
4q 1049 0.01 -0.0152 0.928 0.00 -1.16 0.96
5p 270 0.04 3.4 0.00188 0.00 -1.73 0.96
5q 1427 0.04 3.46 0.00188 0.00 -1.72 0.96
6p 1173 0.01 -0.598 0.928 0.00 -1.75 0.96
6q 839 0.00 -1.17 0.928 0.01 -0.599 0.96
7p 641 0.04 3.42 0.00188 0.00 -1.73 0.96
7q 1277 0.05 4.61 7.82e-05 0.00 -1.71 0.96
8 p 580 0.00 -1.18 0.928 0.01 -0.605 0.96
8q 859 0.00 -1.17 0.928 0.01 -0.598 0.96
9p 422 0.00 -1.17 0.928 0.02 0.544 0.96
9q 1113 0.01 -0.56 0.928 0.03 1.74 0.42
10 p 409 0.01 -0.602 0.928 0.01 -0.602 0.96
10q 1268 0.01 -0.576 0.928 0.01 -0.00159 0.96
11 p 862 0.01 0.00291 0.928 0.02 0.576 0.96
11q 1515 0.01 -0.558 0.928 0.02 1.17 0.799
12 p 575 0.04 3.42 0.00188 0.00 -1.73 0.96
12q 1447 0.04 3.46 0.00188 0.00 -1.71 0.96
13q 654 0.01 -0.551 0.928 0.04 3.45 0.00544
14q 1341 0.02 1.14 0.365 0.00 -1.73 0.96
15q 1355 0.00 -1.74 0.959 0.02 0.564 0.96
16p 872 0.04 2.87 0.00801 0.00 -1.14 0.96
16q 702 0.03 1.73 0.148 0.01 0.0142 0.96
17 p 683 0.04 2.9 0.00801 0.02 0.616 0.96
17q 1592 0.04 3.49 0.00188 0.00 -1.12 0.96
18 p 143 0.00 -1.18 0.928 0.01 -0.0396 0.96
18q 446 0.00 -1.17 0.928 0.01 -0.0315 0.96
19p 995 0.01 -0.582 0.928 0.01 -0.00899 0.96
19q 1709 0.01 -0.00492 0.928 0.00 -1.73 0.96
20 p 355 0.03 1.68 0.151 0.00 -1.74 0.96
20q 753 0.02 1.12 0.365 0.00 -1.74 0.96
21q 509 0.00 -1.17 0.928 0.02 0.547 0.96
22q 921 0.01 -1 0.928 0.15 17.3 0

Fail Segmentasi: Fail segmentasi mengandungi data tersegmentasi untuk semua sampel yang dikenal pasti oleh GLAD, CBS, atau beberapa algoritma segmentasi lain. (Lihat format fail SENANG dalam dokumentasi format fail Genepattern.) Ia ialah fail enam lajur yang dibataskan tab dengan baris pertama pilihan yang mengenal pasti lajur. Posisi berada dalam unit pasangan asas. Tajuk lajur adalah: (1) Sampel (nama sampel), (2) Kromosom (nombor kromosom), (3) Posisi Mula (kedudukan permulaan segmen, dalam pangkalan), (4) Posisi Akhir ( kedudukan akhir segmen, dalam pangkalan), (5) Penanda bilangan (bilangan penanda dalam segmen), (6) Seg.CN (log2 () -1 nombor salinan).

Fail Penanda: Fail penanda mengenal pasti nama penanda dan kedudukan penanda dalam set data asal (sebelum pembahagian). Ia ialah fail tiga lajur, tab-dibataskan dengan pengepala pilihan. Tajuk lajur adalah: (1) Nama Penanda, (2) Kromosom, (3) Kedudukan Penanda (dalam pangkalan).

Genom Rujukan: Fail genom rujukan mengandungi maklumat mengenai lokasi gen dan sitoband pada binaan genom tertentu. Fail genom rujukan dibuat di Matlab dan tidak dapat dilihat dengan penyunting teks.

Fail CNV: Terdapat dua pilihan untuk fail cnv. Pilihan pertama membolehkan CNV dikenal pasti dengan nama penanda. Pilihan kedua membolehkan CNVs dikenal pasti mengikut lokasi genom. Pilihan # 1: Dua lajur, fail yang dibatasi tab dengan baris tajuk pilihan. Nama penanda yang diberikan dalam fail ini mesti sepadan dengan nama penanda yang diberikan dalam fail penanda. Pengecam CNV adalah untuk kegunaan pengguna dan boleh dibuat sewenang-wenangnya. Tajuk lajur adalah: (1) Nama Penanda, (2) Pengenal CNV. Pilihan # 2: Lajur 6, fail yang dibatasi tab dengan baris tajuk pilihan. 'Pengenal CNV' adalah untuk kegunaan pengguna dan boleh sewenang-wenangnya. 'Narrow Region Start' dan 'Narrow Region End' juga tidak digunakan. Pengepala lajur ialah: (1) Pengecam CNV, (2) Kromosom, (3) Permulaan Wilayah Sempit, (4) Hujung Wilayah Sempit, (5) Mula Wilayah Luas, (6) Hujung Wilayah Luas

Ambang Penguatan: Ambang untuk penguatan nombor salinan. Kawasan dengan nisbah log2 di atas nilai ini dianggap diperkuat.

Ambang Had: Ambang untuk penghapusan nombor salinan. Kawasan dengan nisbah log2 di bawah nilai negatif ini dianggap penghapusan.

Nilai Had: Nilai had minimum dan maksimum pada data yang dianalisis. Kawasan dengan nisbah log2 lebih besar daripada topi ditetapkan ke kawasan nilai topi dengan nisbah log2 kurang dari -cap nilai ditetapkan ke -cap. Nilai mesti positif.

Potongan Panjang Luas: Ambang digunakan untuk membezakan luas daripada peristiwa fokus, diberikan dalam unit pecahan lengan kromosom.

Buang X-Kromosom: Bendera menunjukkan sama ada akan membuang data dari kromosom X sebelum dianalisis. Nilai yang dibenarkan= <1,0>(1: Buang X-Kromosom, 0: Jangan keluarkan X-Kromosom.

Tahap Keyakinan: Tahap keyakinan yang digunakan untuk mengira kawasan yang mengandungi pemacu.

Bilangan penanda terkecil untuk dibenarkan dalam segmen daripada data tersegmen. Segmen yang mengandungi bilangan penanda kurang daripada ini bergabung dengan segmen berdekatan yang paling hampir dalam bilangan salinan.

Arm Level Peel Off: Flag diatur untuk membolehkan pengelupasan tahap lengan pada peristiwa semasa definisi puncak. Peningkatan pengelupasan tahap lengan ke kaedah pengelupasan arbitrasi menetapkan semua peristiwa dalam lengan kromosom sampel yang sama ke satu puncak. Ia berguna apabila puncak dipisahkan oleh bunyi atau kromotripsis. Nilai yang dibenarkan = <1,0> (1: Gunakan pengelupasan paras lengan, 0: Gunakan pengelupasan arbitrasi biasa).

Segmen Sampel Maksimum: Jumlah segmen maksimum yang dibenarkan untuk sampel dalam data input. Sampel dengan lebih banyak segmen daripada ambang ini tidak termasuk dalam analisis.

Senarai input yang digunakan untuk menjalankan GISTIC2 ini. Semua fail yang disenaraikan hendaklah disertakan dalam hasil arkib.

Fail Segmentasi = /xchip/cga/gdac-prod/tcga-gdac/jobResults/GDAC_MergeDataFilesPipeline/THCA/1445401/2.GDAC_MergeDataFiles.Finished/THCA.snp__genome_wide_snp_ed__broadment_snp_6__broadment_minuced_txt_snp_6__broadment_snp_6__broadment_minu_txt_broadment_minu_txt.

Fail Penanda = /xchip/cga/reference/gistic2/genome.info.6.0_hg19.na31_minus_frequent_nan_probes_sorted_2.1.txt

Genom Rujukan = /xchip/cga/reference/gistic2/hg19_with_miR_20120227.mat

Fail CNV = /xchip/cga/reference/gistic2/CNV.hg19.bypos.111213.txt

Ambang Penguatan = 0.30

Segmen Sampel Maksimum = 10000

Jadual 2. Dapatkan Jadual Penuh Pertama 10 daripada 228 Sampel Tumor Input.

Nama Contoh Tumor
TCGA-BJ-A0YZ-01A-11D-A10T-01
TCGA-BJ-A0Z0-01A-11D-A10T-01
TCGA-BJ-A0Z2-01A-11D-A10T-01
TCGA-BJ-A0Z3-01A-11D-A13V-01
TCGA-BJ-A0Z5-01A-11D-A10T-01
TCGA-BJ-A0Z9-01A-11D-A10T-01
TCGA-BJ-A0ZA-01A-11D-A10T-01
TCGA-BJ-A0ZB-01A-11D-A10T-01
TCGA-BJ-A0ZC-01A-12D-A13V-01
TCGA-BJ-A0ZE-01A-11D-A10T-01

Rajah 3. Profil nombor salinan bersegmen dalam data input

Fail semua luka merangkum hasil dari menjalankan GISTIC. Ia mengandungi data tentang kawasan penguatan dan pemadaman yang ketara serta sampel yang dikuatkan atau dipadamkan dalam setiap kawasan ini. Kawasan yang dikenal pasti disenaraikan di lajur pertama, dan sampel disenaraikan di baris pertama, bermula di lajur 10.

Data Wilayah

Lajur 1-9 menyajikan data mengenai wilayah penting seperti berikut:

Nama Unik: Nama yang diberikan untuk mengenal pasti wilayah.

Deskriptor: Penjelaskan genomik kawasan itu.

Lebar Puncak Lebar: Batas 'puncak lebar' kemungkinan besar mengandungi gen yang disasarkan. Ini disenaraikan dalam koordinat genom dan indeks penanda (atau siasatan).

Batas Puncak: Batasan wilayah penguatan atau penghapusan maksimum.

Had Kawasan: Batasan dari keseluruhan wilayah penguatan atau penghapusan yang ketara.

Nilai Q: Nilai Q bagi kawasan puncak.

Nilai Q sisa: Nilai Q dari kawasan puncak setelah mengeluarkan ('mengupas') amplifikasi atau penghapusan yang bertindih dengan kawasan puncak lain yang lebih ketara dalam kromosom yang sama.

Luas atau Tumpuan: Mengenal pasti sama ada rantau ini mencapai kepentingan disebabkan terutamanya oleh peristiwa luas (dipanggil 'luas'), peristiwa fokus (dipanggil 'fokus'), atau peristiwa luas dan fokus yang signifikan secara bebas (dipanggil 'kedua-duanya').

Ambang Amplitud: Kunci memberi makna nilai pada lajur berikutnya yang berkaitan dengan setiap sampel.

Data Sampel

Setiap sampel yang dianalisis ditunjukkan dalam salah satu lajur yang mengikuti data lesi (lajur 10 hingga akhir). Data yang terkandung dalam lajur ini sedikit berbeza mengikut bahagian file. Bahagian pertama dapat dikenal pasti dengan kunci yang diberikan dalam lajur 9 - ia bermula pada baris 2 dan berlanjutan hingga baris yang berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian ini mengandungi data yang diringkaskan untuk setiap sampel. '0' menunjukkan bahawa nombor salinan sampel tidak dikuatkan atau dipadamkan melebihi jumlah ambang di kawasan puncak tersebut. A '1' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat rendah (melebihi ambang rendah yang ditunjukkan dalam lajur 9), dan '2' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat tinggi (melebihi ambang tinggi yang ditunjukkan dalam lajur 9). Bahagian kedua dapat dikenal pasti baris di mana lajur 9 berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian kedua betul-betul mengeluarkan semula bahagian pertama, kecuali di sini perubahan sebenar dalam nombor salinan disediakan dan bukannya sifar, satu dan dua. Bahagian akhir adalah serupa dengan bahagian pertama, kecuali di sini hanya acara luas disertakan. A 1 di lajur sampel (lajur 10+) menunjukkan bahawa jumlah salinan median sampel di seluruh rantau yang signifikan melebihi ambang yang diberikan dalam lajur 9. Maksudnya, ini menunjukkan sama ada sampel mempunyai peristiwa yang dilanjutkan secara geografi, dan bukannya penguatan fokus atau penghapusan yang meliputi lebih sedikit daripada kawasan puncak.

Fail gen amp mengandungi satu lajur untuk setiap puncak penguatan yang dikenal pasti dalam analisis GISTIC. Empat baris pertama adalah:

Baris ini mengenal pasti lesi dengan cara yang sama seperti semua fail lesi. Baris yang tersisa menyenaraikan gen yang terdapat di setiap puncak lebar. Untuk puncak yang tidak mengandungi gen, gen terdekat disenaraikan dalam kurungan.

Fail del gen mengandungi satu lajur untuk setiap puncak penghapusan yang dikenal pasti dalam analisis GISTIC. Format fail untuk fail del gen adalah sama dengan format untuk fail gen amp.

Fail skor menyenaraikan nilai Q [disajikan sebagai -log10 (q)], skor G, amplitud rata-rata di antara sampel yang menyimpang, dan kekerapan penyimpangan, di seluruh genom untuk kedua-dua penguatan dan penghapusan. Fail skor dapat dilihat dengan modul Genepattern SNPViewer dan boleh diimport ke Integrated Genomics Viewer (IGV).

Nombor salinan bersegmen ialah fail pdf yang mengandungi imej peta warna profil nombor salinan bersegmen dalam data input.

Penguatan pdf adalah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan penguatan untuk semua penanda di seluruh wilayah yang dianalisis.

pdf pemadaman ialah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan pemadaman untuk semua penanda di seluruh rantau yang dianalisis.

Jadual maklumat asas mengenai kawasan genom (puncak) yang ditentukan GISTIC untuk diperkuat atau dihapuskan dengan ketara. Ini menerangkan tiga jenis batas puncak, dan menyenaraikan gen yang terdapat dalam dua daripadanya. Lajur permulaan dan hujung rantau (bersama-sama lajur kromosom) mengehadkan keseluruhan kawasan yang mengandungi puncak yang melebihi paras keertian. Kawasan ini mungkin sama untuk pelbagai puncak. Permulaan dan penamat puncak mengehadkan nilai maksimum puncak. Puncak lanjutan ialah puncak yang ditentukan oleh teguh, dan terkandung dalam puncak lebar yang dilaporkan dalam _genes.txt oleh satu penanda.

Jadual hasil statistik per-lengan untuk set data. Setiap lengan adalah satu barisan di meja. Lajur pertama menentukan lengan dan lajur kedua mengira bilangan gen yang diketahui berada pada lengan. Untuk penguatan dan penghapusan, jadual mempunyai lajur untuk kekerapan penguatan atau penghapusan lengan, dan skor Z dan nilai Q.

Jadual tahap penguatan lengan kromosom untuk setiap sampel. Setiap baris ialah lengan kromosom, dan setiap lajur adalah sampel. Data terdapat dalam unit nombor salinan mutlak -2.

Jadual peringkat gen bagi nilai nombor salinan untuk semua sampel. Setiap baris ialah data untuk gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur selebihnya adalah contohnya. Nilai nombor salinan dalam jadual adalah dalam unit (nombor salin -2), sehingga tidak ada penguatan atau penghapusan 0, gen dengan penguatan mempunyai nilai positif, dan gen dengan penghapusan adalah nilai negatif. Data ditukar daripada tahap penanda ke tahap gen menggunakan kaedah ekstrem: gen diberikan penguatan terbesar atau nilai pemadaman paling sedikit antara penanda yang diliputinya.

Jadual peringkat gen data salin yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan peristiwa luas dengan panjang lebih besar daripada potongan panjang lebar. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt.

Jadual peringkat gen bagi data nombor salinan yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan acara fokus dengan panjang lebih besar daripada pemotongan panjang fokus. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt.

Jadual tahap gen bagi penunjuk penguatan dan pemadaman diskret pada untuk semua sampel. Terdapat satu baris untuk setiap gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai jadual 0 bermaksud tiada penguatan atau penghapusan melebihi ambang. Amplifikasi ialah nombor positif: 1 bermaksud amplifikasi melebihi ambang amplifikasi 2 bermaksud amplifikasi yang lebih besar kepada amplifikasi paras lengan yang diperhatikan untuk sampel. Penghapusan diwakili oleh nilai jadual negatif: -1 mewakili penghapusan melebihi ambang -2 bermaksud penghapusan lebih besar daripada penghapusan tahap lengan minimum yang diperhatikan untuk sampel.

Jadual pemotongan ambang per sampel (dalam unit nombor salinan mutlak -2) yang digunakan untuk membezakan penguatan tahap tinggi (+/- 2) dari penguatan biasa (+/- 1) dalam fail keluaran all_thresholded.by_genes.txt . Jadual mengandungi tiga lajur: pengecam sampel diikuti dengan nilai potong rendah (pemadaman) dan tinggi (penguatan). Potongan dikira sebagai tahap penguatan tahap lengan minimum ditolak ambang penghapusan untuk penghapusan dan penguatan tahap lengan maksimum ditambah ambang penguatan untuk penguatan.

Senarai segmen nombor salinan yang menerangkan hanya peristiwa fokus yang terdapat dalam data. Tahap penguatan / penghapusan segmen adalah dalam unit (nombor salin -2), dengan amplifikasi positif dan penghapusan nombor negatif. Fail ini boleh dilihat dengan IGV.

Imej yang menunjukkan korelasi antara kiraan gen dan kekerapan perubahan nombor salinan.

Fail yang menunjukkan kedudukan selang keyakinan di sekitar puncak GISTIC yang dapat dimuat sebagai trek dalam penyemak imbas penonton yang serasi seperti IGV atau penyemak imbas genom UCSC.

GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Ia mengambil nisbah nombor salinan tersegmen sebagai input, memisahkan peristiwa peringkat lengan daripada peristiwa fokus, dan kemudian melakukan dua ujian: (i) mengenal pasti lengan kromosom yang dikuatkan/dipadamkan dengan ketara dan (ii) mengenal pasti kawasan yang dikuatkan atau dipadamkan secara ketara. Untuk analisis fokus, tahap keertian (nilai Q) dikira dengan membandingkan keuntungan/kerugian yang diperhatikan pada setiap lokus dengan yang diperoleh dengan mengubah suai secara rawak peristiwa sepanjang genom untuk mencerminkan hipotesis nol bahawa mereka semua adalah 'penumpang' dan boleh mempunyai. berlaku di mana-mana sahaja. Tahap kepentingan khusus lokus kemudiannya diperbetulkan untuk ujian hipotesis berbilang. Kepentingan peringkat lengan dikira dengan membandingkan kekerapan keuntungan/kerugian setiap lengan dengan kadar yang dijangkakan berdasarkan saiznya.Kaedah ini menghasilkan pandangan genom dari kawasan yang diperkuat dan dihapus secara signifikan, serta jadual gen dengan skor keuntungan atau kerugian. Perbincangan yang lebih mendalam tentang algoritma GISTIC dan utilitinya diberikan dalam [1], [3], dan [5].

Kawasan genom yang rentan terhadap variasi garis kuman dalam jumlah salinan dikecualikan dari analisis GISTIC menggunakan senarai variasi nombor salinan garis kuman (CNV). CNV adalah urutan DNA yang mungkin terdapat pada nombor salinan yang berlainan dalam garis kuman dua individu yang berbeza. Variasi garis kuman sedemikian boleh mengelirukan analisis GISTIC, yang menemui variasi nombor salinan somatik yang ketara dalam kanser. Perbincangan yang lebih mendalam diberikan dalam [6]. GISTIC kini menggunakan dua senarai pengecualian CNV. Satu adalah berdasarkan kesusasteraan yang menerangkan variasi nombor salinan, dan yang kedua datang daripada analisis variasi ketara antara normal darah dalam set data TCGA.

Ini adalah ciri eksperimen. Hasil analisis yang diringkaskan dalam laporan ini boleh dimuat turun dari Pusat Penyelarasan Data TCGA.


Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC - Biology

GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Saluran paip mula-mula menapis sampel biasa daripada data nombor salinan tersegmen dengan memeriksa kod bar TCGA dan kemudian melaksanakan versi GISTIC 2.0.17a (versi tugas Firehose: 0.0.8).

Terdapat 66 sampel tumor yang digunakan dalam analisis ini: 14 hasil aras lengan yang signifikan, 2 penguatan fokus yang signifikan, dan 0 penghapusan fokus yang signifikan dijumpai.

Rajah 1. Kedudukan genom kawasan yang diperkuat: paksi-X mewakili isyarat penguat yang dinormalisasi (atas) dan makna dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.

Jadual 1. Dapatkan Jadual Amplifikasi Jadual Penuh - 2 amplifikasi penting ditemui. Klik pautan dalam lajur terakhir untuk melihat senarai komprehensif gen calon. Sekiranya tidak ada gen yang dikenal pasti dalam puncak, gen terdekat muncul dalam tanda kurung.

Cytoband nilai Q Nilai Q baki Batas Puncak Lebar # Gen dalam Wide Peak
8q11.21 0.23712 0.23712 chr8:51697150-53706540 6
15q22.31 0.23712 0.23712 chr15: 1-66482794 492

Ini adalah senarai lengkap diperkuatkan gen di puncak lebar untuk 8q11.21.

Jadual S1. Gen dalam huruf tebal adalah gen kanser seperti yang ditakrifkan oleh Banci Gen Kanser Institut Sanger [7].

Ini adalah senarai lengkap dikuatkan gen di puncak lebar untuk 15q22.31.

Jadual S2. Gen dalam huruf tebal adalah gen kanser seperti yang ditakrifkan oleh Banci Gen Kanser Institut Sanger [7].

Gen
BUB1B
TCF12
FLJ27352
C15orf55
hsa-mir-4311
hsa-mir-1272
hsa-mir-422a
hsa-mir-190
hsa-mir-2116
hsa-mir-628
hsa-mir-1266
hsa-mir-147b
hsa-mir-1282
hsa-mir-627
hsa-mir-4310
hsa-mir-626
hsa-mir-1233-2
hsa-mir-1233-1
hsa-mir-211
hsa-mir-1268
hsa-mir-3118-6
hsa-mir-3118-4
ACTC1
ADAM10
ANXA2
APBA2
AQP9
B2M
NBEAP1
BNIP2
CA12
CAPN3
CHRM5
CHRNA7
CKMT1B
CYP19A1
DUT
EPB42
FBN1
FGF7
GABPB1
GABRA5
GABRB3
GABRG3
GALK2
GANC
GATM
GCHFR
PDIA3
GTF2A2
HDC
ONECUT1
IPW
ITPKA
IVD
LIPC
LTK
MAP1A
MEIS2
MFAP1
TRPM1
MYO1E
MYO5A
NDN
NEDD4
OAZ2
OCA2
PLCB2
PPIB
PETA6
RAB27A
RAD51
RORA
RYR3
SCG5
SLC12A1
SNRPN
SNX1
SORD
SPINT1
SRP14
THBS1
TJP1
TP53BP1
TPM1
TYRO3
UBE3A
MKN3
SLC30A4
PAR5
CILP
EIF3J
JMJD7-PLA2G4B
RAB11A
SNAP23
ALDH1A2
HERC2
HERC1
SNURF
USP8
CCNB2
SLC28A2
SLC24A1
CCPG1
GCNT3
COPS2
PERJALANAN4
TGM5
PIGB
IGDCC3
PPIP5K1
AQR
SECISBP2L
KIAA0101
ARHGAP11A
LCMT2
USP3
SLC12A6
BCL2L10
PDCD7
RASGRP1
SERF2
DENND4A
GNB5
ARPP19
CLPX
SLC27A2
GPR176
CHP
OIP5
BAHD1
KIPAS1
CEP152
MAPKBP1
GOLGA8A
ZNF609
RTF1
CYFIP1
MGA
DMXL2
VPS39
FAM189A1
AP4E1
CCNDBP1
DAPK2
EID1
C15orf2
C15orf63
TMEM87A
RPAP1
DKFZP434L187
PYGO1
PLDN
GREM1
FOXB1
RPUSD2
TUBGCP4
SCG3
TMOD3
TMOD2
EHD4
DUOX2
MYEF2
RPS27L
NDUFAF1
RSL24D1
NUSAP1
TMEM85
RASL12
SPG21
SPTBN5
PTPLAD1
CTDSPL2
KLF13
RAB8B
DUOX1
CSSK1G1
MAGEL2
DLL4
INO80
FAM63B
RNF111
ZNF280D
TRPM7
VPS13C
PPP1R14D
DPP8
MTMR10
PARP16
ZNF770
FLJ10038
HAUS2
FAM82A2
DNAJC17
MNS1
NOP10
MYO5C
NDNL2
FAM214A
C15orf24
PAK6
DTWD1
CASC5
AVEN
ATP10A
GJD2
STARD9
VPS18
IGDCC4
SQRDL
ZFP106
RFX7
SPATA5L1
CHAC1
NARG2
C15orf29
SLTM
SNX22
ATP8B4
WDR76
TMEM62
SEMA6D
PIF1
SPG11
ELL3
PLEKHO2
POLR2M
C15orf44
NIPA2
APH1B
TLN2
FAM96A
C15orf48
MEGF11
C15orf41
SPPL2A
ZFYVE19
CGNL1
FRMD5
DISP2
CHRFAM7A
ULK4P3
ULK4P1
ARHGAP11B
ATPBD4
C15orf57
C15orf23
BMF
SHF
DUOXA1
SNORD107
LDHAL6B
CHST14
CASC4
LACTB
TUBGCP5
TGM7
CATSPER2
LEO1
MTFMT
OSTBETA
NIPA1
PLA2G4E
TRIM69
PAR1
C15orf43
LOC145663
C2CD4A
FAM81A
GCOM1
LOC145783
LOC145845
TMCO5A
ZSCAN29
TTBK2
CDAN1
STRC
DYX1C1
CSNK1A1P1
OTUD7A
SPRED1
PGBD4
ADAL
EXD1
FSIP1
RHOV
C15orf33
MGC15885
UBR1
PATL2
LPCAT4
PLA2G4F
LRRC57
LYSMD2
WDR72
HMGN2P46
SLC24A5
PRTG
LOC283663
LOC283683
OR4N4
LOC283710
FAM98B
PLA2G4D
HERC2P3
GOLGA6L1
GOLGA8G
GOLGA8IP
FBXL22
SNORD108
SNORD109A
SNORD109B
SNORD115-1
WHAMMP3
POTEB
GLDN
FMN1
SNORD64
PAR4
PAR-SN
RBPMS2
ANKDD1A
LOC348120
MRPL42P5
USP50
TEX9
C15orf52
TNFAIP8L3
C2CD4B
GOLGA8E
ATAU4M2
OR4N3P
KBTBD13
UBAP1L
SHC4
CTXN2
HERC2P2
C15orf53
C15orf54
DUOXA2
MIR190A
MIR211
NF1P2
HERC2P9
WHAMMP2
GOLGA8B
EIF2AK4
CATSPER2P1
UNC13C
LOC503519
CKMT1A
SERINC4
C15orf62
C15orf56
PHGR1
LOC645212
CHEK2P2
LOC646214
CXADRP2
LOC646278
REREP3
LOC653061
LOC653075
HSP90AB4P
MIR626
MIR627
MIR628
ANP32AP1
SNORD116-19
GOLGA6L6
LOC727924
LOC728758
OIP5-AS1
GOLGA8C
PWRN1
PWRN2
SNORD116-1
SNORD116-2
SNORD116-3
SNORD116-4
SNORD116-5
SNORD116-6
SNORD116-7
SNORD116-8
SNORD116-9
SNORD116-10
SNORD116-11
SNORD116-12
SNORD116-13
SNORD116-14
SNORD116-15
SNORD116-16
SNORD116-17
SNORD116-18
SNORD116-20
SNORD116-21
SNORD116-22
SNORD116-23
SNORD116-24
SNORD116-25
SNORD115-2
SNORD116-26
SNORD116-27
SNORD115-3
SNORD115-4
SNORD115-5
SNORD115-6
SNORD115-7
SNORD115-8
SNORD115-9
SNORD115-10
SNORD115-11
SNORD115-12
SNORD115-13
SNORD115-14
SNORD115-15
SNORD115-16
SNORD115-17
SNORD115-18
SNORD115-19
SNORD115-20
SNORD115-21
SNORD115-22
SNORD115-23
SNORD115-25
SNORD115-26
SNORD115-29
SNORD115-30
SNORD115-31
SNORD115-32
SNORD115-33
SNORD115-34
SNORD115-35
SNORD115-36
SNORD115-37
SNORD115-38
SNORD115-39
SNORD115-40
SNORD115-41
SNORD115-42
SNORD115-43
SNORD115-44
SNORD116-28
SNORD116-29
SNORD115-48
SNORD115-24
SNORD115-27
SNORD115-28
SNORD115-45
SNORD115-47
MIR147B
LOC100128714
LOC100129387
LOC100130855
LOC100131089
ANKRD63
HERC2P7
GOLGA8F
LOC100132724
GOLGA8DP
JMJD7
PLA2G4B
ULK4P2
LOC100288615
LOC100288637
LOC100289656
MIR1233-1
MIR1272
MIR1266
MIR1282
LOC100306975
MIR2116
MIR1233-2
MIR4311
MIR4310
MIR3942
LOC100505648
LOC100507466
SERF2-C15ORF63
DYX1C1-CCPG1
MIR4509-1
MIR4509-2
MIR4508
MIR4510
MIR4716
MIR4713
MIR4511
MIR4509-3
MIR4712
MIR4715
TMCO5B
MYZAP

Gambar 2. Kedudukan genom kawasan yang dihapuskan: paksi-X mewakili isyarat penghapusan dinormalisasi (atas) dan kepentingan dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.

Jadual 2. Dapatkan Jadual Keertian Aras Lengan Jadual Penuh - 14 keputusan penting ditemui. Potongan keertian adalah pada nilai Q=0.25.

Lengan # Gen Kekerapan Amp Markah Amp Z Nilai Amp Q Kekerapan Del Skor Del Z Nilai Del Q
1p 2121 0.06 -2.17 0.996 0.77 7.92 5.43e-15
1q 1955 0.06 -2.19 0.996 0.75 7.9 5.77e-15
2p 924 0.09 -1.65 0.996 0.69 8.35 0
2q 1556 0.09 -1.97 0.996 0.69 7.28 5.7e-13
3p 1062 0.12 -2.21 0.996 0.15 -1.72 1
3q 1139 0.14 -2.09 0.996 0.12 -2.33 1
4p 489 0.31 1.83 0.338 0.02 -3.19 1
4q 1049 0.29 0.815 0.593 0.02 -3.61 1
5p 270 0.12 -1.58 0.996 0.12 -1.58 1
5q 1427 0.12 -2.64 0.996 0.12 -2.64 1
6p 1173 0.06 -1.86 0.996 0.75 9.19 0
6q 839 0.06 -1.72 0.996 0.75 9.84 0
7p 641 0.37 2.81 0.0986 0.02 -3.11 1
7q 1277 0.37 1.96 0.338 0.02 -3.52 1
8 p 580 0.29 1.18 0.463 0.20 -0.344 1
8q 859 0.30 1.09 0.463 0.18 -0.879 1
9p 422 0.16 -0.976 0.996 0.16 -0.976 1
9q 1113 0.16 -1.58 0.996 0.18 -1.34 1
10 p 409 0.15 -0.657 0.996 0.73 10.1 0
10q 1268 0.10 -1.65 0.996 0.72 8.31 0
11 p 862 0.25 0.306 0.829 0.14 -1.68 1
11q 1515 0.27 -0.0978 0.996 0.14 -2.16 1
12 p 575 0.28 1.19 0.463 0.04 -2.98 1
12q 1447 0.28 0.0754 0.94 0.02 -3.92 1
13q 654 0.04 -2.21 0.996 0.63 7.85 7.67e-15
14q 1341 0.28 0.27 0.829 0.04 -3.52 1
15q 1355 0.30 0.537 0.696 0.04 -3.48 1
16p 872 0.31 1.27 0.463 0.09 -2.46 1
16q 702 0.31 1.56 0.393 0.11 -1.98 1
17 p 683 0.00 -2.3 0.996 0.73 9.72 0
17q 1592 0.00 -2.66 0.996 0.73 8.05 2.22e-15
18 p 143 0.25 1.1 0.463 0.12 -1.37 1
18q 446 0.24 0.547 0.696 0.15 -1.03 1
19p 995 0.28 0.592 0.696 0.02 -3.61 1
19q 1709 0.25 -0.607 0.996 0.06 -3.57 1
20 p 355 0.31 1.94 0.338 0.09 -2.06 1
20q 753 0.30 1.34 0.463 0.06 -2.72 1
21q 509 0.09 -1.68 0.996 0.54 6.25 6.42e-10
22q 921 0.29 0.931 0.542 0.16 -1.27 1
Xq 1312 0.42 1.69 0.365 0.75 8.24 6.34e-16

Fail Segmentasi: Fail segmentasi mengandungi data tersegmentasi untuk semua sampel yang dikenal pasti oleh GLAD, CBS, atau beberapa algoritma segmentasi lain. (Lihat format fail SENANG dalam dokumentasi format fail Genepattern.) Ia ialah fail enam lajur yang dibataskan tab dengan baris pertama pilihan yang mengenal pasti lajur. Posisi berada dalam unit pasangan asas. Tajuk lajur adalah: (1) Sampel (nama sampel), (2) Kromosom (nombor kromosom), (3) Posisi Mula (kedudukan permulaan segmen, dalam pangkalan), (4) Posisi Akhir ( kedudukan akhir segmen, dalam pangkalan), (5) Penanda bilangan (bilangan penanda dalam segmen), (6) Seg.CN (log2 () -1 nombor salinan).

Fail Penanda: Fail penanda mengenal pasti nama penanda dan kedudukan penanda dalam set data asal (sebelum pembahagian). Ia ialah fail tiga lajur, tab-dibataskan dengan pengepala pilihan. Tajuk lajur adalah: (1) Nama Penanda, (2) Kromosom, (3) Kedudukan Penanda (dalam pangkalan).

Genom Rujukan: Fail genom rujukan mengandungi maklumat mengenai lokasi gen dan sitoband pada binaan genom tertentu. Fail genom rujukan dibuat di Matlab dan tidak dapat dilihat dengan penyunting teks.

Fail CNV: Terdapat dua pilihan untuk fail cnv. Pilihan pertama membolehkan CNV dikenal pasti dengan nama penanda. Pilihan kedua membolehkan CNVs dikenal pasti mengikut lokasi genom. Pilihan # 1: Dua lajur, fail yang dibatasi tab dengan baris tajuk pilihan. Nama penanda yang diberikan dalam fail ini mesti sepadan dengan nama penanda yang diberikan dalam fail penanda. Pengecam CNV adalah untuk kegunaan pengguna dan boleh dibuat sewenang-wenangnya. Tajuk lajur adalah: (1) Nama Penanda, (2) Pengenal CNV. Pilihan # 2: Lajur 6, fail yang dibatasi tab dengan baris tajuk pilihan. 'Pengenal CNV' adalah untuk kegunaan pengguna dan boleh sewenang-wenangnya. 'Narrow Region Start' dan 'Narrow Region End' juga tidak digunakan. Pengepala lajur ialah: (1) Pengecam CNV, (2) Kromosom, (3) Permulaan Wilayah Sempit, (4) Hujung Wilayah Sempit, (5) Mula Wilayah Luas, (6) Hujung Wilayah Luas

Ambang Penguatan: Ambang untuk penguatan nombor salinan. Kawasan dengan nisbah log2 di atas nilai ini dianggap diperkuat.

Ambang Had: Ambang untuk penghapusan nombor salinan. Kawasan dengan nisbah log2 di bawah nilai negatif ini dianggap penghapusan.

Nilai Had: Nilai had minimum dan maksimum pada data yang dianalisis. Kawasan dengan nisbah log2 lebih besar daripada topi ditetapkan ke kawasan nilai topi dengan nisbah log2 kurang dari -cap nilai ditetapkan ke -cap. Nilai mesti positif.

Potongan Panjang Luas: Ambang digunakan untuk membezakan luas daripada peristiwa fokus, diberikan dalam unit pecahan lengan kromosom.

Buang X-Kromosom: Bendera menunjukkan sama ada akan membuang data dari kromosom X sebelum dianalisis. Nilai yang dibenarkan= <1,0>(1: Buang X-Kromosom, 0: Jangan keluarkan X-Kromosom.

Tahap Keyakinan: Tahap keyakinan yang digunakan untuk mengira kawasan yang mengandungi pemacu.

Sertai Saiz Segmen: Bilangan penanda terkecil untuk dibenarkan dalam segmen daripada data tersegmen. Segmen yang mengandungi bilangan penanda kurang daripada ini bergabung dengan segmen berdekatan yang paling hampir dalam bilangan salinan.

Arm Level Peel Off: Flag diatur untuk membolehkan pengelupasan tahap lengan pada peristiwa semasa definisi puncak. Peningkatan pengelupasan tahap lengan ke kaedah pengelupasan arbitrasi menetapkan semua peristiwa dalam lengan kromosom sampel yang sama ke satu puncak. Ia berguna apabila puncak dipisahkan oleh bunyi atau kromotripsis. Nilai yang dibenarkan = <1,0> (1: Gunakan pengelupasan paras lengan, 0: Gunakan pengelupasan arbitrasi biasa).

Segmen Sampel Maksimum: Jumlah segmen maksimum yang dibenarkan untuk sampel dalam data input. Sampel dengan lebih banyak segmen daripada ambang ini tidak termasuk dalam analisis.

Senarai input yang digunakan untuk menjalankan GISTIC2 ini. Semua fail yang disenaraikan hendaklah disertakan dalam hasil arkib.

Fail Segmentasi = /xchip/cga/gdac-prod/tcga-gdac/jobResults/GDAC_MergeDataFilesPipeline/KICH-TP/3348831/GDAC_MergeDataFiles_3125456/KICH-TP.snp__genome_wide_snp_6___mn__mans__mn_s_mand_sng

Fail Penanda = /xchip/cga/reference/gistic2/genome.info.6.0_hg19.na31_minus_frequent_nan_probes_sorted_2.1.txt

Genom Rujukan = /xchip/cga/reference/gistic2/hg19_with_miR_20120227.mat

Fail CNV = /xchip/cga/reference/gistic2/CNV.hg19.bypos.111213.txt

Ambang Amplifikasi = 0.1

Segmen Sampel Maksimum = 2000

Jadual 3. Dapatkan Jadual Penuh Pertama 10 daripada 66 Sampel Tumor Input.

Nama Contoh Tumor
TCGA-KL-8323-01A-21D-2308-01
TCGA-KL-8324-01A-11D-2308-01
TCGA-KL-8325-01A-11D-2308-01
TCGA-KL-8326-01A-11D-2308-01
TCGA-KL-8327-01A-11D-2308-01
TCGA-KL-8328-01A-11D-2308-01
TCGA-KL-8329-01A-11D-2308-01
TCGA-KL-8330-01A-11D-2308-01
TCGA-KL-8331-01A-11D-2308-01
TCGA-KL-8332-01A-11D-2308-01

Rajah 3. Profil nombor salinan bersegmen dalam data input

Fail semua luka merangkum hasil dari menjalankan GISTIC. Ia mengandungi data tentang kawasan penguatan dan pemadaman yang ketara serta sampel yang dikuatkan atau dipadamkan dalam setiap kawasan ini. Kawasan yang dikenal pasti disenaraikan di lajur pertama, dan sampel disenaraikan di baris pertama, bermula di lajur 10.

Data Wilayah

Lajur 1-9 menyajikan data mengenai wilayah penting seperti berikut:

Nama Unik: Nama yang diberikan untuk mengenal pasti wilayah.

Deskriptor: Penjelaskan genomik kawasan itu.

Lebar Puncak Lebar: Batas 'puncak lebar' kemungkinan besar mengandungi gen yang disasarkan. Ini disenaraikan dalam koordinat genom dan indeks penanda (atau siasatan).

Batas Puncak: Batasan wilayah penguatan atau penghapusan maksimum.

Had Kawasan: Batasan dari keseluruhan wilayah penguatan atau penghapusan yang ketara.

Nilai Q: Nilai Q bagi kawasan puncak.

Nilai Q sisa: Nilai Q dari kawasan puncak setelah mengeluarkan ('mengupas') amplifikasi atau penghapusan yang bertindih dengan kawasan puncak lain yang lebih ketara dalam kromosom yang sama.

Luas atau Tumpuan: Mengenal pasti sama ada rantau ini mencapai kepentingan disebabkan terutamanya oleh peristiwa luas (dipanggil 'luas'), peristiwa fokus (dipanggil 'fokus'), atau peristiwa luas dan fokus yang signifikan secara bebas (dipanggil 'kedua-duanya').

Ambang Amplitud: Kunci memberi makna nilai pada lajur berikutnya yang berkaitan dengan setiap sampel.

Data Sampel

Setiap sampel yang dianalisis ditunjukkan dalam salah satu lajur yang mengikuti data lesi (lajur 10 hingga akhir). Data yang terkandung dalam lajur ini sedikit berbeza mengikut bahagian file. Bahagian pertama dapat dikenal pasti dengan kunci yang diberikan dalam lajur 9 - ia bermula pada baris 2 dan berlanjutan hingga baris yang berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian ini mengandungi data yang diringkaskan untuk setiap sampel. '0' menunjukkan bahawa nombor salinan sampel tidak dikuatkan atau dipadamkan melebihi jumlah ambang di kawasan puncak tersebut. A '1' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat rendah (melebihi ambang rendah yang ditunjukkan dalam lajur 9), dan '2' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat tinggi (melebihi ambang tinggi yang ditunjukkan dalam lajur 9). Bahagian kedua dapat dikenal pasti baris di mana lajur 9 berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian kedua betul-betul mengeluarkan semula bahagian pertama, kecuali di sini perubahan sebenar dalam nombor salinan disediakan dan bukannya sifar, satu dan dua. Bahagian akhir adalah serupa dengan bahagian pertama, kecuali di sini hanya acara luas disertakan. A 1 di lajur sampel (lajur 10+) menunjukkan bahawa jumlah salinan median sampel di seluruh rantau yang signifikan melebihi ambang yang diberikan dalam lajur 9. Maksudnya, ini menunjukkan sama ada sampel mempunyai peristiwa yang dilanjutkan secara geografi, dan bukannya penguatan fokus atau penghapusan yang meliputi lebih sedikit daripada kawasan puncak.

Fail gen amp mengandungi satu lajur untuk setiap puncak penguatan yang dikenal pasti dalam analisis GISTIC. Empat baris pertama adalah:

Baris ini mengenal pasti lesi dengan cara yang sama seperti semua fail lesi. Baris yang tersisa menyenaraikan gen yang terdapat di setiap puncak lebar. Untuk puncak yang tidak mengandungi gen, gen terdekat disenaraikan dalam kurungan.

Fail del gen mengandungi satu lajur untuk setiap puncak penghapusan yang dikenal pasti dalam analisis GISTIC. Format fail untuk fail del gen adalah sama dengan format untuk fail gen amp.

Fail skor menyenaraikan nilai Q [disajikan sebagai -log10 (q)], skor G, amplitud rata-rata di antara sampel yang menyimpang, dan kekerapan penyimpangan, di seluruh genom untuk kedua-dua penguatan dan penghapusan. Fail skor dapat dilihat dengan modul Genepattern SNPViewer dan boleh diimport ke Integrated Genomics Viewer (IGV).

Nombor salinan bersegmen ialah fail pdf yang mengandungi imej peta warna profil nombor salinan bersegmen dalam data input.

Penguatan pdf adalah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan penguatan untuk semua penanda di seluruh wilayah yang dianalisis.

pdf pemadaman ialah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan pemadaman untuk semua penanda di seluruh rantau yang dianalisis.

Jadual maklumat asas mengenai kawasan genom (puncak) yang ditentukan GISTIC untuk diperkuat atau dihapuskan dengan ketara. Ini menerangkan tiga jenis batas puncak, dan menyenaraikan gen yang terdapat dalam dua daripadanya. Lajur permulaan dan hujung rantau (bersama-sama lajur kromosom) mengehadkan keseluruhan kawasan yang mengandungi puncak yang melebihi paras keertian. Kawasan ini mungkin sama untuk pelbagai puncak. Permulaan dan penamat puncak mengehadkan nilai maksimum puncak. Puncak lanjutan ialah puncak yang ditentukan oleh teguh, dan terkandung dalam puncak lebar yang dilaporkan dalam _genes.txt oleh satu penanda.

Jadual hasil statistik per-lengan untuk set data. Setiap lengan adalah satu barisan di meja. Lajur pertama menentukan lengan dan lajur kedua mengira bilangan gen yang diketahui berada pada lengan. Untuk penguatan dan penghapusan, jadual mempunyai lajur untuk kekerapan penguatan atau penghapusan lengan, dan skor Z dan nilai Q.

Jadual tahap penguatan lengan kromosom untuk setiap sampel. Setiap baris ialah lengan kromosom, dan setiap lajur adalah sampel. Data terdapat dalam unit nombor salinan mutlak -2.

Jadual peringkat gen bagi nilai nombor salinan untuk semua sampel.Setiap baris ialah data untuk gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai nombor salinan dalam jadual adalah dalam unit (nombor salin -2), sehingga tidak ada penguatan atau penghapusan 0, gen dengan penguatan mempunyai nilai positif, dan gen dengan penghapusan adalah nilai negatif. Data ditukar daripada tahap penanda ke tahap gen menggunakan kaedah ekstrem: gen diberikan penguatan terbesar atau nilai pemadaman paling sedikit antara penanda yang diliputinya.

Jadual peringkat gen data salin yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan peristiwa luas dengan panjang lebih besar daripada potongan panjang lebar. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt.

Jadual peringkat gen bagi data nombor salinan yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan acara fokus dengan panjang lebih besar daripada pemotongan panjang fokus. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt.

Jadual tahap gen bagi penunjuk penguatan dan pemadaman diskret pada untuk semua sampel. Terdapat satu baris untuk setiap gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai jadual 0 bermaksud tiada penguatan atau penghapusan melebihi ambang. Amplifikasi ialah nombor positif: 1 bermaksud amplifikasi melebihi ambang amplifikasi 2 bermaksud amplifikasi yang lebih besar kepada amplifikasi paras lengan yang diperhatikan untuk sampel. Penghapusan diwakili oleh nilai jadual negatif: -1 mewakili penghapusan melebihi ambang -2 bermaksud penghapusan lebih besar daripada penghapusan tahap lengan minimum yang diperhatikan untuk sampel.

Jadual pemotongan ambang per sampel (dalam unit nombor salinan mutlak -2) yang digunakan untuk membezakan penguatan tahap tinggi (+/- 2) dari penguatan biasa (+/- 1) dalam fail keluaran all_thresholded.by_genes.txt . Jadual mengandungi tiga lajur: pengecam sampel diikuti dengan nilai potong rendah (pemadaman) dan tinggi (penguatan). Potongan dikira sebagai tahap penguatan tahap lengan minimum ditolak ambang penghapusan untuk penghapusan dan penguatan tahap lengan maksimum ditambah ambang penguatan untuk penguatan.

Senarai segmen nombor salinan yang menerangkan hanya peristiwa fokus yang terdapat dalam data. Tahap penguatan / penghapusan segmen adalah dalam unit (nombor salin -2), dengan amplifikasi positif dan penghapusan nombor negatif. Fail ini boleh dilihat dengan IGV.

Imej yang menunjukkan korelasi antara kiraan gen dan kekerapan perubahan nombor salinan.

Fail yang menunjukkan kedudukan selang keyakinan di sekitar puncak GISTIC yang dapat dimuat sebagai trek dalam penyemak imbas penonton yang serasi seperti IGV atau penyemak imbas genom UCSC.

GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Ia mengambil nisbah nombor salinan tersegmen sebagai input, memisahkan peristiwa peringkat lengan daripada peristiwa fokus, dan kemudian melakukan dua ujian: (i) mengenal pasti lengan kromosom yang dikuatkan/dipadamkan dengan ketara dan (ii) mengenal pasti kawasan yang dikuatkan atau dipadamkan secara ketara. Untuk analisis fokus, tahap keertian (nilai Q) dikira dengan membandingkan keuntungan/kerugian yang diperhatikan pada setiap lokus dengan yang diperoleh dengan mengubah suai secara rawak peristiwa sepanjang genom untuk mencerminkan hipotesis nol bahawa mereka semua adalah 'penumpang' dan boleh mempunyai. berlaku di mana-mana sahaja. Tahap kepentingan khusus lokus kemudiannya diperbetulkan untuk ujian hipotesis berbilang. Kepentingan peringkat lengan dikira dengan membandingkan kekerapan keuntungan/kerugian setiap lengan dengan kadar yang dijangkakan berdasarkan saiznya. Kaedah ini menghasilkan pandangan genom dari kawasan yang diperkuat dan dihapus secara signifikan, serta jadual gen dengan skor keuntungan atau kerugian. Perbincangan yang lebih mendalam tentang algoritma GISTIC dan utilitinya diberikan dalam [1], [3], dan [5].

Kawasan genom yang rentan terhadap variasi garis kuman dalam jumlah salinan dikecualikan dari analisis GISTIC menggunakan senarai variasi nombor salinan garis kuman (CNV). CNV adalah urutan DNA yang mungkin terdapat pada nombor salinan yang berlainan dalam garis kuman dua individu yang berbeza. Variasi garis kuman sedemikian boleh mengelirukan analisis GISTIC, yang menemui variasi nombor salinan somatik yang ketara dalam kanser. Perbincangan yang lebih mendalam diberikan dalam [6]. GISTIC kini menggunakan dua senarai pengecualian CNV. Satu adalah berdasarkan kesusasteraan yang menerangkan variasi nombor salinan, dan yang kedua datang daripada analisis variasi ketara antara normal darah dalam set data TCGA.

Ini adalah ciri eksperimen. Hasil analisis yang diringkaskan dalam laporan ini boleh dimuat turun dari Pusat Penyelarasan Data TCGA.


Keputusan

Pengesanan variasi nombor salinan dalam 93 aksesi beras

Sebanyak 93 aksesi beras termasuk landraces perwakilan dan kultivar moden (Fail tambahan 1: Jadual S1, Rajah 1a, b) telah dipilih untuk penjujukan semula genom keseluruhan dengan kedalaman purata kira-kira 50 × dan menghasilkan sejumlah 2.06 Tb bacaan mentah. Dengan menggunakan Nipponbare RefSeq [28] (versi 7.0) sebagai rujukan, liputan data penambahan aksesori ini berkisar antara 82.81% hingga 96.06%. Sampel akar padi yang ditanam dalam kultur hidroponik selama 35 hari dikumpulkan untuk RNA-Seq. Jumlah data setiap sampel adalah melebihi 5 Gb (julat dari 5.03 hingga 9.86 Gb) dan 576 Gb data RNA-seq mentah dijana daripada 93 aksesi secara keseluruhan. Kadar bacaan yang dipetakan secara unik antara 79.64% hingga 90.95% (Fail tambahan 1: Jadual S1).

Hasil dan pengesahan CNV memerlukan 93 penambahan beras. a Pohon filogenetik 93 O. sativa aksesi berdasarkan penanda SNP, dengan dua O. glumaepatula aksesi (W1183 dan W1187, cawangan ungu) digunakan sebagai kumpulan luar. Dan O. sativa Kumpulan Xian dan kumpulan Geng masing-masing ditandai hijau kuning dan biru. Cabang merah mewakili dua tropika O. sativa penyertaan dari Asia Tenggara. b Bilangan pemadaman (merah) dan pendua (biru) bagi setiap penyertaan berbanding dengan Nipponbare RefSeq. c, d Taburan kedalaman di sekeliling GL7 (c) dan penganjur IPA1 (d). Bar merah dan biru masing-masing menunjukkan kawasan pendua dan normal. Setiap tong mewakili panjang 5 bp. Dan XF13 dan XF75 dipilih sebagai kawalan negatif. e, f Pengesahan PCR bagi pertindihan di sekeliling GL7 (c) dan penganjur IPA1 (d)

Untuk memanggil CNV dalam genom, kami menyepadukan CNVnator [29] serta Delly [30] dan membangunkan algoritma baharu (dinamakan sebagai CtgRef-CNV), yang menggabungkan kaedah pemasangan kedalaman bacaan dan de novo (Fail tambahan 2: Rajah S1). Kami mula-mula mengumpulkan genom setiap aksesi oleh CtgRef-CNV dan kemudian memetakan bacaan NGS dari setiap aksesi ke genom tersusunnya sendiri untuk mendapatkan data kedalaman. Berdasarkan data kedalaman dan hasil penjajaran (jumlah salinan setiap blok penjajaran) antara genom pertanyaan dan genom rujukan, kami mengira kedalaman setiap fragmen genom rujukan, yang digunakan untuk memanggil CNV. Kami kemudian menentukan batas CNV menggunakan strategi serupa CNVnator [29] (lihat "Kaedah"). Dengan memetakan bacaan ke genomnya sendiri, CtgRef-CNV mengurangkan potensi bias pemetaan kerana perbezaan antara genom pertanyaan dan genom rujukan. Di samping itu, CtgRef-CNV menggunakan data kedalaman yang diubah untuk memanggil CNV, yang dapat mengelakkan kelemahan kaedah berasaskan pemasangan dalam mengesan kawasan berbilang salinan dengan sedikit perbezaan urutan. Kemudian kami menyaring CNV yang dikesan dengan ketiga-tiga kaedah ini dengan standard yang ketat untuk mendapatkan set data CNV akhir setiap sampel. Dalam piawaian penapis kami, kedalaman bacaan, bacaan berpecah dan pasangan bacaan bercanggah telah diambil kira. Untuk pendua, peratusan kawasan kedalaman tinggi tidak kurang dari 50%. Untuk pemadaman, liputan hendaklah tidak lebih daripada 50%, dan bilangan bacaan pecahan/pasangan bacaan bercanggah dalam hulu dan hiliran 500 bp daripada dua titik putus hendaklah tidak kurang daripada 5 (Untuk butiran lanjut lihat “Kaedah”) .

Saiz genom yang dipasang de novo sebanyak 93 aksesi adalah antara 317.1 hingga 406.8 Mb, dengan saiz N50 contig sebanyak 85 aksesi yang lebih besar daripada 10 kb. Hasil BUSCO menunjukkan kelengkapan 89 gen akses lebih tinggi daripada 90% (Fail tambahan 1: Jadual S1). Untuk mengungkap pemandangan CNV di antara beras yang berlainan, kami memanggil CNV dari sampel ini menggunakan CNVnator, Delly, dan CtgRef-CNV kami. Berbanding dengan genom rujukan Nipponbare, nombor CNV dalam genom setiap aksesi bervariasi dari 2000 hingga 8000 (Gambar 1b), yang menunjukkan terdapat perbezaan genomik yang signifikan antara subspesies padi. Bilangan CNV di Oryza sativa indica (Xian) kumpulan [31] adalah lebih tinggi daripada itu dalam O. sativa japonica (Geng) kumpulan [31] (Rajah 1a, b, dan fail Tambahan 2: Gambar S3a, P nilai & lt 2.2 × 10 - 16), menunjukkan bahawa jumlah variasi dalam subspesies kurang daripada yang terdapat dalam subspesies dari segi CNV, yang selaras dengan hasil SV di Zhang et al. [32] dan Zhou et al. [33]. Bagi setiap tetingkap tidak bertindih 500-kb dalam genom rujukan Nipponbare, lebih daripada 7 CNV secara purata telah dikesan (Fail tambahan 2: Rajah S2), dan taburan CNV pada sama ada kromosom yang berbeza atau kawasan kromosom yang berbeza adalah tidak sekata (Tambahan fail 2: Gambar S2, dan fail Tambahan 2: Gambar S3c). Kami mengesan sejumlah 32.051 CNV (Fail tambahan 3: Jadual S2) dari 93 aksesi ini, di mana 120 CNV lebih besar daripada 100 kb. Panjangnya menunjukkan taburan berbentuk L khas (Fail tambahan 2: Gambar S3b).

Pengesahan CNV

Beberapa CNV didapati berkaitan dengan variasi sifat agronomi penting dalam beras. Sebagai contoh, kami mengesan pendua yang tersembunyi GL7 (LOC_Os07g41200) [23] dalam tujuh aksesi, dan peristiwa pertindihan berlaku pada penganjur IPA1 (LOC_Os08g39890) [25] dalam dua aksesi, masing-masing (Fail tambahan 4: Jadual S3). Semua kejadian pendua ini disahkan oleh eksperimen PCR (Gambar 1c – f). Untuk menilai lebih lanjut kesahihan hasil CNV kami, 10 lokasi CNV rawak telah disahkan dalam 15 aksesi dengan qPCR (lihat "Kaedah"). Menurut hasil eksperimen, ketepatan CNV kami hampir 95% (Fail tambahan 2: Gambar S4 dan Fail tambahan 4: Jadual S4). Hasil ini menunjukkan bahawa kaedah kami adalah tepat. Lebih-lebih lagi, dalam analisis pokok filogenetik dan analisis komponen utama (PCA) berdasarkan CNV, kedua-dua subspesies pada dasarnya dipisahkan, yang sesuai dengan hasil filogenetik SNP (Fail tambahan 2: Gambar S5). Di samping itu, kami mendapati bahawa gen dengan nombor salinan tinggi yang melampau (tidak kurang daripada 10) dalam lebih daripada 5 aksesi adalah gen berbilang salinan biasa dan kebanyakan (92.12%) daripadanya menunjukkan tidak kurang daripada 10 jenis nombor salinan dan juga kebanyakan (84.24%) gen tidak menunjukkan perbezaan penduduk yang jelas (VST ≤ 0.2, Fail tambahan 4: Jadual S5). Kecuali untuk gen yang tidak diketahui fungsi, gen multi-salinan ini terutama (64.81%, Fail tambahan 4: Jadual S5) terdiri daripada gen pengekodan subunit protein ribosom, sintase ATP, sitokrom, dan beberapa komponen kompleks pemula transkripsi dan sistem fotosistem . Hasil ini mengesahkan bahawa pendekatan kami dapat mengesan CNV secara komprehensif dengan kepekaan tinggi.

Penilaian kuasa saluran paip CtgRef-CNV

Untuk mengesahkan perbezaan ketepatan antara CtgRef-CNV, CNVnator dan Delly, tiga matriks nombor salinan 10 lokus CNV rawak dalam 15 capaian (Fail tambahan 4: Jadual S6) dibandingkan dengan keputusan qPCR (Fail tambahan 4: Jadual S4 ) secara berasingan. Menurut nombor salinan yang disahkan oleh qPCR, kami genotip 150 lokus ini menjadi DEL (penghapusan), DUP (pendua), dan CN1 (jenis biasa) untuk mengira ketepatan setiap jenis lokus dalam hasil tiga perisian (Fail tambahan 4 : Jadual S6, lihat "Kaedah"). Kami mendapati bahawa ketepatan DUP CNVnator adalah yang tertinggi (93.75%), sementara Delly mempunyai ketepatan tertinggi dalam pengesanan DEL (96.88%), dan ketepatan DUP (62.50%) dan DEL (76.56%) dari CtgRef-CNV adalah kedua-duanya antara kedua-dua perisian yang lain (Fail tambahan 4: Jadual S6, dan Jadual S7). Dalam pengesanan lokus CN1, terdapat sedikit perbezaan dalam ketepatan ketiga-tiga perisian (Fail tambahan 4: Jadual S6 dan Jadual S7). Kemudian, menggabungkan dengan peratusan tiga jenis lokus dalam 15 aksesi ini, kami mengira ketepatan tertimbang dari ketiga perisian tersebut (lihat "Kaedah"). Dan kami mendapati bahawa CtgRef-CNV kami mempunyai ketepatan berwajaran lebih tinggi (88.93%) daripada Delly (86.26%) atau CNVnator (84.84%, Fail tambahan 4: Jadual S7), yang menunjukkan bahawa CtgRef-CNV disyorkan semasa menggunakan data NGS untuk memanggil CNV.

Kami juga menilai perbezaan keputusan CNV yang dikenal pasti oleh CtgRef-CNV, CNVnator dan Delly. Untuk menganalisis pertindihan CNV ketepatan tinggi antara tiga perisian, hasil penyaringan dari 15 akses (Fail tambahan 4: Jadual S8) oleh piawai kami dipilih sebagai data ujian. Pengenalpastian CNV yang sama telah dirujuk kepada kaedah dalam Wang et al. kajian [31]. Kami mendapati bahawa 10.16

18.97% (keseluruhan 4939) CNV dihasilkan oleh CNVnator, dan 22.88

56.33% (berjumlah 7789) daripada CNV yang dijana oleh Delly, bertindih dengan yang dikenal pasti oleh CtgRef-CNV (Fail tambahan 4: Jadual S8). Dan bilangan CNV bertindih antara CNVnator dan Delly adalah jauh lebih tinggi (22,462 Fail tambahan 4: Jadual S8), yang mungkin disebabkan oleh kedua-dua algoritma ini dibina berdasarkan hasil pemetaan bacaan berasaskan rujukan. Di samping itu, kami juga memilih dua set CNV tanpa pilihan dari 15 akses, dan menyaring ketepatannya oleh perisian IGV [34]. Set pertama ialah CNV yang dikesan oleh CtgRef-CNV tetapi tidak dikesan oleh CNVnator, antaranya 90.67% juga tidak dikesan oleh Delly, dan ketepatannya ialah 83.33% (Fail tambahan 4: Jadual S9). Kumpulan lain adalah CNV yang dikesan oleh CNVnator tetapi tidak dikesan oleh CtgRef-CNV, di antaranya 68% juga dikesan oleh Delly, dan ketepatannya adalah 86% (Fail tambahan 4: Jadual S10). Selain itu, kadar pengesahan qPCR bagi hasil integratif adalah hampir 95% (disebutkan di atas Fail tambahan 2: Rajah S4 dan Fail tambahan 4: Jadual S4), yang jauh lebih tinggi daripada setiap perisian (84.84%, 86.26% atau 88.93% Fail tambahan 4: Jadual S7). Hasil ini menunjukkan bahawa penyatuan pelbagai algoritma penting untuk meningkatkan hasil panggilan CNV berdasarkan data NGS. Oleh itu, kami menggunakan hasil integrasi ketiga-tiga perisian sebagai set CNV terakhir kami untuk setiap penyediaan beras.

Perbandingan dengan CNV yang diterbitkan dalam beras

Panggilan CNV yang tepat sangat penting di kawasan genomik, dan banyak set data CNV telah diterbitkan dalam beras [31, 35,36,37,38]. Secara keseluruhan, 641 CNV dikesan antara Guangluai-4 dan Nipponbare oleh CGH array [35]. Kami mendapati bahawa 302 daripada 641 CNV mereka juga dikesan oleh kajian ini (Fail tambahan 4: Jadual S11). Selain itu, keputusan kami mengesan lebih daripada 7000 CNV antara Guangluai-4 dan Nipponbare, yang tidak ditemui dalam kerja sebelumnya [35]. Keputusan ini menunjukkan kaedah kami menggunakan data NGS boleh mengesan CNV secara lebih komprehensif daripada teknologi hibridisasi genomik perbandingan (CGH) berasaskan tatasusunan yang digunakan sebelumnya. Pada tahun 2017, genom rujukan hampir lengkap bagi indica varieti beras Shuhui-498 telah dipasang dan 9909 variasi kehadiran (PV, ≥ 500 bp) dalam Nipponbare telah dikenal pasti, berbanding dengan 17 genom beras yang dipasang yang lain [36]. Dan 65.34% (6475) PV ini bertindih dengan 49.35% (6833 / 13.847) dari teras teras kami (Fail tambahan 4: Jadual S12). Terdapat 25.380 dan 5813 gen yang dikenal pasti sebagai gen "Core" dan "Dispensable", dalam analisis pan-genom (Fail tambahan 2: Gambar S6) [37]. Dengan menggunakan kriteria yang sama, kebanyakan gen “Core” (23,941) bertindih dengan gen inti yang dikenal pasti dalam kerja kami (Fail tambahan 2: Gambar S6). Sebagai tambahan, kami mengekstrak 9632 CNV tidak lebih pendek daripada 1 kb dari variasi genom 3010 padi beras [31] dan mendapati bahawa 84.94% (8181) daripadanya bertindih dengan CNV teras kami (Fail tambahan 4: Jadual S13). Baru-baru ini, SV daripada 3000 genom beras juga dianalisis oleh kumpulan lain [38] dan 183, 943 CNV (≥ 1 kb) telah dipilih daripada keputusan SV mereka. Dengan kaedah yang dijelaskan dalam Wang et al. [31], keseluruhan 52,883 CNV teras dihasilkan. Kami mendapati bahawa 60.26% (31,865) daripada CNV teras tersebut bertindih dengan set CNV teras kami (Fail tambahan 4: Jadual S14). Semua hasil ini menunjukkan bahawa set CNV kami adalah makanan tambahan yang berharga untuk kumpulan data variasi genom padi.

Kesan CNV pada ekspresi gen

Salah satu kesan utama CNV adalah menyebabkan pertukaran tahap ekspresi gen [21, 23, 24, 39], dengan mengganggu gen, dan menjejaskan kawasan kawal selia [10, 22, 25, 40, 41]. Dalam makalah ini, mempertimbangkan kesan bias penjujukan pendek pada pengenalpastian sempadan CNV, hanya gen, liputan wilayah mana lebih dari 50% oleh CNV, digunakan untuk analisis korelasi. Sekiranya gen menunjukkan nombor salinan yang sama dalam aksesi yang berbeza, tahap ekspresi (TPM) gen dalam aksesi yang sesuai akan dikelompokkan bersama. Matriks nombor salinan 14,435 gen pada 93 aksesi dihasilkan dan hanya 2642 gen yang dipilih untuk analisis korelasi antara tahap ekspresi dan nombor salinan mengikut standard ketat kami (lihat "Kaedah"). Kolerasi positif yang ketara bermakna tahap ekspresi meningkat dengan peningkatan nombor salinan, manakala korelasi negatif yang ketara ialah tahap ekspresi berkurangan dengan peningkatan nombor salinan (selaras dengan P nilai & lt 0.05, lihat "Kaedah").

Secara mengejutkan, 82.32% gen yang dianalisis (Fail tambahan 5: Jadual S15, dan Fail tambahan 6: Jadual S18) tidak menunjukkan hubungan yang signifikan antara tahap ekspresi dan nombor salinan dan 13.17% gen mempunyai korelasi positif secara signifikan (Fail tambahan 5: Jadual S16 dan Fail tambahan 6: Jadual S18). Selain itu, kami mendapati bahawa 4.50% gen menunjukkan korelasi negatif (Fail tambahan 5: Jadual S17 dan Fail tambahan 6: Jadual S18). Semua keputusan korelasi telah disahkan lagi oleh keputusan analisis kesan dos (Rajah 2a–c). Untuk GL7 lokus, korelasi yang ketara telah dikesan (Rajah 2d), yang konsisten dengan kerja sebelumnya [23]. Analisis varians menunjukkan perbezaan yang signifikan dalam tahap ekspresi antara bilangan salinan yang berbeza kira-kira 75% daripada gen yang berkorelasi (P nilai & lt 0.05, Fail tambahan 6: Jadual S18).

Kesan variasi nombor salinan pada ekspresi gen. a–c Pembahagian lipatan ekspresi (pendua ke nombor salinan normal) gen yang berkorelasi positif (agen yang berkorelasi negatif (b, dan gen yang tidak berkaitan secara signifikan (c). CN1 bermaksud nombor salinannya sama dengan 1 dan seterusnya. * dan ** menunjukkan perbezaan yang signifikan pada P & lt 0.05 dan P & lt 0,01, masing-masing, ditentukan oleh ujian Tukey HSD di R. The outliers (dari μ ± 3σ) tidak dipaparkan. d Korelasi antara nombor salinan dan tahap ekspresi bagi GL7 (LOC_Os07g41200), dan outlier TPM daripada kumpulan CN1 telah dibuang. Ujian pas dan signifikan bagi persamaan linear dilakukan oleh fungsi "trendline" dari pakej "basicTrendline" di R. e Pengagihan kadar peningkatan dua statistik gen berkorelasi positif: AddCN1 (tambah satu salinan pada satu masa) dan DupCN1 (penduaan berbanding nombor salinan biasa). Nilai lebih daripada 400% tidak termasuk dalam gambar. Data di kawasan berbayang merah jambu merangkumi lebih daripada 80% setiap kumpulan. f Kesan berbeza duplikasi tandem (TD) dan duplikasi bukan tandem (nonTD) pada tahap ekspresi gen.* dan ** menunjukkan perbezaan yang signifikan pada P& lt 0.05 dan P < 0.01, masing-masing, ditentukan oleh ujian Wilcoxon dalam R. Outlier (daripada μ ± 3σ) tidak dipaparkan

Untuk gen yang berkorelasi positif, kadar peningkatan tahap ekspresi gen pendua terutamanya (menyumbang & gt 81%) bervariasi dari −45% hingga 185% (Gbr. 2e), dengan membuat perbandingan antara tahap ekspresi gen dan normal nombor salinan (CN = 1). Untuk setiap salinan gen tambahan, kadar kenaikan (membandingkan dengan CN1) pada tahap ekspresi juga terutama (menyumbang & gt 87%) bervariasi dari −45% hingga 185% (Gbr. 2e) dan kadar ini menurun ketika bilangan salinan meningkat (Fail tambahan 6: Jadual S19). Semasa pada keseluruhan genom, kesan penduaan (bukan poliploidisasi) pada ekspresi gen adalah dua arah, dan kadar pertumbuhan menunjukkan sebaran simetri kira-kira pada kedua sisi paksi menegak (Fail tambahan 2: Gambar S7), yang mencerminkan kekuatan peraturan ekspresi gen dalam vivo. Di samping itu, kami juga mendapati bahawa kesan penduaan tandem pada ekspresi pada amnya lebih kuat daripada yang tersebar, kecuali ketika nombor salinannya 5 (Gambar 2f). Keputusan ini menunjukkan bahawa kesan dos gen tidak eksponen atau linear, yang konsisten dengan laporan sebelumnya [42].

Nasib gen yang digandakan

Konsekuensi evolusi utama gen pendua adalah pseudogenisasi, neofungsi (Neo-), subfungsi (Sub-), dan tidak membezakan (Bukan) [43,44,45,46,47,48]. Pasangan pendua, kedua-duanya boleh dipasang daripada bacaan NGS, telah dipilih untuk analisis selanjutnya. Dan secara keseluruhan, kami mengenal pasti 8163 pasangan gen daripada gabungan 93 aksesi yang dipasang. Dengan menggunakan kaedah pengenalan domain protein, kami mendapati bahawa sekitar 5.39% (440/8163) pasangan pendua mengalami perbezaan evolusi fungsi gen (Neo- / Sub-) dan kira-kira 36.46% (2976/8163) dan 58.15% (4747/8163) pasangan pendua mengalami pseudogenisasi dan pembezaan masing-masing (Fail tambahan 6: Jadual S20). Dalam analisis kami, enam tahap (termasuk "Terbaru," Gambar 3a) digunakan untuk menentukan usia kejadian pendua gen, dipisahkan dengan "Ks (kadar penggantian nukleotida sinonim) > 0” dan empat lagi Ks nilai yang sepadan dengan empat peristiwa spesiasi semasa perbezaan Oryza genera, menurut kajian lepas [49]. The Ks pengedaran pasangan bukan pseudogenetik (5338) menyiratkan bahawa kejadian pendua berlaku sepanjang enam peringkat, terutama pada masa lalu (lebih daripada 35%, Gambar 3a, Jadual 1). Pada setiap tahap, jumlah pasangan pendua yang tidak membezakan benar-benar unggul (lebih dari 80%, kecuali 3/5 pada tahap II, Jadual 1). Di antara pasangan pendua tahap I, lapan pendua tidak berfungsi, menunjukkan bahawa pembezaan fungsional juga dapat dicapai dalam waktu yang singkat. Menariknya, dalam dua tempoh terkini (peringkat I dan II), semua pasangan pembezaan berfungsi adalah subfungsi, tetapi tiada neofungsional diperhatikan. Walau bagaimanapun, pada peringkat lain, bahagian pasangan neofungsi menunjukkan trend yang semakin meningkat dengan penuaan penduaan (Jadual 1), yang mengesahkan bahawa subfungsionalisasi adalah keadaan pertengahan neofungsi [50].

Ekspresi dan evolusi gen pendua. a The Ks pembahagian pasangan pendua bukan pseudogenetik. Keempat-empatnya Ks nilai (garis putus merah ditandai) mewakili peristiwa evolusi utama dalam evolusi Oryza genera, masing-masing, merujuk dalam Stein et al. (2018). "Terkini" bermaksud mereka Ks nilai adalah 0. b Komponen salinan pseudogen. Kira-kira separuh daripada salinan pseudogene tidak dapat dibezakan. Dan selebihnya dikuasai oleh salinan keturunan. c – e Perbezaan pada Ka (c), Ks (d), Ka/Ks (edan antara gen neo-fungsional (Neo-), subfungsional (Sub-), tidak dibezakan (Non-) duplikasi, pasangan gen pseudogene berfungsi (Gene-Ψ), dan pasangan pseudogene-pseudogene (Ψ-Ψ). * dan ** menunjukkan perbezaan yang signifikan pada P & lt 0.05 dan P & lt 0.01, masing-masing, ditentukan oleh ujian Wilcoxon di R. The outliers (daripada μ ± 3σ) tidak dipaparkan. f, g Perkongsian dos major/minor (f) dan ibu bapa / keturunan (g) salinan. Lipatan ekspresi dinormalisasi ke nilai TPM rata-rata gen normalnya yang sepadan (CN = 1). ** menunjukkan perbezaan yang signifikan pada P < 0.01 ditentukan oleh ujian Tukey HSD dalam R. Outlier (daripada μ ± 3σ) tidak dipaparkan. h, i Bahagian salinan utama / kecil (h) atau salinan yang dibezakan (i) antara salinan ibu bapa dan keturunan

Untuk menganalisis hubungan antara kekangan terpilih dan pembezaan fungsi gen pendua, Ka (kadar penggantian nukleotida yang tidak dinamakan), Ks, dan Ka/ Ks nisbah kumpulan yang berbeza (Neo-, Sub-, Non-, Gene-Ψ, dan Ψ-Ψ) dikira menggunakan kaedah Nei-Gojobori [51]. Nilai pasangan pendua yang terlibat dalam pseudogene (Gene-Ψ, dan Ψ-Ψ) adalah sangat tinggi daripada pasangan pendua lain (semua P nilai adalah & lt 2.2 × 10 - 16, Rajah 3c – e). 84.18% (2895/3439) daripada Ka/ Ks nilai pasangan pendua fungsional (Neo-, Sub-, dan Non-) kurang dari 1, di antaranya pasangan yang tidak dibezakan (Non-) jauh lebih tinggi daripada pasangan yang dibezakan (Neo- dan Sub-, P nilai: 7.292 × 10 − 9 dan < 2.2 × 10 − 16 , Rajah 3e), menunjukkan bahawa ia tertakluk kepada darjah kekangan pemilihan yang berbeza, diperkukuh selepas pembezaan fungsi. Berbanding dengan pasangan yang tidak berfungsi, pasangan yang tidak berfungsi mengumpulkan lebih banyak mutasi yang tidak dinamakan (P nilai = 6.06 × 10 − 4 , Rajah 3c) dalam masa yang lebih lama (tiada kepentingan, P nilai = 0.05929), jadi kekangan pemilihan pada pasangan yang tidak berfungsi secara signifikan lebih kuat (P nilai = 8.658 × 10 - 4, Rajah 3e), dan urutannya lebih konservatif.

Evolusi asimetri gen pendua

Mengenal pasti salinan induk/anak daripada pasangan gen menawarkan peluang untuk mencirikan perbezaan gen pendua. Kaedah berdasarkan blok collinearity yang dipelihara dalam populasi (lihat "Metode") dilakukan, dan menghasilkan sejumlah 3129 pasangan pendua yang dibezakan. Gen pendua dengan lebih daripada dua salinan (18 kumpulan) dibuang. Hasil kajian kami menunjukkan bahawa bahagian salinan pseudogene dalam salinan keturunan (43,30%) jauh lebih tinggi daripada salinan induk (15,56%, Gambar 3i). Dan sejajar dengan itu, dalam pseudogenes, bahagian salinan anak (38.22%) adalah lebih tinggi daripada salinan induk (13.73%, Rajah 3b). Sebagai tambahan, 77.92% (2424/3111) salinan induk gagal mengubah fungsinya (Bukan dalam Gambar 3i). Oleh itu, salinan induk terutamanya mengekalkan fungsi gen asalnya, terutama ketika salinan keturunan menjadi pseudogenes, peratusan salinan induk mengekalkan fungsi asal tetap meningkat (89.92%, Fail tambahan 2: Gambar S8). Jadi, keputusan kami mengesahkan bahawa salinan keturunan lebih berkemungkinan menjadi pseudogene dalam beras dan gen pendua adalah tidak simetri dalam nasib evolusi mereka.

Variasi khusus salinan (CSV), sama dengan nukleotida unik tunggal (SUN) [52], digunakan untuk menetapkan tahap ekspresi gen. Oleh itu, pasangan pendua tanpa perbezaan urutan dikecualikan dari analisis ekspresi salinan kami. Kami benar-benar memperoleh 548 pasangan pendua, yang tahap ekspresi khusus salinannya dapat dibagi dalam data RNA-Seq root dari tisu akar (Fail tambahan 6: Jadual S21). Keputusan kami menunjukkan bahawa tahap ekspresi salinan ekspresi utama adalah jauh lebih tinggi daripada tahap ekspresi minor (Rajah 3f, P nilai & lt 1.0 × 10 - 7), dan sebahagian besar (97.57%) pasangan pendua utama-kecil ini dapat dikesan kembali ke tahap sebelum perbezaan beras Asia (& gt 0,55 mya, Ks > 0.0072, Fail tambahan 2: Rajah S9). Lebih menarik lagi, kami mendapati bahawa tahap ekspresi salinan keturunan juga jauh lebih tinggi dinyatakan daripada salinan induk (Gambar 3g, P nilai = 4.44 × 10 - 5). Sebaliknya, peratusan salinan utama dalam salinan keturunan (64.84%) adalah lebih tinggi daripada salinan induk (35.16%, Rajah 3h). Oleh itu, keputusan kami menyokong bahawa salinan keturunan lebih cenderung untuk menyatakan terutamanya selepas peristiwa pendua dan gen pendua juga tidak simetri dalam tahap ekspresi mereka. Kesimpulannya, evolusi asimetri gen yang digandakan dalam beras tercermin dalam nasib evolusi dan tahap ekspresi.


Perbincangan

Sarkoma pediatrik merangkumi kumpulan neoplasma heterogen yang jarang berlaku yang timbul pada tulang dan tisu lembut di dalam badan [1]. Walaupun terdapat pendekatan multi-modaliti untuk merawat sarkoma pediatrik, hasil klinikal bagi pesakit-pesakit ini masih tetap lemah kerana timbulnya kambuh / kambuhan yang dimulakan oleh pelbagai perubahan molekul [8,9,10]. Walaupun sarkoma pediatrik tertentu seperti RMS dan ESFT lebih ditakrifkan secara genetik dengan mempunyai translokasi kromosom, sarkoma pediatrik lain seperti OS dianggap lebih kompleks secara genetik [23,24,25,26]. Sebagai contoh, ESFT dicirikan secara genetik oleh translokasi kromosom tertentu t (1122) (q24q12) dalam 85% ESFT [28]. Walau bagaimanapun, baki 15% ESFT mempunyai translokasi kromosom lain, yang melibatkan anggota keluarga FET dan ETS lain [9]. Begitu juga, rhabdomyosarcoma alveolar dicirikan oleh translokasi kromosom t(213) (q35q14) atau t(113)(p36q14) yang menggabungkan PAX3 atau PAX7 dengan FOXO1 [17, 18]. Sebaliknya, dalam osteosarkoma sporadis terdapat pelbagai perubahan genetik seperti penyimpangan pada kromosom 15q dan 8p di mana penyusunan semula yang tidak konsisten dan perubahan nombor salinan telah diperhatikan [35,36,37].

Terlepas dari landskap genetik mereka, usaha oleh beberapa kumpulan pelbagai institusi telah terus berjalan untuk menyelidiki pilihan terapi baru untuk meningkatkan kelangsungan hidup keseluruhan untuk keganasan pediatrik ini. Walau bagaimanapun, walaupun dengan kemajuan ini, kadar kelangsungan hidup 5 tahun untuk pesakit sarkoma pediatrik yang kambuh / berulang masih tetap kurang daripada 30% [1, 2]. Oleh itu, bersama-sama dengan mengenal pasti sasaran hiliran sarkoma kanak-kanak yang berciri molekul dan kompleks ini, adalah sama penting untuk menilai dan mengenal pasti perubahan genetik lain yang diperoleh seperti CNV yang melibatkan penguatan genetik dan/atau penghapusan yang mungkin memberikan pilihan terapeutik baru untuk meningkatkan hasil klinikal [ 29]. Terutama, OS, RMS, dan ESFT mempamerkan pelbagai CNV yang boleh berfungsi sebagai biomarker prognostik untuk sarkoma pediatrik ini [23,24,25,26,27,28,29,30,31]. Objektif kami untuk kajian ini adalah untuk mengenal pasti CNV yang biasa untuk ketiga-tiga sarkoma pediatrik (OS, RMS, ESFT) dan menilai peranan CNV ini sebagai tindak balas kepada agen yang merosakkan DNA untuk menentukan sama ada mereka adalah biomarker ramalan tindak balas terapeutik. Kajian komprehensif ini mengkaji perubahan band dan gen penguatan dan penghapusan nombor salinan somatik pada 27 sarkoma tulang dan tisu lembut menggunakan susunan aGGH (Affymetrix). Disebabkan peningkatan ketersediaan set data yang tersedia secara umum, sumber yang lebih baik dan cekap untuk penjujukan genomik integratif, dan pencirian molekul tumor khusus pesakit, ia kini boleh dilaksanakan dan berpotensi digunakan untuk membimbing pemilihan terapi yang diperibadikan.

Melalui analisis genomik perbandingan OS, RMS dan ESFT dan subjek yang sihat, kami mengenal pasti CNV (penguatan dan pemadaman) dalam pelbagai kawasan kromosom (Rajah 2). Analisis bioinformatik juga dilakukan untuk mengenal pasti corak ketidakstabilan genom pada sarkoma pediatrik ini. Sepengetahuan kami, ini adalah kajian pertama untuk membandingkan ketidakstabilan genom antara OS, RMS, ESFT dan kawalan populasi yang sihat. Gen yang berkaitan dengan kelangsungan hidup dan / kambuhnya sarkoma ini dengan kepentingan statistik didapati pada lengan panjang kromosom 8 dengan frekuensi penguatan yang jauh lebih tinggi yang diperhatikan pada OS (0.8-0.92). Ini termasuk MYC (8q24.21), LRRC6 (8q24.22), MTSS1 (8q24.13), ODF1 (8q22.3), SQLE (8q24.13), RAD21 (8q24.11), TRPS1 (8q23.2) , PMP2 (8q21.13), TMEM65 (8424.13). Dalam ESFT, terdapat frekuensi penguatan yang lebih tinggi (0,5-0,7) untuk majoriti pita dan frekuensi penghapusan yang lebih rendah (0-0,1) pada kromosom 8. Hasil yang serupa diperoleh dalam RMS. CNV, khususnya, amplifikasi yang melibatkan kromosom 8 juga telah dilaporkan oleh kumpulan lain dalam OS, RMS, dan ESFT, oleh itu, mengesahkan lagi data kami [23,24,25,26,27,28,29,30,31]. Walaupun penerokaan lebih lanjut diperlukan untuk menilai peranan dan fungsi banyak gen yang diperkuatkan yang terdapat pada kromosom 8 pada sarkoma pediatrik, satu gen utama yang telah banyak dikaji dalam sarkoma pediatrik ini adalah MYC, yang berperanan dalam pelbagai jenis barah lain [36 , 37]. MYC adalah faktor transkripsi yang diketahui mengatur fungsi biologi kritikal seperti kitaran sel, apoptosis, dan metabolisme [36]. Perubahan genetik yang mengakibatkan perubahan kepada MYC, seperti amplifikasi MYC, boleh mendisregulasi fungsi normalnya dan mengubah keseimbangan antara penindas tumor berbanding tumorigenik [36]. Seiring dengan perubahan kromosom yang diperhatikan pada kromosom 8, penyimpangan yang lebih kecil pada OS, RMS, dan ESFT juga dikenal pasti pada kromosom 1q, 12q dan x. Lengan panjang (1q) kromosom 1 juga menandakan penguatan dengan gen SELL menunjukkan kepentingan yang lebih tinggi dalam OS. Majoriti pita pada lengan panjang (1q) kromosom 1 mempunyai frekuensi penguatan 0,2-0,4 sementara frekuensi penghapusan adalah antara 0,1-0,2 pada ES. Beberapa analisis CNV [17, 28, 30, 31] telah mengesahkan dan mengesahkan ketepatan hasil kami.

Walau bagaimanapun, CNV yang dikaitkan dengan pengulangan dalam sarkoma pediatrik ini berkorelasi dengan prognosis yang buruk oleh translokasi kromosom tertentu atau variasi dalam OS, RMS, dan ESFT yang boleh berfungsi sebagai biomarker prognostik untuk penyakit ini [4,5,6,7]. Sehingga kini, korelasi antara biomarker prognostik ini dan tindak balas mereka terhadap terapi masih memerlukan penerokaan lanjut menggunakan model sarkoma pediatrik dalam vivo.

Kami mengenal pasti CNV dalam 63 gen di antara tiga sarkoma pediatrik (OS, RMS, dan ESFT) yang berkorelasi dengan kambuhnya penyakit, menunjukkan bahawa CNV dalam 63 gen mungkin memberikan biomarker prognostik untuk sarkoma ini. 63 gen mempunyai frekuensi penguatan yang tinggi serta penghapusan pada sarkoma ini. Sebagai contoh, gen seperti KIF7, IGF1R dan SNRPA1 pada 15q16.1-15q16.4 dikuatkan dalam OS. Dalam amplifikasi RMS PAX3 (2q36.1) dengan kekerapan 0.413 diperhatikan, manakala kekerapan pemadaman tinggi 0.9-1 terbukti dalam gen CFL1, ALG2, PRKAB2, ITGAL, PEX1, PRKCD, AP2A1, KIN, ITGAM, THAP2. . ESFT menunjukkan STAG2 yang sering bermutasi pada kromosom Xq25 [2, 40] dengan frekuensi penghapusan tinggi 0.75 dalam kajian kami.

Dengan menyepadukan pemeriksaan dadah berskala besar untuk menilai profil tindak balas ubat CNV yang dikenal pasti dalam 63 gen daripada 27 garisan sel sarcoma, telah dikenalpasti bahawa 33 gen dengan CNV mempunyai tindak balas sama ada sensitif atau tidak sensitif kepada 17 kemoterapi. CNV dalam 33 gen ini dapat berfungsi sebagai potensi biomarker ramalan tindak balas terapeutik yang masih perlu diterokai lebih lanjut. Contohnya termasuk CNV yang dikenal pasti dalam IGFR1 (Jadual 3). IGFR1 adalah reseptor untuk faktor pertumbuhan insulin hormon pertumbuhan (IGF) yang dapat memantapkan percambahan sel [26]. Pengikatan IGF kepada IGFR1 memulakan lata tunggal hiliran untuk meningkatkan percambahan sel dan mengurangkan apoptosis, yang diperhatikan dalam sarkoma kanak-kanak ini [26]. Rajah 6a, b menunjukkan bahawa CNV dalam IGFR1 mengakibatkan IGFR1 berfungsi sebagai biomarker sensitif tindak balas terapeutik terhadap Clofarabine. Clofarabine ialah analog nukleosida purin yang boleh menghalang polimerase DNA/RNA dan menggalakkan apoptosis sel kanser [41, 42]. Kajian ini memberikan pandangan baru mengenai bagaimana perubahan genetik seperti CNV berpotensi berfungsi sebagai biomarker prognostik dan biomarker ramalan tindak balas terapeutik pada sarkoma pediatrik. Pendekatan farmakologi sistem yang dijelaskan di sini menyediakan platform untuk memperibadikan terapi yang dapat meningkatkan hasil klinikal dalam keganasan pediatrik yang agresif [43, 44].


Bagaimana ambang variasi nombor salinan ditentukan dalam GISTIC - Biology

GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Saluran paip mula-mula menapis sampel biasa daripada data nombor salinan tersegmen dengan memeriksa kod bar TCGA dan kemudian melaksanakan versi GISTIC 2.0.21 (versi tugas Firehose: 127).

Terdapat 19 sampel tumor yang digunakan dalam analisis ini: 13 keputusan peringkat lengan yang ketara, 2 amplifikasi fokus yang ketara, dan 2 pemadaman fokus yang ketara ditemui.

Rajah 1. Kedudukan genom kawasan yang diperkuat: paksi-X mewakili isyarat penguat yang dinormalisasi (atas) dan makna dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.

Jadual 1. Dapatkan Jadual Amplifikasi Jadual Penuh - 2 amplifikasi penting ditemui. Klik pautan dalam lajur terakhir untuk melihat senarai komprehensif gen calon. Sekiranya tidak ada gen yang dikenal pasti dalam puncak, gen terdekat muncul dalam tanda kurung.

Cytoband nilai Q Nilai Q baki Batas Puncak Lebar # Gen dalam Wide Peak
8p11.23 0.16771 0.16771 chr8: 36121788-39714022 35
20q13.2 0.22371 0.22371 chr20:46463398-63025520 182

Ini adalah senarai lengkap dikuatkan gen di puncak lebar untuk 8p11.23.

Jadual S1. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7].

Gen
FGFR1
WHSC1L1
ADAM3A
ADAM5
SNORD38 | ENSG00000207199.1
PLEKHA2
RPS20P22
BINTANG
RN7SL709P
BRF2
ZNF703
RNA5SP264
RN7SKP201
ADRB3
EIF4EBP1
ADAM2
TACC1
ADAM18
ADAM9
ASH2L
BAG4
ERLIN2
PROSC
DDHD2
GPR124
LSM1
RAB11FIP1
TM2D2
PPAPDC1B
GOT1L1
LETM2
KCNU1
HTRA4
ADAM32
C8orf86

Ini adalah senarai lengkap dikuatkan gen di puncak lebar untuk 20q13.2.

Jadual S2. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7].

Gen
GNAS
SS18L1
NPBWR2
MIR647
MIR1914
C20ORF135
SLC2A4RG
MIR4326
MIR3196
HAR1A
HAR1B
LINC00029
GID8
LINC00659
LINC00686
MIR133A2
MIR4758
ATP5E
MGC4294
ANKRD60
RAE1
RN7SL170P
U3 | ENSG00000252536.1
FAM209A
GCNT7
snoU13|ENSG00000238294.1
RNA5SP487
RNU4ATAC7P
RN7SKP184
RN7SL603P
MIR3194
RN7SL672P
RN7SL636P
LINC00651
snoU13|ENSG00000239157.1
RN7SL197P
KCNB1
SNORD12
SNORD12B
SNORD12C
ZFAS1
LINC00494
SNORD36|ENSG00000252227.1
RNA5SP486
BMP7
CDH4
CEBPB
CHRNA4
COL9A3
CSE1L
CSTF1
CTSZ
CYP24A1
EDN3
EEF1A2
KCNG1
KCNQ2
LAMA5
MC3R
MYT1
NFATC2
NTSR1
OPRL1
PCK1
PFDN4
PPP1R3D
PSMA7
PTGIS
PTK6
PTPN1
RPS21
SNAI1
SRMS
STAU1
AURKA
TAF4
TCEA2
TFAP2C
TPD52L2
UBE2V1
ZNF217
BCAS1
STX16
TNFRSF6B
DPM1
VAPB
B4GALT5
SPATA2
OSBPL2
ATP9A
ARFRP1
RGS19
SYCP2
ARFGEF2
TCFL5
ADRM1
OGFR
DIDO1
HRH3
SLC9A8
ADNP
SPO11
PRPF6
MTG2
GMEB2
MOCS3
SLCO4A1
STMN3
SLMO2
NELFCD
RTFDC1
RTEL1
SOX18
YTHDF1
BATAS1
UCKL1
PCMTD2
MRGBP
PPP4R1L
RBM38
BCAS4
DDX27
ZFP64
ARFGAP1
DOK5
RNF114
PMEPA1
CASS4
SALL4
ZNFX1
RAB22A
ZNF512B
PREX1
COL20A1
CDH26
SLC17A9
FAM217B
C20orf195
PPDPF
BIRC7
NPEPL1
DNAJC5
TUBB1
ZBP1
KABEL2
PARD6B
ZGPAT
HELZ2
FAM210B
PHACTR3
BHLHE23
NKAIN4
TSHZ2
C20orf85
ZNF831
C20orf166
GATA5
ZBTB46
CBLN4
CTCFL
SAMD10
ABHD16B
FAM65C
RBBP8NL
LSM14B
APCDD1L
C20orf201
LINC00176
C20orf197
TMEM189
FAM209B
MIR296
MIR645
MIR646
MIR298
MIR1257
MIR4325
MTRNR2L3
MIR4756
MIR4532
MIR4533
MIR548AG2

Gambar 2. Kedudukan genom kawasan yang dihapuskan: paksi-X mewakili isyarat penghapusan dinormalisasi (atas) dan kepentingan dengan nilai Q (bawah). Garis hijau mewakili potongan keertian pada nilai Q=0.25.

Jadual 2. Dapatkan Jadual Penghapusan Jadual Penuh - 2 penghapusan ketara dijumpai. Klik pautan dalam lajur terakhir untuk melihat senarai komprehensif gen calon. Sekiranya tidak ada gen yang dikenal pasti dalam puncak, gen terdekat muncul dalam tanda kurung.

Cytoband nilai Q Nilai Q baki Batas Puncak Lebar # Gen dalam Wide Peak
8p21.3 0.17599 0.17599 chr8:1-26298992 202
11q22.3 0.17599 0.17599 chr11: 78569205-135006516 434

Ini adalah senarai lengkap dipadamkan gen di puncak lebar untuk 8p21.3.

Jadual S3. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7].

Gen
PCM1
SDAD1P1
RNA5SP258
RN7SL651P
NEFL
SNORA67|ENSG00000207027.1
FP15737
SLC25A37
TNFRSF10A
RN7SL303P
NUDT18
FGF17
snoU13|ENSG00000238466.1
U3|ENSG00000251944.1
SNORA62|ENSG00000201157.1
RNA5SP256
MIR548V
MTMR7
ZDHHC2
FGF20
RN7SL474P
MIR383
RNA5SP255
LINC00681
FAM86B2
FAM66A
RNA5SP254
FAM66D
RNA5SP253
DEFB130 | ENSG00000233050.1
DEFB134
C8orf49
LINC00208
RN7SL293P
C8orf12
LINC00529
MIR598
SNORD112|ENSG00000252565.1
SOX7
RNA5SP252
PRSS51
snoU13 | ENSG00000238496.1
snoU13|ENSG00000239065.1
MIR597
U3 | ENSG00000252543.1
SNORA70|ENSG00000207244.1
RN7SL178P
SGK223
ALG1L13P
FAM86B3P
LRLE1
FAM85B
FAM90A24P
FAM66E
DEFB105A
DEFB105B
DEFB103B
ZNF705G
FAM66B
XKR5
MIR4659A
AGPAT5
RN7SKP159
RN7SL318P
SNORA70|ENSG00000206661.1
RN7SL872P
RNA5SP251
RPL23AP53
OR4F21
NAT1
NAT2
ANGPT2
ASAH1
ATP6V1B2
BLK
BMP1
POLR3D
BNIP3L
CTSB
DEFA1
DEFA3
DEFA4
DEFA5
DEFA6
DEFB1
DEFB4A
EGR3
DMTN
CLN8
FDFT1
FGL1
GATA4
GFRA2
GNRH1
LOXL2
LPL
MSR1
MSRA
NEFM
PDGFRL
PPP2R2A
PPP3CC
SFTPC
SLC7A2
SLC18A1
STC1
TUSC3
TNKS
ADAM7
TNFRSF10D
TNFRSF10C
TNFRSF10B
DOK2
MYOM2
DLGAP2
MFHAS1
ENTPD4
ARHGEF10
PHYHIP
KBTBD11
SORBS3
NPM2
DLC1
SPAG11B
ADAM28
LZTS1
XPO7
RHOBTB2
JPA3
SLC39A14
FBXO25
ADAMDEC1
CNOT7
KCTD9
PINX1
PIWIL2
INTS10
CSGALNACT1
HR
BIN3
MTUS1
KIAA1456
KIAA1967
SH2D4A
PDLIM2
CSMD1
EBF2
FAM160B2
MTMR9
MCPH1
PPP1R3B
DOCK5
REEP4
SOX7
FAM167A
SLC35G5
FAM86B1
ERI1
LONRF1
CHMP7
RP1L1
CLDN23
VPS37A
SGCZ
DEFB104A
PEBP4
CDCA2
TDRP
ERICH1
TDH
C8orf48
ZNF596
R3HCC1
PRSS55
C8orf74
LGI3
DEFB106A
DEFB107A
DEFB130 | ENSG00000232948.1
NEIL2
XKR6
MICU3
USP17L2
LINC00599
MIR320A
DEFB103A
DEFB107B
DEFB104B
DEFB106B
C8orf58
DEFB135
DEFB136
SPAG11A
MIR596
DEFA1B
ZNF705D
ZNF705B
DEFB4B
MIR548I3
MIR4286
MIR4660
MIR5692A2

Ini adalah senarai lengkap dipadamkan gen di puncak lebar untuk 11q22.3.

Jadual S4. Gen dalam huruf tebal adalah gen barah seperti yang ditentukan oleh The Sanger Institute: Cancer Gene Census [7].

Gen
DDX6
PCSK7
SDHD
MAML2
BIRC3
ATM
CBL
DDX10
FLI1
PAFAH1B2
POU2AF1
SDHD
GAMBAR
ARHGEF12
snoU13 | ENSG00000238693.1
RNU6ATAC12P
RN7SL167P
LINC00167
KCNJ5
RN7SKP279
RN7SKP121
MIR3167
snoU13|ENSG00000238855.1
RN7SL351P
KRT18P59
SLC37A2
RNA5SP352
TBRG1
OR10D3
U8|ENSG00000200496.1
SNORD14C
SNORD14D
SNORD14E
snoU13 | ENSG00000239079.1
RNU4ATAC5P
RNU4ATAC10P
SC5D
TBCEL
OAF
MEREKA1
MFRP
ACA64 | ENSG00000252119.1
HINFP
C2CD2L
MIR3656
RPS25
RN7SL529P
RN7SL688P
BCL9L
CXCR5
TTC36
RN7SL86P
CD3G
MPZL3
TMPRSS4
SCARNA11|ENSG00000252992.1
RNY4P6
ZNF259
snoU13 | ENSG00000238625.1
LINC00900
snoU13|ENSG00000239153.1
ACA59 | ENSG00000252870.1
snoU13 | ENSG00000238724.1
ATF4P4
snosnR66
C11orf34
RNA5SP351
HSPB2
ALG9
ALG9
RN7SKP273
SIK2
RNA5SP350
SNORD39 | ENSG00000264997.1
RNA5SP349
RNA5SP348
MMP12
WTAPP1
snoU13|ENSG00000239154.1
snoU13 | ENSG00000252679.1
MIR3920
snoU13 | ENSG00000238388.1
RN7SKP115
RN7SL222P
RN7SKP53
RNA5SP347
RNA5SP346
RNA5SP345
SRSF8
SRSF8
MIR548L
VSTM5
RN7SL195P
snoU13 | ENSG00000238437.1
MED17
SNORA40|ENSG00000210825.1
SNORA18|ENSG00000207145.1
SNORD5 | ENSG00000239195.1
SNORA8|ENSG00000207304.1
SNORA1 | ENSG00000206834.1
SNORD6
SNORA32 | ENSG00000206799.1
SNORA25 | ENSG00000207112.1
SCARNA9
RN7SL223P
SLC36A4
snoU13|ENSG00000239086.1
DISC1FP1
CHORDC1
SNORD56|ENSG00000207299.1
TRIM49D1
TRIM64B
TRIM77
FOLH1B
GRM5
TMEM135
RN7SL225P
snoU13 | ENSG00000238666.1
PCF11
SNORA70E
snoU13 | ENSG00000238995.1
SNORD112 | ENSG00000252592.1
ACAT1
ACRV1
BIRC2
APLP2
APOA1
APOA4
APOC3
ARCN1
FXYD2
CASP1
CASP4
CASP5
CD3D
CD3E
CTSC
CHEK1
JENAYAH
DLAT
DLG2
DPAGT1
DRD2
ETS1
FDX1
FUT4
SLC37A4
GRIA4
GRIK4
GUCY1A2
H2AFX
HMBS
HSPA8
HTR3A
IL10RA
IL18
STT3A
KCNJ1
VWA5A
MCAM
KMT2A
MMP1
MMP3
MMP7
MMP8
MMP10
MMP13
MRE11A
MTNR1B
NCAM1
NFRKB
NNMT
NPAT
NRGN
OPCML
PGR
PPP2R1B
PRCP
PTS
PVRL1
RDX
SCN2B
SCN4B
ST3GAL4
SLN
SORL1
SRPR
ST14
TAGLN
TECTA
TRPC6
TYR
UPK2
ZBTB16
ZNF202
CUL5
FZD4
BARX2
JRKL
EED
MTMR2
USP2
HTR3B
ZW10
MMP20
UBE4A
EI24
FEZ1
CEP57
ARHGAP32
NAALAD2
RBM7
MPZL2
YAP1
HYOU1
ATP5L
ME3
GPR83
ADAM8
PRSS23
TREH
CEP164
IGSF9B
AKHIR1
EXPH5
PHLDB1
NCAPD3
SIK3
VSIG2
BACE1
TRIM29
RAB38
CADM1
PANX1
POU2F3
REXO2
TENM4
OR8B8
TIMM8B
ATAU8B2
ACAD8
B3GAT1
RAB30
DCPS
C11orf54
ZBTB44
THYN1
DDX25
NOX4
NTM
CDON
SIDT2
PERDAGANGAN4
C11orf73
CWC15
SPA17
FXYD6
CNTN5
SIAE
C11orf71
ROBO4
SLC35F2
RAB39A
BTG4
NXPE4
SYTL2
ANKRD49
TTC12
C11orf57
ELMOD1
FOXRED1
KDM4D
SCN3B
VPS11
TMEM126B
TEX12
CRTAM
IFT46
SMCO4
PRDM10
TRIM49
DSCAML1
GRAMD1B
KIAA1377
ARHGAP20
USP28
CREBZF
KAD18
CCDC90B
CCDC81
AASDHPPT
PKNOX2
TP53AIP1
MMP27
ABCG4
ROBO3
C11orf1
TAF1D
RNF26
FAM118B
DYNC2H1
NLRX1
MSANTD2
CCDC82
CLMP
PDZD3
C11orf63
CCDC15
PDGFD
TMPRSS5
PUS3
MFRP
JAM3
BCO2
TMEM133
TMPRSS13
TMEM126A
DCUN1D5
MSANTD4
KIRREL3
BUD13
TMEM25
RPUSD4
UBASH3B
C11orf70
DIXDC1
KIAA1731
ZC3H12C
GLB1L2
ESAM
ALKBH8
FDXACB1
C11orf52
VPS26B
GLB1L3
TIRAP
KAD16
C1QTNF5
TMEM123
PANX3
APOA5
FAT3
TMEM45B
C11orf93
PIH1D2
NXPE1
NXPE2
AMICA1
FAM76B
SESN3
PIWIL4
ARHGAP42
KBTBD3
CWF19L2
KDELC2
LAYANG
AMOTL1
CCDC67
PATE1
C11orf65
KELEBIHAN15
C11orf45
HYLS1
TMEM218
OR8B12
OR10G8
ATAU10G9
OR10S1
ATAU6T1
OR4D5
TMEM136
SPATA19
C11orf82
CCDC83
HEPACAM
FAM181B
CCDC89
ANGPTL5
ANKK1
RNF214
FOXR1
CCDC153
OR8D1
ATAU8D2
ATAU8B4
C11orf44
CCDC84
TMEM225
OR8D4
ANKRD42
C11orf53
HEPHL1
FOLR4
KDM4E
BSX
OR6X1
ATAU6M1
ATAU10G4
OR10G7
ATAU8B3
OR8A1
C11orf87
C11orf92
C11orf88
PATE2
PATI4
SNX19
MIRLET7A2
MIR100
MIR125B1
MIR34B
MIR34C
DDI1
HILANG
KAD17
HEPN1
TRIM49C
CLDN25
MIR708
PATE3
MIR1261
MIR1304
MIR4300
MIR4301
MIR1260B
MIR3166
CASP12
MIR4697
MIR4490
MIR4493
MIR4491
MIR4492
MIR4693
MIR5579

Jadual 3. Dapatkan jadual kepentingan Aras lengan penuh - 13 keputusan penting dijumpai. Potongan keertian adalah pada nilai Q=0.25.

Lengan # Gen Kekerapan Amp Markah Amp Z Nilai Amp Q Kekerapan Del Skor Del Z Nilai Del Q
1p 1300 0.12 0.295 0.98 0.12 0.295 0.668
1q 1195 0.71 7.94 4e-14 0.29 1.51 0.217
2p 624 0.00 -1.87 0.98 0.11 -0.763 0.888
2q 967 0.00 -1.62 0.98 0.11 -0.359 0.888
3p 644 0.00 -1.86 0.98 0.11 -0.741 0.888
3q 733 0.11 -0.642 0.98 0.00 -1.79 0.964
4p 289 0.00 -2.05 0.98 0.16 -0.54 0.888
4q 670 0.06 -1.19 0.98 0.11 -0.627 0.888
5p 183 0.18 -0.432 0.98 0.12 -0.916 0.888
5q 905 0.18 0.432 0.98 0.12 -0.174 0.876
6p 710 0.13 -0.298 0.98 0.24 0.825 0.482
6q 556 0.00 -1.68 0.98 0.32 1.56 0.217
7p 389 0.29 1.01 0.98 0.14 -0.51 0.888
7q 783 0.22 0.807 0.98 0.07 -0.934 0.888
8 p 338 0.00 -1.59 0.98 0.47 2.94 0.0165
8q 551 0.50 3.13 0.0175 0.42 2.14 0.106
9p 301 0.17 -0.343 0.98 0.41 2.09 0.106
9q 700 0.00 -1.46 0.98 0.42 3.05 0.0165
10 p 253 0.18 -0.36 0.98 0.12 -0.852 0.888
10q 738 0.00 -1.79 0.98 0.11 -0.636 0.888
11 p 509 0.25 0.683 0.98 0.20 0.161 0.718
11q 975 0.19 0.65 0.98 0.19 0.65 0.544
12 p 339 0.15 -0.438 0.98 0.35 1.54 0.217
12q 904 0.19 0.544 0.98 0.19 0.544 0.567
13q 560 0.09 -0.757 0.98 0.44 2.95 0.0165
14q 938 0.00 -1.54 0.98 0.21 0.94 0.463
15q 810 0.00 -1.58 0.98 0.26 1.37 0.262
16p 559 0.44 2.71 0.0451 0.25 0.649 0.544
16q 455 0.00 -1.28 0.98 0.63 4.91 1.82e-05
17 p 415 0.00 -1.63 0.98 0.42 2.5 0.0498
17q 972 0.12 -0.0913 0.98 0.18 0.531 0.567
18 p 104 0.15 -0.642 0.98 0.35 1.22 0.317
18q 275 0.14 -0.614 0.98 0.29 0.855 0.482
19p 681 0.12 -0.43 0.98 0.18 0.129 0.718
19q 935 0.12 -0.138 0.98 0.18 0.476 0.577
20 p 234 0.39 1.81 0.354 0.08 -1.11 0.888
20q 448 0.33 1.54 0.492 0.08 -1.04 0.888
21q 258 0.12 -0.948 0.98 0.12 -0.948 0.888
22q 564 0.00 -1.68 0.98 0.32 1.57 0.217
Xq 668 0.21 0.482 0.98 0.31 1.57 0.217

Fail Segmentasi: Fail segmentasi mengandungi data tersegmentasi untuk semua sampel yang dikenal pasti oleh GLAD, CBS, atau beberapa algoritma segmentasi lain. (Lihat format fail SENANG dalam dokumentasi format fail Genepattern.) Ia ialah fail enam lajur yang dibataskan tab dengan baris pertama pilihan yang mengenal pasti lajur. Posisi berada dalam unit pasangan asas. Tajuk lajur adalah: (1) Sampel (nama sampel), (2) Kromosom (nombor kromosom), (3) Posisi Mula (kedudukan permulaan segmen, dalam pangkalan), (4) Posisi Akhir ( kedudukan akhir segmen, dalam pangkalan), (5) Penanda bilangan (bilangan penanda dalam segmen), (6) Seg.CN (log2 () -1 nombor salinan).

Fail Penanda: Fail penanda mengenal pasti nama penanda dan kedudukan penanda dalam set data asal (sebelum pembahagian). Ia ialah fail tiga lajur, tab-dibataskan dengan pengepala pilihan. Tajuk lajur adalah: (1) Nama Penanda, (2) Kromosom, (3) Kedudukan Penanda (dalam pangkalan).

Genom Rujukan: Fail genom rujukan mengandungi maklumat mengenai lokasi gen dan sitoband pada binaan genom tertentu. Fail genom rujukan dibuat di Matlab dan tidak dapat dilihat dengan penyunting teks.

Fail CNV: Terdapat dua pilihan untuk fail cnv. Pilihan pertama membolehkan CNV dikenal pasti dengan nama penanda. Pilihan kedua membolehkan CNVs dikenal pasti mengikut lokasi genom. Pilihan # 1: Dua lajur, fail yang dibatasi tab dengan baris tajuk pilihan. Nama penanda yang diberikan dalam fail ini mesti sepadan dengan nama penanda yang diberikan dalam fail penanda. Pengecam CNV adalah untuk kegunaan pengguna dan boleh dibuat sewenang-wenangnya. Tajuk lajur adalah: (1) Nama Penanda, (2) Pengenal CNV. Pilihan # 2: Lajur 6, fail yang dibatasi tab dengan baris tajuk pilihan. 'Pengenal CNV' adalah untuk kegunaan pengguna dan boleh sewenang-wenangnya. 'Narrow Region Start' dan 'Narrow Region End' juga tidak digunakan. Pengepala lajur ialah: (1) Pengecam CNV, (2) Kromosom, (3) Permulaan Wilayah Sempit, (4) Hujung Wilayah Sempit, (5) Mula Wilayah Luas, (6) Hujung Wilayah Luas

Ambang Penguatan: Ambang untuk penguatan nombor salinan. Kawasan dengan nisbah log2 di atas nilai ini dianggap diperkuat.

Ambang Had: Ambang untuk penghapusan nombor salinan. Kawasan dengan nisbah log2 di bawah nilai negatif ini dianggap penghapusan.

Nilai Had: Nilai had minimum dan maksimum pada data yang dianalisis. Kawasan dengan nisbah log2 lebih besar daripada topi ditetapkan ke kawasan nilai topi dengan nisbah log2 kurang dari -cap nilai ditetapkan ke -cap. Nilai mesti positif.

Potongan Panjang Luas: Ambang digunakan untuk membezakan luas daripada peristiwa fokus, diberikan dalam unit pecahan lengan kromosom.

Buang X-Kromosom: Bendera menunjukkan sama ada akan membuang data dari kromosom X sebelum dianalisis. Nilai yang dibenarkan= <1,0>(1: Buang X-Kromosom, 0: Jangan keluarkan X-Kromosom.

Tahap Keyakinan: Tahap keyakinan yang digunakan untuk mengira kawasan yang mengandungi pemacu.

Sertai Saiz Segmen: Bilangan penanda terkecil untuk dibenarkan dalam segmen daripada data tersegmen. Segmen yang mengandungi bilangan penanda kurang daripada ini bergabung dengan segmen berdekatan yang paling hampir dalam bilangan salinan.

Arm Level Peel Off: Flag diatur untuk membolehkan pengelupasan tahap lengan pada peristiwa semasa definisi puncak. Peningkatan pengelupasan tahap lengan ke kaedah pengelupasan arbitrasi menetapkan semua peristiwa dalam lengan kromosom sampel yang sama ke satu puncak. Ia berguna apabila puncak dipisahkan oleh bunyi atau kromotripsis. Nilai yang dibenarkan = <1,0> (1: Gunakan pengelupasan paras lengan, 0: Gunakan pengelupasan arbitrasi biasa).

Segmen Sampel Maksimum: Jumlah segmen maksimum yang dibenarkan untuk sampel dalam data input. Sampel dengan lebih banyak segmen daripada ambang ini tidak termasuk dalam analisis.

Gen GISTIC: Apabila diaktifkan (nilai = 1), pilihan ini menyebabkan GISTIC menganalisis penghapusan menggunakan gen dan bukannya penanda array untuk mencari lesi. Dalam mod ini, nombor salinan yang diberikan kepada gen adalah nombor salinan terendah antara penanda yang mewakili gen.

Senarai input yang digunakan untuk menjalankan GISTIC2 ini. Semua fail yang disenaraikan hendaklah disertakan dalam hasil arkib.

Fail Pembahagian = /xchip/cga/gdac-prod/tcga-gdac/jobResults/PrepareGisticDNASeq/BRCA-TP/22507115/segmentationfile.txt

Fail Penanda = /xchip/cga/gdac-prod/tcga-gdac/jobResults/PrepareGisticDNASeq/BRCA-TP/22507115/markersfile.txt

Rujukan Genom = /xchip/cga/reference/gistic2/hg19_GENCODE_v18_20140127.mat

Fail CNV = /xchip/gistic/CNV/SNP6.merged.151117.hg19.CNV.txt

Ambang Penguatan = 0.3

Segmen Sampel Maksimum = 10000

Jadual 4. Dapatkan Jadual Penuh Pertama 10 daripada 19 Sampel Tumor Input.

Nama Contoh Tumor
TCGA-A2-A0EU-01A-22D-A060-02
TCGA-A7-A0D9-01A-31D-A060-02
TCGA-AO-A0JF-01A-11D-A060-02
TCGA-AO-A0JJ-01A-11D-A060-02
TCGA-AO-A0JL-01A-11D-A060-02
TCGA-AR-A0TU-01A-31D-A106-02
TCGA-B6-A0RE-01A-11D-A060-02
TCGA-B6-A0RG-01A-11D-A060-02
TCGA-B6-A0RI-01A-11D-A060-02
TCGA-B6-A0X4-01A-11D-A106-02

Rajah 3. Profil nombor salinan bersegmen dalam data input

Fail semua luka merangkum hasil dari menjalankan GISTIC. Ia mengandungi data tentang kawasan penguatan dan pemadaman yang ketara serta sampel yang dikuatkan atau dipadamkan dalam setiap kawasan ini. Kawasan yang dikenal pasti disenaraikan di lajur pertama, dan sampel disenaraikan di baris pertama, bermula di lajur 10.

Data Wilayah

Lajur 1-9 menyajikan data mengenai wilayah penting seperti berikut:

Nama Unik: Nama yang diberikan untuk mengenal pasti wilayah.

Deskriptor: Penjelaskan genomik kawasan itu.

Lebar Puncak Lebar: Batas 'puncak lebar' kemungkinan besar mengandungi gen yang disasarkan. Ini disenaraikan dalam koordinat genom dan indeks penanda (atau siasatan).

Batas Puncak: Batasan wilayah penguatan atau penghapusan maksimum.

Had Kawasan: Batasan dari keseluruhan wilayah penguatan atau penghapusan yang ketara.

Nilai Q: Nilai Q bagi kawasan puncak.

Nilai Q sisa: Nilai Q dari kawasan puncak setelah mengeluarkan ('mengupas') amplifikasi atau penghapusan yang bertindih dengan kawasan puncak lain yang lebih ketara dalam kromosom yang sama.

Luas atau Tumpuan: Mengenal pasti sama ada rantau ini mencapai kepentingan disebabkan terutamanya oleh peristiwa luas (dipanggil 'luas'), peristiwa fokus (dipanggil 'fokus'), atau peristiwa luas dan fokus yang signifikan secara bebas (dipanggil 'kedua-duanya').

Ambang Amplitud: Kunci memberi makna nilai pada lajur berikutnya yang berkaitan dengan setiap sampel.

Data Sampel

Setiap sampel yang dianalisis ditunjukkan dalam salah satu lajur yang mengikuti data lesi (lajur 10 hingga akhir). Data yang terkandung dalam lajur ini sedikit berbeza mengikut bahagian file. Bahagian pertama dapat dikenal pasti dengan kunci yang diberikan dalam lajur 9 - ia bermula pada baris 2 dan berlanjutan hingga baris yang berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian ini mengandungi data yang diringkaskan untuk setiap sampel. '0' menunjukkan bahawa nombor salinan sampel tidak dikuatkan atau dipadamkan melebihi jumlah ambang di kawasan puncak tersebut.A '1' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat rendah (melebihi ambang rendah yang ditunjukkan dalam lajur 9), dan '2' menunjukkan bahawa sampel mempunyai penyimpangan bilangan salinan tingkat tinggi (melebihi ambang tinggi yang ditunjukkan dalam lajur 9). Bahagian kedua dapat dikenal pasti baris di mana lajur 9 berbunyi 'Perubahan Salinan Sebenar Diberi.' Bahagian kedua betul-betul mengeluarkan semula bahagian pertama, kecuali di sini perubahan sebenar dalam nombor salinan disediakan dan bukannya sifar, satu dan dua. Bahagian akhir adalah serupa dengan bahagian pertama, kecuali di sini hanya acara luas disertakan. A 1 di lajur sampel (lajur 10+) menunjukkan bahawa jumlah salinan median sampel di seluruh rantau yang signifikan melebihi ambang yang diberikan dalam lajur 9. Maksudnya, ini menunjukkan sama ada sampel mempunyai peristiwa yang dilanjutkan secara geografi, dan bukannya penguatan fokus atau penghapusan yang meliputi lebih sedikit daripada kawasan puncak.

Fail gen amp mengandungi satu lajur untuk setiap puncak penguatan yang dikenal pasti dalam analisis GISTIC. Empat baris pertama adalah:

Baris ini mengenal pasti lesi dengan cara yang sama seperti semua fail lesi. Baris yang tersisa menyenaraikan gen yang terdapat di setiap puncak lebar. Untuk puncak yang tidak mengandungi gen, gen terdekat disenaraikan dalam kurungan.

Fail del gen mengandungi satu lajur untuk setiap puncak penghapusan yang dikenal pasti dalam analisis GISTIC. Format fail untuk fail del gen adalah sama dengan format untuk fail gen amp.

Fail skor menyenaraikan nilai Q [disajikan sebagai -log10 (q)], skor G, amplitud rata-rata di antara sampel yang menyimpang, dan kekerapan penyimpangan, di seluruh genom untuk kedua-dua penguatan dan penghapusan. Fail skor dapat dilihat dengan modul Genepattern SNPViewer dan boleh diimport ke Integrated Genomics Viewer (IGV).

Nombor salinan bersegmen ialah fail pdf yang mengandungi imej peta warna profil nombor salinan bersegmen dalam data input.

Penguatan pdf adalah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan penguatan untuk semua penanda di seluruh wilayah yang dianalisis.

pdf pemadaman ialah plot skor G (atas) dan nilai Q (bawah) berkenaan dengan pemadaman untuk semua penanda di seluruh rantau yang dianalisis.

Jadual maklumat asas mengenai kawasan genom (puncak) yang ditentukan GISTIC untuk diperkuat atau dihapuskan dengan ketara. Ini menerangkan tiga jenis batas puncak, dan menyenaraikan gen yang terdapat dalam dua daripadanya. Lajur permulaan dan hujung rantau (bersama-sama lajur kromosom) mengehadkan keseluruhan kawasan yang mengandungi puncak yang melebihi paras keertian. Kawasan ini mungkin sama untuk pelbagai puncak. Permulaan dan penamat puncak mengehadkan nilai maksimum puncak. Puncak lanjutan ialah puncak yang ditentukan oleh teguh, dan terkandung dalam puncak lebar yang dilaporkan dalam _genes.txt oleh satu penanda.

Jadual hasil statistik per-lengan untuk set data. Setiap lengan adalah satu barisan di meja. Lajur pertama menentukan lengan dan lajur kedua mengira bilangan gen yang diketahui berada pada lengan. Untuk penguatan dan penghapusan, jadual mempunyai lajur untuk kekerapan penguatan atau penghapusan lengan, dan skor Z dan nilai Q.

Jadual tahap penguatan lengan kromosom untuk setiap sampel. Setiap baris ialah lengan kromosom, dan setiap lajur adalah sampel. Data terdapat dalam unit nombor salinan mutlak -2.

Jadual peringkat gen bagi nilai nombor salinan untuk semua sampel. Setiap baris ialah data untuk gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai nombor salinan dalam jadual adalah dalam unit (nombor salin -2), sehingga tidak ada penguatan atau penghapusan 0, gen dengan penguatan mempunyai nilai positif, dan gen dengan penghapusan adalah nilai negatif. Data ditukar daripada tahap penanda ke tahap gen menggunakan kaedah ekstrem: gen diberikan penguatan terbesar atau nilai pemadaman paling sedikit antara penanda yang diliputinya.

Jadual peringkat gen data salin yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan peristiwa luas dengan panjang lebih besar daripada potongan panjang lebar. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt.

Jadual peringkat gen bagi data nombor salinan yang serupa dengan output all_data_by_genes.txt, tetapi hanya menggunakan acara fokus dengan panjang lebih besar daripada pemotongan panjang fokus. Struktur fail dan kaedah serta unit yang digunakan untuk analisis data sebaliknya sama dengan all_data_by_genes.txt.

Jadual tahap gen bagi penunjuk penguatan dan pemadaman diskret pada untuk semua sampel. Terdapat satu baris untuk setiap gen. Tiga lajur pertama menamakan gen, ID lokus NIH, dan sitobandnya - lajur yang tinggal adalah contohnya. Nilai jadual 0 bermaksud tiada penguatan atau penghapusan melebihi ambang. Amplifikasi ialah nombor positif: 1 bermaksud amplifikasi melebihi ambang amplifikasi 2 bermaksud amplifikasi yang lebih besar kepada amplifikasi paras lengan yang diperhatikan untuk sampel. Penghapusan diwakili oleh nilai jadual negatif: -1 mewakili penghapusan melebihi ambang -2 bermaksud penghapusan lebih besar daripada penghapusan tahap lengan minimum yang diperhatikan untuk sampel.

Jadual pemotongan ambang per sampel (dalam unit nombor salinan mutlak -2) yang digunakan untuk membezakan penguatan tahap tinggi (+/- 2) dari penguatan biasa (+/- 1) dalam fail keluaran all_thresholded.by_genes.txt . Jadual mengandungi tiga lajur: pengecam sampel diikuti dengan nilai potong rendah (pemadaman) dan tinggi (penguatan). Potongan dikira sebagai tahap penguatan tahap lengan minimum ditolak ambang penghapusan untuk penghapusan dan penguatan tahap lengan maksimum ditambah ambang penguatan untuk penguatan.

Senarai segmen nombor salinan yang menerangkan hanya peristiwa fokus yang terdapat dalam data. Tahap penguatan / penghapusan segmen adalah dalam unit (nombor salin -2), dengan amplifikasi positif dan penghapusan nombor negatif. Fail ini boleh dilihat dengan IGV.

Imej yang menunjukkan korelasi antara kiraan gen dan kekerapan perubahan nombor salinan.

Fail yang menunjukkan kedudukan selang keyakinan di sekitar puncak GISTIC yang dapat dimuat sebagai trek dalam penyemak imbas penonton yang serasi seperti IGV atau penyemak imbas genom UCSC.

GISTIC mengenal pasti kawasan genom yang secara signifikan diperoleh atau hilang di sebilangan tumor. Ia mengambil nisbah nombor salinan tersegmen sebagai input, memisahkan peristiwa peringkat lengan daripada peristiwa fokus, dan kemudian melakukan dua ujian: (i) mengenal pasti lengan kromosom yang dikuatkan/dipadamkan dengan ketara dan (ii) mengenal pasti kawasan yang dikuatkan atau dipadamkan secara ketara. Untuk analisis fokus, tahap keertian (nilai Q) dikira dengan membandingkan keuntungan/kerugian yang diperhatikan pada setiap lokus dengan yang diperoleh dengan mengubah suai secara rawak peristiwa sepanjang genom untuk mencerminkan hipotesis nol bahawa mereka semua adalah 'penumpang' dan boleh mempunyai. berlaku di mana-mana sahaja. Tahap kepentingan khusus lokus kemudiannya diperbetulkan untuk ujian hipotesis berbilang. Kepentingan peringkat lengan dikira dengan membandingkan kekerapan keuntungan/kerugian setiap lengan dengan kadar yang dijangkakan berdasarkan saiznya. Kaedah ini menghasilkan pandangan genom dari kawasan yang diperkuat dan dihapus secara signifikan, serta jadual gen dengan skor keuntungan atau kerugian. Perbincangan yang lebih mendalam tentang algoritma GISTIC dan utilitinya diberikan dalam [1], [3], dan [5].

Kawasan genom yang rentan terhadap variasi garis kuman dalam jumlah salinan dikecualikan dari analisis GISTIC menggunakan senarai variasi nombor salinan garis kuman (CNV). CNV adalah urutan DNA yang mungkin terdapat pada nombor salinan yang berlainan dalam garis kuman dua individu yang berbeza. Variasi garis kuman sedemikian boleh mengelirukan analisis GISTIC, yang menemui variasi nombor salinan somatik yang ketara dalam kanser. Perbincangan yang lebih mendalam diberikan dalam [6]. GISTIC kini menggunakan dua senarai pengecualian CNV. Satu adalah berdasarkan kesusasteraan yang menerangkan variasi nombor salinan, dan yang kedua datang daripada analisis variasi ketara antara normal darah dalam set data TCGA.

Sebagai tambahan kepada pautan di bawah, hasil analisis yang diringkaskan dalam laporan ini juga boleh dimuat turun secara teratur menggunakan firehose_get, atau secara interaktif dari laman web Broad GDAC atau TCGA Data Coordination Center Portal.


Kaedah

Data sumber

Sebanyak 227 hasil hibridisasi genomik perbandingan yang dinormalisasi (aCGH) untuk pesakit GBM diambil dari portal data TCGA (http://tcga-data.nci.nih.gov/). Eksperimen aCGH dilakukan oleh Pusat Kanser Memorial Sloan-Kettering menggunakan platform Agilent Human Genome CGH Microarray 244A (Agilent Technologies, Inc., Santa Clara, California). Dari 227 sampel (Jadual S4), 167 adalah sampel tumor dan 60 lagi adalah sampel darah. Apabila terdapat lebih daripada satu sampel tisu yang sama untuk pesakit, satu sampel dipilih secara rawak (lihat Bahan Tambahan untuk senarai sampel). Dari 167 sampel tumor, 58 mempunyai sampel darah berpasangan dari pesakit yang sama.

Data nombor salinan yang dinormalisasi yang diperoleh dari 227 sampel dipetakan ke dalam genom manusia menggunakan kumpulan Build 18 (NCBI 36) dengan fail anotasi yang disediakan oleh pengeluar (http://www.chem.agilent.com/). Prosedur normalisasi array dilakukan oleh Pusat Kanser Memorial Sloan Kettering dengan algoritma dalam & # x02013house mereka yang membetulkan bias kandungan CG (lihat portal Data TCGA http://tcga.cancer.gov/dataportal). Data nombor salinan telah ditapis menggunakan algoritma Circular Binary Segmentation (CBS) seperti yang dilaksanakan dalam DNAcopy pakej R dengan tetapan parameter lalai [12].

Kaedah analisis data

Pengesanan penyimpangan dilakukan di sini sebagai penyimpangan yang tidak layak. Akibat kebimbangan kritikal ini dengan model null yang belum teruji, pilihan kaedah mesti memenuhi dua kebimbangan tentang kemungkinan bias. Pertama, ia tidak boleh membuat andaian mengenai rujukan isyarat yang tidak menyimpang. Kedua, ia tidak boleh membuat andaian mengenai bentuk variasinya. Keperluan bukan parametrik ini dipenuhi oleh pendekatan yang menggunakan ketumpatan langkah yang diperhatikan untuk menilai kandungan maklumat isyarat. Oleh itu, isyarat individu dinilai oleh kebarangkalian, hlm, sisihan dalam konteks isyarat yang diperhatikan. Entropi Shannon (Pers. 1) dikira untuk setiap kedudukan probe DNA, i & # x0200a = & # x0200a1, & # x02026, n.

Kebarangkalian, hlmij, untuk setiap nilai nombor salinan ditentukan sebagai pecahan kepadatan kernel, K, yang diperhatikan dalam semua sampel, j & # x0200a = & # x0200a1, & # x02026m, pada kedudukan itu (Pers. 2).

Kaedah tetingkap Parzen [39] dengan fungsi kernel Gaussian telah digunakan untuk menganggarkan nilai ketumpatan kebarangkalian K nisbah log2 nombor salinan yang diperhatikan pada kedudukan itu, CNi,j. Teknik ini menganggap bahawa setiap elemen dalam populasi adalah pusat lengkung Gaussian, dan nilai ketumpatan kebarangkalian untuk titik tertentu ialah jumlah semua nilai Gaussian pada titik itu. Pengiraan kepadatan kernel untuk semua probe DNA memerlukan sejumlah besar usaha pengiraan. Oleh itu, kepadatan kernel disampel dalam 100 titik yang sama rata, KS, mulai dari nilai minimum hingga maksimum nisbah log2 salinan nombor (Pers. 3). Nilai ketumpatan kebarangkalian, K (CNij), kemudian diperoleh dengan interpolasi dengan vektor KS. Parameter σ, relatif dengan lebar jalur kernel, didefinisikan sebagai sisihan piawai data mentah di dalam setiap segmen yang diringkaskan untuk semua segmen dalam semua sampel. Kaedah untuk anggaran lebar jalur yang dirancang untuk populasi Gauss menghasilkan parameter lebar jalur yang terlalu pendek, yang mengakibatkan beberapa puncak dalam taburan ketumpatan kebarangkalian (data tidak ditunjukkan). Kriteria pemilihan lebar jalur kami menghasilkan ketumpatan kebarangkalian unimodal berpusat pada 0. Memandangkan kebanyakan CNA penting mempunyai amplitud yang tinggi, dan akibatnya berkemungkinan berketumpatan rendah, pengesanan kawasan menyimpang secara relatifnya tidak sensitif terhadap parameter lebar jalur yang besar.

Jumlah maklumat yang dikaitkan dengan �rration” adalah berkadar songsang dengan entropi S. Jika rantau yang ditentukan dikuatkan atau dipadamkan secara berulang, ia sepatutnya mempunyai kandungan maklumat yang lebih tinggi, dan dengan itu entropi yang lebih rendah, jika dibandingkan dengan pengedaran keseluruhan dari entropi.

Pelaksanaan prosedur tiga langkah ini diperincikan menggunakan kod m Matlab:

Menjana pengedaran rujukan

dan ganti setiap nilai dengan ketumpatannya (Persamaan 3)

Hitung kebarangkalian sebenar sekarang sebagai bahagian kepadatan baris (Pers. 2)

Hitung entropi Shannon (Pers. 1)

Walaupun diterapkan pada eksperimen aCGH dalam karya ini, kaedah entropi sesuai untuk mana-mana platform nombor salinan berasaskan array.

Mengesan kawasan yang menarik

Seperti yang dibincangkan dalam [11], terdapat dua bentuk utama CNA dalam sel tumor: peristiwa luas, yang boleh mengandungi beberapa Mb nukleotida dan merangkumi banyak gen dan peristiwa fokus, yang lebih setempat. Peristiwa fokus di dalam acara luas mewakili cabaran untuk kaedah yang berdasarkan ambang untuk panggilan binari penguatan dan pemadaman, setelah keseluruhan kawasan luas boleh dianggap penting, justeru menyembunyikan peristiwa fokus. Walau bagaimanapun, beberapa kaedah untuk mengesan RRA, sambil bergantung pada ambang sewenang-wenangnya, menggunakan amplitud untuk memisahkan peristiwa fokus bersarang ini [11], [17].

Walaupun peristiwa luas boleh menjadi lazim dalam genom kanser [14], kebolehgunaannya untuk mencari onkogen baru atau penindas tumor adalah terhad disebabkan oleh sejumlah besar gen yang terdapat di kawasan tersebut. Oleh itu, dalam makalah ini pengesanan RRA hanya terbatas pada peristiwa fokus. Untuk menghapuskan pengaruh keseluruhan penguatan atau penghapusan kromosom, ketumpatan kernel dikira secara individu untuk setiap kromosom. Selain itu, untuk mengurangkan kesan peristiwa luas pada entropi, garis dasar isyarat entropi telah dikeluarkan menggunakan penapis Whitaker [40] (melicinkan). Bagi setiap kedudukan kuar, nilai entropi ditentukan seperti berikut: Entropi akhir =𠂮ntropi asal𢄮ntropi terlicin. Oleh itu, hanya puncak dalam entropi, yang mewakili peristiwa fokus, kekal dalam isyarat. Akhirnya, ambang untuk entropi diperoleh menggunakan kuantiti 0.05 taburan bootstrap entropi. Kawasan yang mempunyai entropi akhir lebih rendah daripada ambang dianggap RRA. Kawasan yang diwakili oleh hanya satu penyelidikan tidak dipertimbangkan.

Dalam alat CGB, penghapusan garis dasar diberikan sebagai pilihan kepada pengguna. Oleh itu, adalah mungkin untuk menyahaktifkan prosedur ini untuk menganalisis peristiwa yang luas juga. Oleh kerana kaedah entropi tidak mempertimbangkan ukuran peristiwa, ia mampu mengesan peristiwa luas seperti ukuran lengan atau bahkan keseluruhan kejadian kromosom. Untuk kejadian kromosom keseluruhan, entropi harus diukur di seluruh genom dan bukannya secara individu pada setiap kromosom.

Mengenal pasti CNV normal

CNV dalam sel normal baru-baru ini digambarkan sebagai kejadian yang agak biasa dalam genom manusia [22]. Untuk mengesan sama ada RRA ialah variasi nombor salinan biasa atau perubahan menyimpang yang menggalakkan percambahan sel, kawasan tersebut dibandingkan dengan entri Pangkalan Data Varian Genomik (http://projects.tcag.ca/variation/ version 18v1 [22] ]) dan anotasi & # x0201cStruktural & # x0201d dalam Penyemak Imbas Genom UCSC [41]. Entropi juga dikira untuk 60 sampel normal menggunakan prosedur yang sama seperti yang dinyatakan di atas. Kawasan entropi rendah dalam sampel normal tidak digunakan ketika menganalisis set data tumor.

Simulasi kawasan menyimpang

Seratus simulasi telah dilakukan untuk menganalisis kelakuan entropi mengikut variasi dalam amplitud dan kelaziman CNA. Panjang setiap penyimpangan tidak berubah kerana kaedah kami mempertimbangkan setiap kedudukan secara bebas.

Satu set dengan 100 pesakit tiruan dibina menggunakan nilai nombor salinan sampel secara rawak dari data GBM. Amplitud CNA simulasi berjulat dari 0 hingga 0.4 (skala nisbah log2) dengan prevalens dari 0 hingga 25%. Kawasan di bawah kurva ciri operator penerima (ROC) digunakan untuk penilaian prestasi dalam setiap keadaan yang disimulasikan. Analisis simulasi dijelaskan di bahagian Hasil.


Abstrak

Glioblastoma (GBM) adalah tumor primer malignan yang paling biasa pada sistem saraf pusat. Tanpa terapi yang berkesan, prognosis bagi pesakit sangat buruk. Ia sangat heterogen dan EGFR penguatan adalah perubahan molekulnya yang paling kerap.

Oleh itu, kami bertujuan untuk mengkaji heterogeniti genetik GBM dan mengaitkannya dengan ciri klinikal pesakit. Untuk tujuan itu, kami menganalisis status EGFR dan pengubahan nombor salinan somatik (CNA) bagi satu set gen penindas tumor dan onkogen.

Oleh itu, kami menjumpai GBM dengan tahap tinggi EGFR penguatan, tahap rendah dan dengan tidak EGFR penguatan. Tumor yang sangat kuat menunjukkan ciri histologi keagresifan. Menariknya, pengumpulan CNA, sebagai ukuran beban mutasi tumor, sering dan secara signifikan dikaitkan dengan kelangsungan hidup yang pendek. EGFR-GBM yang diperkuat memperlihatkan bilangan CNA konkrit yang lebih tinggi dan beban mutasi tumor global yang lebih tinggi daripada bilangannya EGFR-sama yang diperkuatkan. Sebagai tambahan kepada perubahan genetik yang dijelaskan sebelumnya dalam GBM, kami dapati TAMAN2 dan BESAR1 CNA yang berkaitan dengan EGFR penguatan. Kumpulan gen yang dianalisis membolehkan kami meneroka jalur isyarat yang relevan di GBM. Kedua-duanya TAMAN2 dan BESAR1 berkaitan dengan reseptor tyrosine kinase/PI3K/PTEN/AKT/ Laluan isyarat mTOR. Akhirnya, kami mendapati hubungan antara jalur molekul diubah, EGFR amplifikasi dan hasil yang buruk.

Hasil kami menggarisbawahi potensi minat mengkategorikan GBM mengikut keputusan mereka EGFR tahap penguatan dan kegunaan menilai beban mutasi tumor. Pendekatan ini akan membuka kemungkinan pengetahuan baru yang berkaitan dengan biologi dan terapi GBM.


Bahan tambahan elektronik

13059_2005_1104_MOESM1_ESM.xls

Fail data tambahan 1: 295 varian ulangan (menjangkau 218 kluster UniGene) dikesan dalam analisis kami, dengan maklumat tentang ulangan dan penerangan bagi jujukan wakil kluster. (XLS 86 KB)

13059_2005_1104_MOESM2_ESM.xls

Fail data tambahan 2: Sekat panjang ulangan dikumpulkan ke dalam 249 lokus ulangan unik. Untuk setiap lokus, heterozigositas frekuensi alel panjang berulang telah dikira. (XLS 51 KB)

13059_2005_1104_MOESM3_ESM.xls

Fail data tambahan 3: Data yang digunakan untuk Rajah 3. Kiraan ulangan varian dan invarian dengan panjang unit dan nombor salinan berbeza dijadualkan. (XLS 22 KB)


Bahan dan kaedah

Kandungan dan pemetaan GC

Untuk mengira peratusan kandungan GC bagi setiap exon, kami menggunakan runut gc5Base yang dimuat turun daripada tapak web UCSC [48].Trek gc5Base memberikan peratusan asas G (guanine) dan C (sitosin) dalam tetingkap lima asas. Bias kebolehmetaan adalah disebabkan oleh fakta bahawa genom mengandungi banyak unsur berulang dan penjajaran bacaan kepada kedudukan ini membawa kepada pemetaan yang tidak jelas. Kami menggunakan data unik dalam [49] untuk mengira skor pemetaan untuk setiap exon. Dalam makalah ini, penulis memperkenalkan sumber genomik untuk memahami bahagian jujukan genomik yang boleh dipetakan secara unik. Kami menilai keunikan urutan genom menggunakan penjajaran all-against-all untuk ukuran perkataan yang berbeza. Penjajaran dilakukan dengan Imagenix Sequence Alignment System (ISAS) [50]. Keselarasan semua-terhadap-semua dilakukan secara bebas untuk panjang teg antara 25 dan 90 nukleotida dengan bilangan ketidakcocokan yang berbeza-beza, di ruang nukleotida dan ruang warna. Keputusan analisis ini telah diformatkan sebagai fail bigBED dan bigWig dan boleh dimuat turun dari [51]. Fail bigWig mengandungi nilai liputan yang dinyatakan sebagai persentil integer bulat bagi liputan penuh (contohnya, nilai 100 menunjukkan bahawa 100% daripada N-mers bertindih adalah unik dan menyumbang kepada liputan koordinat itu sama seperti nilai 50 menunjukkan bahawa 50% daripada N-mers yang bertindih adalah unik). Skor kebolehpasaran untuk setiap ekson diperoleh dengan merata-rata nilai liputan nukleotida milik ekson terpilih.

Exon bermakna penormalan data kiraan baca

Untuk meminimumkan kesan tiga sumber variasi, kami menggunakan prosedur penyingkiran berat sebelah tiga langkah berdasarkan pendekatan normalisasi median yang diperkenalkan dalam [23] dan dalam [31]. Dalam praktiknya, untuk semua peratusan GC (0,1,2,…, 100%), semua bin skor kebolehmetaan (0,0.1,0.2,…,1) dan semua tong saiz exon (10 bp, 20 bp, 30 bp, …) kami mengira sisihan EMRC daripada purata exome dan kemudian membetulkan setiap EMRC mengikut:

di mana EMRC iialah bilangan bacaan min exon bagi iekson ke- mX ialah median EMRC bagi semua ekson yang mempunyai nilai X yang sama (di mana X = [kandungan GC, skor kebolehmetaan, saiz ekson]) sebagai iexon, dan m adalah median keseluruhan semua ekson. Pada akhir prosedur ini, EMRC untuk setiap ekson telah diperbetulkan untuk tiga sumber bias.

Salin anggaran nombor

Untuk mengukur kemampuan data EMRC untuk meramalkan bilangan salinan DNA yang tepat dari kawasan genomik, kami memeriksa beberapa kawasan genomik luas yang sebelumnya dilaporkan mempunyai nombor salinan sama dengan 0, 1, 2, 3 atau 4 oleh McCarroll et al.[7] untuk lapan sampel (NA10847, NA19131, NA19138, NA19152, NA19153, NA19159, NA19206 dan NA19223) yang dijana oleh Konsortium Projek 1000 Genom. McCarroll et al.[7] merancang susunan genotip hibrid (Affymetrix SNP 6.0) untuk mengukur 906.600 SNP dan menyalin nombor di 1.8 juta lokasi genom secara serentak. Mereka menggunakan susunan ini untuk mengembangkan peta resolusi tinggi variasi nombor salinan untuk 270 sampel HapMap. Matlamat mereka adalah untuk membina peta yang tepat dan tepat untuk sempadan kawasan genomik yang terjejas oleh CNV dan untuk menentukan tahap nombor salinan integer yang tepat untuk setiap segmen dalam setiap individu. Sempadan setiap CNV ditentukan menggunakan model Markov tersembunyi dan tahap nombor salinan integer dianggarkan menggunakan PCR kuantitatif. Untuk sampel NA19152, NA19159, NA19131, NA19153, NA19138, NA19223, NA19206 dan NA10847 mereka mengesan 191, 193, 183, 173, 172, 202, 185 dan 148 wilayah CNV, masing-masing, dengan nombor salinan sama dengan 0, 1, 3 atau 4. Jadual nombor salinan DNA yang dianggarkan dalam [7] telah dimuat turun dari laman web Nature Genetics. Keputusan yang ditunjukkan dalam Rajah 1i,g diperolehi menggunakan median data EMRC yang dinormalisasi untuk menyalin nombor 2 daripada tujuh sampel keturunan Yoruba untuk kawasan genomik, manakala keputusan yang dilaporkan dalam Rajah 1h, j diperoleh menggunakan nisbah EMRC antara tujuh sampel keturunan Yoruba dan sampel NA10847 untuk kawasan genomik ini. Untuk menilai hubungan linear antara kawasan RC dan CNV, kami mengira pekali korelasi Pearson.

Algoritma panggilan

Untuk mengklasifikasikan setiap ruas yang disegmentasikan sebagai salah satu daripada lima keadaan nombor salinan diskrit (penghapusan dua salinan, penghapusan satu salinan, pendua satu salinan, penguatan satu salinan atau penguatan beberapa salinan) kami menggunakan algoritma FastCall [36], yang kami kembangkan untuk mengklasifikasikan data array-CGH. Prosedur panggilan FastCall adalah algoritma berdasarkan model campuran, yang dapat digunakan untuk mengklasifikasikan setiap ruas yang tersegmentasi sebagai salah satu daripada lima keadaan salinan yang telah ditentukan: kehilangan dua kali, kehilangan, neutral, keuntungan atau keuntungan berganda. Prosedur panggilan kami memodelkan min setiap segmen sebagai campuran lima taburan normal terpotong dan juga boleh mengambil kira heterogeniti sampel menggunakan parameter selular c (lihat Fail tambahan 1 untuk butiran lanjut). Algoritma mengambil sebagai input tahap min setiap segmen m = (m1,m2,…,m i,…,m N), dikenal pasti oleh algoritma HSLM dan memberikan kebarangkalian bahawa segmen (min) tergolong dalam keadaan tertentu.

Alat EXCAVATOR

Semua algoritma dan kaedah yang diterangkan di sini telah dibungkus dalam perisian EXCAVATOR. EXCAVATOR adalah koleksi kod Perl, Bash, R dan Fortran. Rajah 5 ialah perwakilan skematik langkah aliran kerja EXCAVATOR. Dibutuhkan sebagai fail input BAM dan memberikan angka output untuk data mentah dan dinormalisasi, plot hasil segmentasi dan panggilan dan senarai CNV yang dikesan sebagai fail teks yang dibatasi tab. Pakej ini dapat menganalisis sampel dengan dua reka bentuk eksperimen yang berbeza: ‘pooling’ dan ‘somatic’. Dalam skema penyatuan, setiap sampel ujian dibandingkan dengan rujukan gabungan yang diperoleh dengan menjumlahkan jumlah bacaan untuk setiap ekson di semua sampel kawalan. Dalam skema somatik, setiap sampel ujian dibandingkan dengan kawalan sepadannya. Alat EXCAVATOR boleh dijalankan pada mana-mana sistem UNIX (desktop dan stesen kerja). Pada komputer desktop dengan CPU 2.5-GHz dan RAM 8 GB, diperlukan empat jam untuk menganalisis sepuluh sampel WES yang diuraikan pada 60 ×. Alat EXCAVATOR boleh didapati secara percuma dari [52].

Aliran kerja EXCAVATOR. Fail BAM bagi kedua-dua sampel ujian dan kawalan diproses melalui SAMtools dan skrip R untuk pengiraan EMRC. Selepas pengiraan EMRC, EXCAVATOR membetulkan data untuk kandungan GC, kebolehpasaran dan ukuran exon. Selepas penormalan, kiraan bacaan ternormal (NRC) untuk setiap sampel disusun mengikut mod analisis (penghimpunan atau somatik) yang dipilih oleh pengguna: mod pengumpulan untuk membandingkan satu sampel kepada kumpulan kawalan biasa, mod somatik untuk membandingkan satu sampel dengannya. kawalan normal yang sepadan. Akhirnya, HLSM dan FastCall digunakan untuk data yang dinormalisasi dan hasilnya disediakan sebagai fail teks yang dibatasi tab (format panggilan varian, format VCF dan BED). HSLM, model tahap pergeseran heterogen RC, jumlah baca.

Set data populasi

Genom bagi kesemua 27 individu telah dijujukan oleh 1000 Genomes Project Consortium dan data telah dimuat turun daripada [53] sebagai fail BAM. Data pertama kali disaring dan dinormalkan seperti yang dilaporkan dalam file Tambahan 1 dan kemudian dianalisis menggunakan HSLM diikuti oleh algoritma FastCall dengan parameter lalai (lihat Fail tambahan 1 untuk lebih jelasnya).

Set data melanoma

Untuk set data melanoma, semua sampel tumor dan normal telah ditangkap menggunakan kit pengayaan sasaran yang sama (kit Agilent SureSelect Human All Exon 50 Mb) dan disusun, satu sampel setiap lorong, dalam larian GAIIx akhir berpasangan 76-bp, dengan itu memperoleh kedalaman min pada sasaran 43 × (julat 32 × hingga 54 ×) (lihat Jadual 1 dan Fail tambahan 1: Jadual S3). Data penjujukan Exome boleh didapati di Arkib Baca Urutan di bawah aksesi ERP001844. Bacaan WES daripada 12 sampel telah diselaraskan dengan genom rujukan manusia hg19 melalui penjajaran BWA, kemudian ditapis, dinormalkan dan dianalisis oleh algoritma HSLM dan FastCall dengan parameter lalai (lihat Fail tambahan 1). Oleh kerana kami tidak mempunyai sampel normal autologous untuk kawalan yang sesuai, bacaan WES dari enam sampel darah normal dikumpulkan dan digunakan sebagai garis dasar rujukan umum (lihat Fail tambahan 1).

12 sampel yang sama diprofilkan menggunakan platform Affymetrix 250K SNP Array dan intensiti isyarat diperoleh oleh perisian GCOS dan dinormalisasi dengan perisian CNAG. Data garis sel melanoma dibandingkan dengan kumpulan rujukan umum yang terdiri daripada enam sampel darah normal. Nilai nombor salinan SNP nisbah log2 ternormal yang dijana untuk setiap sampel tumor telah dibahagikan menggunakan algoritma segmentasi SLM dan prosedur panggilan FastCall digunakan untuk mengklasifikasikan semua kawasan genomik yang tersegmentasi ke dalam keadaan nombor salinan yang ditentukan (lihat Fail tambahan 1).

Set data ketidakupayaan intelektual

Kedua-dua sampel ID ditangkap menggunakan kit Illumina Truseq Target Enrichment yang sama dan diuraikan sebagai bacaan berpasangan-hujung 100-bp dengan liputan dasar rata-rata 63 × menggunakan platform Illumina HiSeq2000 (lihat Jadual 1 dan fail Tambahan 1: Jadual S4). Data penjujukan Exome boleh didapati di Arkib Baca Urutan di bawah aksesi ERP001831. Data WES bagi individu sihat keturunan Eropah yang dijujukan oleh [39] dihasilkan oleh platform penangkapan dan penjujukan exome yang sama yang digunakan untuk dua sampel ID (kit Pengayaan Sasaran Illumina Truseq dan platform Illumina HiSeq2000). Bacaan daripada tiga sampel telah diselaraskan dengan genom rujukan manusia hg19 oleh penjajar BWA, kemudian ditapis, dinormalkan dan dianalisis oleh algoritma HSLM dan FastCall dengan parameter lalai (lihat Fail tambahan 1).

Perbandingan algoritma

Kami membandingkan algoritma kami dengan tiga pakej perisian yang diterbitkan sebelum ini: ExomeCNV [25], CoNIFER [26] dan XHMM [27]. Kami memuat turun pakej ExomeCNV R versi 1.4 dari [54]. Kami menggunakan ExomeCNV dengan parameter lalai: kepekaan dan kekhususan ditetapkan pada 0,9999 untuk ekson (memaksimumkan kekhususan) dan 0,99 untuk panggilan (pilihan 'auc'), dan kadar campuran ditetapkan pada nilai 0,5 (walaupun semua sampel yang digunakan dalam ini kerja tidak mempunyai campuran biologi, kami mendapati bahawa tetapan ini mengurangkan bilangan panggilan positif palsu). Kami memuat turun CoNIFER 0.2.2 daripada [55]. Selepas menjalankan analisis dengan − − skrin_plot pilihan, kami memeriksa plot komponen dan kami memutuskan untuk menjalankan analisis CoNIFER akhir dengan tetapan untuk membuang dua komponen penguraian nilai tunggal (- - svd 2). XHMM dimuat turun dari [56]. Alat XHMM telah digunakan pada tiga set data menggunakan tetapan parameter lalai dan mengikut arahan pada [57].


Tonton video: Variasi Gerak Manipulatif (Februari 2023).