Didelės apimties epigenominių duomenų rinkinių įterpimas, siekiant sistemingai komentuoti įvairius žmogaus audinius | gamtos biotechnologijos

Didelės apimties epigenominių duomenų rinkinių įterpimas, siekiant sistemingai komentuoti įvairius žmogaus audinius | gamtos biotechnologijos

Anonim

Dalykai

  • Kompiuterinės platformos ir aplinka
  • Epigenomika

Anotacija

Turint šimtus epigenominių žemėlapių, atsiranda galimybė išnaudoti koreliuotus epigenetinių signalų pobūdį tiek žymenyse, tiek pavyzdžiuose, kad būtų galima numatyti didelio masto papildomus duomenų rinkinius. Mes imamės implantacijos epigenome, panaudodami tokias koreliacijas per regresijos medžių ansamblį. Priskyrėme 4315 aukštos skiriamosios gebos signalų žemėlapius, iš kurių 26% taip pat stebimi eksperimentiškai. Apskaičiuoti signalų takeliai rodo bendrą panašumą su stebimais signalais ir nuoseklumu pranoksta eksperimentinius duomenų rinkinius, genų anotacijų atsigavimą ir ligų, susijusių su liga, praturtėjimą. Naudojame sąlyginius duomenis norėdami aptikti žemos kokybės eksperimentinius duomenų rinkinius, surasti genomo vietas su netikėtais epigenominiais signalais, apibrėžti naujų bandymų prioritetinius ženklus ir apibrėžti chromatino būsenas 127 etaloninėse epigenomose, apimančiose įvairius audinius ir ląstelių tipus. Mūsų sąlyginiai duomenų rinkiniai pateikia išsamiausią komentarą apie žmonių reguliavimo regionus iki šiol, o mūsų požiūris ir „ChromImpute“ programinė įranga yra naudingas papildymas didelio masto eksperimentiniam epigenominės informacijos žemėlapių sudarymui.

Pagrindinis

Genomo masto epigenetinės informacijos žemėlapiai, įskaitant histono modifikacijas, DNR metilinimą ir atvirą chromatiną, pasirodė kaip galinga priemonė audinių ir ląstelių tipui būdingiems numatomiems funkciniams elementams atrasti ir įžvalgai apie genetinę ir epigenetinę ligos 1, 2 bazę , 3, 4, 5, 6, 7, 8, 9 . Atsižvelgiant į dinaminį epigenominių duomenų rinkinių pobūdį skirtingose ​​ląstelių rūšyse ir sąlygose, atradimų galia padidėja, plačiau aprėpiant įvairius mėginius. Tačiau dėl sąnaudų, laiko ar mėginio medžiagos prieinamumo ne visada įmanoma pažymėti kiekvieną žymėjimą kiekviename audinyje, ląstelių tipe ir dominančioje būklėje. Todėl analizės, kurioms atlikti reikalingos užpildytos pavyzdžių ir ženklų duomenų matricos, kartais nusprendžia palyginti tik tuos ženklus, kurie paprastai buvo pažymėti skirtinguose pavyzdžiuose, todėl žymės ar pavyzdžiai, kurie nebuvo visiškai aprėpti, buvo pašalinti. Papildoma, dažnai nepakankamai vertinama problema yra ta, kad net tada, kai ženklas yra pavaizduotas pavyzdyje, paprastai tai daroma su keliais (jei tokių yra) pakartojimais, o tai gali supainioti biologinius palyginimus dėl eksperimentinio kintamumo. Ši padėtis pablogėja analizuojant didelius duomenų rinkinių rinkinius, kurių vien tik skaičius padidina tikimybę, kad bus pašalinių žemesnės kokybės duomenų rinkinių. Galiausiai, net atliekant aukštos kokybės eksperimentus, gaunamas signalo lygio įverčių patikimumas gali būti sumažintas dėl nepakankamo sekos gylio, ypač plačiai paskirstytų ženklų, apimančių didelę genomo dalį.

Norėdami išspręsti šiuos iššūkius, sukūrėme „ChromImpute“, skirtą didelės apimties epigenominių duomenų rinkinių įtraukimui. „ChromImpute“ naudoja epigenominių žemėlapių rinkinį (pvz., Tuos, kuriuos sukūrė NIH veiksmų planas „Epigenomics“ ir „ENCODE“ projektai 2, 10 ), kad būtų galima sugeneruoti genomo masto epigenominių signalų pėdsakų prognozes (pvz., Histonų žymes, DNR prieinamumą, DNR metilinimą, RNR-seką ar bet kokia koordinatėmis pagrįsta signalo trasa). Mes panaudojome „ChromImpute“, norėdami nuspėti histono modifikacijų signalo pėdsakus, DNR prieinamumą ir RNR-seką 25 bazių poros (bp) skiriamąja geba ir viso genomo bisulfito DNR metilinimo duomenis vieno nukleotido skiriamąja geba (mes visus šiuos duomenų tipus vadiname ' ženklai 'už paprastumą). Mes iš viso anuliavome 127 referencinius epigenomus, iš jų 111, kuriuos sukūrė „Roadmap Epigenomics“ projektas 10, ir 16, kuriuos sukūrė „ENCODE“ projektas 2, 3 . Tai apima įvairius ląstelių tipus ir audinius (paprastumo dėka mes juos vadiname „pavyzdžiais“, nors kai kurie pamatiniai epigenomai buvo pagrįsti keliais nepriklausomais mėginiais 10 ).

Mes pateikiame sistemingą sąlyginių duomenų vertinimą ir parodome, kad implicitiniai pavyzdžio ženklo duomenys geriau atitinka atitinkamus stebėtus duomenis nei stebimi duomenys iš bet kurio kito mėginio. Mes taip pat pademonstruojame, kaip stebėtų ir sąlyginių duomenų palyginimas suteikia šiuolaikinę duomenų kokybės kontrolės metriką, kuri papildo ir pranoksta esamus metodus. Net tada, kai pavyzdys yra eksperimentiškai aprašytas pavyzdyje, mes parodome, kad sąlyginiai duomenys paprastai yra nuoseklesni, tvirtesni ir tikslesni, nes duomenų sverto informacija iš šimtų duomenų rinkinių yra tokia, kuri yra atspari atskirų eksperimentų metu kylančiam triukšmui. „Ankstesni lūkesčiai“ dėl viso genomo signalo, kurį suteikia implicitiniai duomenys, taip pat gali būti naudojami kartu su stebimais duomenų rinkiniais, kad būtų galima daryti išvadą apie stebėtinas signalo vietas aukštos kokybės mėginiuose. Mes taip pat naudojame ženklų pogrupių įskaitymo kokybę teikdami rekomendacijas ir įžvalgas dėl eksperimento prioritetų nustatymo. Galiausiai mes naudojame 12 sąlyginių ženklų rinkinį 127 etaloninėse epigenomose, kad nuspėtume ir komentuotume 25 chromatino būsenų rinkinį, pateikdami išsamiausią iki šiol išsamią informaciją apie epigenominę būseną žmogaus genome.

Rezultatai

ChromImpute metodas ir ankstesnis darbas dėl imputacijos

Anksčiau imputacija buvo tiriama daugelyje bioinformatikos parametrų. Atliekant mikro matricų eksperimentus, konkrečiuose genuose buvo numatytos trūkstamos genų ekspresijos vertės 11 . Atliekant bendrų genomo asociacijų tyrimus (GWAS), paprastai nustatomos trūkstamo genotipo vertės vieno nukleotido polimorfizmams (SNP), kurie nėra tiesiogiai ištirti, panaudojant bendrą haplotipo struktūrą 12 . Epigenominių duomenų rinkinių DNR metilinimo ir histono modifikavimo duomenų rinkiniai buvo numatyti remiantis informacija apie DNR seką 13, 14, 15, tačiau statinis genomo sekos pobūdis riboja galimybę generuoti ląstelių tipui būdingas prognozes mėginiams, kurie anksčiau nebuvo naudojami mokymas, nes tam tikro ženklo vairavimo motyvai skirtinguose pavyzdžiuose dažnai skiriasi. Kalbant apie DNR metilinimą, imputacija buvo atlikta naudojant seka pagrįstas savybes ir histono modifikavimo duomenis iš vieno mėginio 16, 17, mažesnės skiriamosios gebos testus kartu su sekos informacija ir kitomis anotacijomis, norint nuspėti aukštos skiriamosios galios DNR metilinimą 18, arba tariamus filogenetinius ryšius tarp ląstelių tipai 19 . Histono modifikavimui ir kitiems chromatino žymenims mes ir kiti sukūrėme metodus, kaip nustatyti chromatino būsenas, pagrįstas daugybiniais ženklais, net tais atvejais, kai trūksta duomenų 20, 21, 22, tačiau jie nesistengia įvesti tikrojo signalo. trūkstamų žymių. Buvo sukurti keli kiti metodai, skirti modeliuoti histono žymių ryšį su išraiška arba su kitais ženklais viename pavyzdyje 23, 24, 25, 26, kurie kartais buvo naudojami imputacijai ribota apimtimi, tačiau neatsižvelgė į visos imties informaciją . Praktiškai tam tikro tipo ląstelėmis besidomintys tyrimai kartais naudoja susijusio tipo ląstelių duomenis, kurie gali būti vertinami kaip vienas paprastas būdas įskaityti.

Čia pasirenkamas ansamblio regresija paremtas požiūris į epigenominę imputaciją. Mes įtraukiame kiekvieną tikslinį ženklą kiekviename tiksliniame pavyzdyje atskirai, sujungdami informaciją iš daugybės duomenų rinkinių, kurie buvo eksperimentiškai nustatyti, tačiau nenaudodami jokių duomenų apie taikinio ženklą tikslinių ląstelių tipe (1a pav. Ir papildomas 1 pav.). Mes naudojame dvi klasių ypatybes (1d pav.).

Image

a ) Stebėtų ir sąlyginių duomenų rinkinių, esančių 127 etaloninėse epigenomose („mėginiai“), įskaitant 111 iš „Kelių žemėlapio epigenomikos projekto“ (1–111 eilutės), sugrupuotų ir nuspalvintų pagal ląstelių / audinių tipą, ir dar 16 iš „ENCODE“ (112 eilutės) matricų. –127), nurodant epigenomo identifikatorių (EID) ir trumpą mėginio / audinio aprašą. Remiantis eksperimento aprėptimi ir imputacijos strategija, epigenominės žymės (viršuje) yra sugrupuotos pagal 1–3 pakopas ir RNR-sek bei DNR metilinimą (DNR metilas). Juodos punktyrinės rodyklės viršuje žymi E017 duomenų rinkinius, pavaizduotus b (horizontali rodyklė), ir H3K36me3 duomenų rinkinius, parodytus c (vertikali rodyklė), iliustruojančius du koreliacijų matmenis, naudojamus „ChromImpute“ ir parodytus d . PB, periferinis kraujas; Mesench., Mesenchymal; kulto cl, kultivuotos ląstelės. b ) Epigenominių ženklų, esančių tame pačiame pavyzdyje, koreliacija yra viena iš dviejų požymių klasių, naudojamų impregnuoti epigenomą. Parodytos E017 pavyzdžio duomenų bazės, iliustruojančios jų labai koreliuojamą pobūdį, palyginusios stebimą H3K4me1 signalą iš E017 (pilka), sąlyginius duomenis (raudona), kurie buvo numatyti nenaudojant stebėtų duomenų, ir kitų ženklų stebėtus pėdsakus (mėlyna). ), užsakyta remiantis jų koreliacija su H3K4me1. Įrašius H3K4me1 E017 (raudona), nenaudojami stebimi duomenys (pilka), o vietoj to naudojami kiti pavyzdžiai, norint sužinoti ryšius tarp H3K4me1 ir kitų ženklų. DNR metilinimo vertės žemiau horizontalios linijos rodo trūkstamus duomenis. Pirminiam H3K4me1 įskaitymui nebuvo naudojami visi rodomi ženklai, nes 1 pakopos ženklams priskaičiuoti naudojami tik 1 pakopos ženklai. c ) Keli H3K36me3 signalo takeliai iš visų pavyzdžių iliustruoja labai koreliuojamą tam tikro ženklo pobūdį tarp mėginių, kurie naudojami antrosios klasės požymiams, naudojamiems epigenomui įterpti. Šiame pavyzdyje naudojamas tas pats regionas, kuris naudojamas b punkte, kad būtų galima palyginti stebėtą H3K36me3 signalą E017 (pilka), H3K36me3 keliuose kituose pavyzdžiuose (mėlyna), kurie sudaro labai informatyvių H3K36me3 įvesties ypatybių pagrindą E017 (raudona). Stebimi takeliai (mėlyni) yra suskirstyti pagal jų visuotinę koreliaciją su stebėtu H3K36me3 signalu E017, nors „ChromImpute“ šios informacijos neturėjo, kai įvesdami H3K36me3 E017, ir vietoje to nustatė mėginio panašumą, pagrįstą kitais ženklais, tiek globaliu, tiek vietiniu kiekvienoje vietoje, ir tada panaudojo H3K36me3 signalą iki dešimties proksimaliausių pavyzdžių kiekvienam panašumo apibrėžimui apskaičiuoti individualias kiekvieno ansamblio prognozės ypatybes ( d, dešinėje). d ) Signalų kelio įtraukimo strategija naudojama naudojant ypatybes, kurios išnaudoja koreliacijas tarp žymenų tame pačiame pavyzdyje (kairėje) ir koreliacijas tarp pavyzdžių tam tikram žymeniui (dešinėje). Manome, kad nėra informacijos apie taikinio ženklą tiksliniame pavyzdyje (pilki taikiniai). Taigi, mes išmokstame ryšius tarp ženklų (kairės pusės) kituose pavyzdžiuose (E1 pavyzdžio stulpelis nenaudojamas) ir išmokstame ryšius tarp pavyzdžių (dešinėje pusėje), naudodamiesi kitais ženklais, iš kurių tada apskaičiuojame tų pačių ženklų ypatybes. Ansamblio prognozuotojas, jungiantis bruožų ( b ) ir pavyzdžių ( c ) bruožus, mokomasi tik kituose pavyzdžiuose (viršuje), o tiksliniame pavyzdyje esantys ženklai naudojami tik realiai pritaikius apmokytus ansamblio numatiklius, kad būtų galima apskaičiuoti priskirtąjį. signalus.

Visas dydis

  1. Informacija apie tą patį pavyzdį (skirtingo ženklo) (1b pav.): Pirmoje funkcijų klasėje naudojama informacija iš kitų ženklų, užfiksuotų tiksliniame pavyzdyje, signalo tiek tikslo vietoje, tiek gretimose vietose.

  2. Informacija apie tuos pačius ženklus (skirtingi pavyzdžiai) (1c pav.): Antroji ypatybių klasė naudoja informaciją iš konkretaus dominančio ženklo signalo tikslinėje vietoje panašiausiuose pavyzdžiuose. Panašūs pavyzdžiai apibrėžiami atsižvelgiant į panašumą su ženklų, kurie buvo susieti tiksliniame pavyzdyje, signalu tiek lokaliai, tiek globaliai. Šios klasės ypatybės yra veiksmingos prognozės, kurias būtų galima atlikti naudojant artimiausio K kaimyno metodą, atsižvelgiant į įvairias K reikšmes ir atstumo funkcijas.

Kadangi tiksliniame pavyzdyje nėra treniruočių duomenų apie taikinio ženklą, mes sužinosime ryšį tarp funkcijų ir taikinio ženklo naudodami kitus pavyzdžius, kuriuose yra taikinio ženklas. Mes naudojame regresinius medžius 27, nes jie gali valdyti netiesiškumus (įskaitant apribojimą, kad signalo reikšmės nėra neigiamos), palaiko derinių savybes tarp savybių ir yra gana greitai treniruojami. Kiekvienos tikslinės imties kiekvieno tikslinio ženklo numatymas grindžiamas prognozuotojo rinkinio vidurkiu, kuris apskaičiuoja vertes, gautas iš regresijos medžių, treniruotų kiekviename pavyzdyje, kuriame yra tikslinis ženklas, ir taip sumažinamas bet kokio atskiro prognozuotojo šališkumo poveikis.

4 315 duomenų rinkinių įskaitymas 127 pamatinėse epigenomose

Mes pritaikėme „ChromImpute“ 127 referencinių epigenomų rinkiniui, įskaitant 111, aprašytą „NIH Roadmap Epigenomics“ projekto 10 ir 16, profiliuotą pagal ENCODE projektą 2, 3 (1a pav.). Šie apima įvairius audinius ir ląstelių tipus, įskaitant embrionines kamienines ląsteles (ESC), sukeltas pluripotencines kamienines ląsteles (iPSC), iš ESC gautas ląsteles, kraujo ir imunines ląsteles, odą, smegenis, riebalinius riebalus, raumenis, širdį, lygiuosius raumenis, virškinimą, kepenis., plaučiai ir kiti.

Visose 127 pamatinėse epigenomose eksperimentiškai buvo profiliuotos tik penkios „šerdies“ histono modifikavimo žymės. Tai yra su promotoriumi susijęs H3K4me3, su stiprikliais susijęs H3K4me1, su policomb represijomis susijęs H3K27me3, su transkripcija susijęs H3K36me3 ir su heterochromatinais susijęs H3K9me3. Kintami 34 ženklų pogrupiai buvo profiliuoti skirtingose ​​epigenomose, įskaitant 30 histonų modifikacijų (11 histonų metilinimo žymių, 18 histonų acetiliacijos ženklų ir H3T11ph), H2A.Z histono variantą, DNR prieinamumą (padidėjusio jautrumo DNase I profiliui), DNR metilinimo duomenis (profiliuoti viso geno bisulfito sekvenavimo (WGBS) ir RNR-seq duomenimis.

Remdamiesi šiais eksperimentiškai profiliuotais („stebimais“) duomenų rinkiniais, mes priskyrėme 31 ženklą, stebėtą mažiausiai dviejose epigenomose iš visų 127 epigenomų, o trys žymės, pažymėtos tik vienoje epigenomoje, likusiose 126 epigenomose. Iš viso mes sukūrėme 4 315 duomenų rinkinius, pagrįstus imputacija, iš kurių tik 1 122 (26%) taip pat buvo eksperimentuojami, o 3 193 (74%) buvo prieinami tik kaip sąlyginiai duomenys. Visų ženklų signalo pėdsakai buvo priskiriami 25 bp skiriamąja geba (121 mln. Prognozių vienam takeliui), išskyrus DNR metilinimą, kuris buvo įvestas esant vieno nukleotido skiriamąja geba kiekvienai iš 28 milijonų CpG. Visose žymėse, pavyzdžiuose ir vietose mes iš viso sugeneravome 526 milijardus numatytų signalo verčių.

34 epigenominius ženklus suskirstėme į keturias klases pagal mėginių, kuriuose jie buvo eksperimentuojami, skaičių ir mūsų įskaitymo strategiją (papildomas 2 pav.).

  1. 1 pakopos žymėjimai buvo plačiai suskirstyti į pavyzdžius, buvo naudojami įskaityti visus kitus duomenų rinkinius ir buvo priskiriami naudojant tik 1 pakopos ženklus. Jas sudaro H3K4me1, H3K4me3, H3K36me3, H3K27me3, H3K9me3, H3K27ac, H3K9ac ir DNR prieinamumas.

  2. 2 pakopos ženklai buvo plačiai priskiriami tik „ENCODE“ pavyzdžiams, buvo naudojami 2 ir 3 pakopų ženklams įskaityti ir buvo priskiriami naudojant tik 1 ir 2 pakopų ženklus. Jie susideda iš H3K4me2, H3K79me2, H4K20me1 ir H2A.Z.

  3. 3 pakopos ženklai buvo riboti, jie buvo naudojami tik 3 lygio ženklams įskaityti ir buvo priskiriami naudojant visas tris pakopas. Jie susideda iš likusių 20 histonų modifikavimo žymių.

  4. DNR metilinimo ir RNR-seq duomenų rinkiniai buvo vertinami atskirai kaip dizaino pasirinkimas dėl jų labai skirtingos prigimties. RNR-seq duomenų rinkiniai buvo priskiriami naudojant tik 1 pakopos žymenis ir kitus RNR-seq duomenų rinkinius ir panašiai kaip DNR metilinimo duomenų rinkinius, naudojant tik 1 pakopos žymenis ir kitus DNR metilinimo duomenų rinkinius.

Šis pakopinis požiūris į histonų žymenis ir DNR prieinamumo duomenų rinkinius leido mums apriboti galimas paklaidas, atsirandančias dėl mažesnio 2 ir 3 pakopų ženklų mėginių skaičiaus (tik minimaliai sumažinant turimą informaciją prognozėms).

Sąlyginiai duomenų rinkiniai efektyviai fiksuoja trūkstamus ženklus

Kaip pradinę kontrolę, vizualiai apžiūrėję, įvertinome palyginamų sąlyginių ir stebimų duomenų rinkinių porų panašumo lygį, naudodamiesi devyniais atsitiktinai parinktais 200 kb regionais ir 2000 atsitiktinai parinktais 25 bp regionais. Kiekviename iš devynių plačių regionų atsitiktine tvarka pasirinkome vieną pavyzdį, kuriame žymė taip pat buvo eksperimentiškai profiliuota ir vizualizuota sąlyginė bei detaliai stebėta trajektorija (2a pav. Ir papildomas 3 pav.). 2000 mėginių mes sukūrėme tankią šilumos schemą, rodančią stebimo ir sąlyginio ženklo signalus kiekviename mėginyje, kuriame abu buvo (2b pav. Ir papildomas 4 pav.). Abu vizualiniai palyginimai parodė tvirtą stebimo ir numanomo signalo suderinamumą, sėkmingai atgaunant didelę skiriamąją gebą epigenominius požymius plačiuose regionuose (2a pav. Ir papildomas 3c pav.) Ir specifiniam audiniui (2b pav.). Be šiame darbe pateiktų vizualizacijų, implikuoti ir stebimi maršrutai visam genomui pateikiami per viešus takelių centrus „WashU Epigenome“ naršyklėje (//epigenomegateway.wustl.edu/browser/) 28 ir UCSC „Genomo naršyklė 29“ .

Image

( a ) Vieno iš atsitiktinai parinktų 200 kb regionų vizualizacija parodo stebimos (mėlynos) ir sąlygotos (raudonos) signalo trajektorijų didelės skiriamosios gebos atitikimą. Numatyti takeliai generuojami 1 bp skiriamąja geba DNR metilinimui ir 25 bp skiriamąja geba visoms kitoms žymoms ir treniruojami nenaudojant stebimo takelio. Kiekvienam žymeniui (eilutei) parodome atsitiktinai parinktą pavyzdį (EID iš 1a pav.), Kuriame taip pat yra stebimi duomenys palyginimui (šviesiai violetiniai įrašai 1a pav.). Šis regionas buvo pasirinktas iš devynių atsitiktinai parinktų 200 kb regionų (papildomas 3 pav.) Kaip tas, kurio signalas yra didžiausias per visus ženklus. Didesnis 1, 5 Mb kontekstas ir 5 kb apybraižos pavyzdys yra parodyti papildomame 3c paveiksle, iliustruojančiame kelių skyrių suderinamumą. b ) 2000 atsitiktinai parinktų 25 bp regionų (stulpelių) ir jų signalo (geltonos, aukštos; mėlynos, žemos) signalo vizualizavimas iki 127 mėginių (eilutės, spalvotos, kaip 1a pav.) 1 pakopos ženklams (geltona) šoninė juosta) ir RNR seq ir DNR metilinimas (žalia šoninė juosta) (2 ir 3 pakopų žymės parodytos papildomame 4 pav.). Kiekvieno ženklo eilutės ir stulpeliai yra sugrupuojami atskirai, kad būtų paryškinta struktūra, pagrįsta stebimais duomenimis (viršuje), ir sąlyginiai duomenys (generuojami nenaudojant atitinkamo stebimo duomenų rinkinio) yra pateikiami toliau ta pačia tvarka, parodant aiškų panašumą. WGBS, viso genomo bisulfito sekos nustatymas. c ) Kiekybinis pastebėto „ChromImpute“ (raudonos) signalo koreliacijos palyginimas, įvertinant visų kitų pavyzdžių žymeklio signalą (žalia) ir geriausiu atveju parenkant vieną pavyzdį (mėlyna), o tai nėra realus metodas, kai taikinys ženklo signalas nėra žinomas, nes jo prireiktų norint nustatyti geriausią vienetą. Vidutinė koreliacija apskaičiuojama remiantis visais mėginiais, kuriems yra stebimų ir numanomų signalų. „ChromImpute“ rodo žymiai aukštesnę stebimų signalų koreliaciją nei du alternatyvūs metodai (įskaitant nerealų geriausią atvejį) visoms žymėms. Dėl papildomų palyginimų skaitykite papildomus 5–7 paveikslus. d ) Vidutinis AUC atkuriant bazes, kurias apima siauras didžiausias iškvietimas pagal stebimus duomenis 10, kai rangavimas atliekamas pagal numatomą signalą.

Visas dydis

Mes taip pat įvertinome „ChromImpute“ galimybę numatyti trūkstamus ženklus, naudodamiesi septyniais kiekybiniais rodikliais: (i) stebėjimo ir sąlyginių duomenų koreliacija visame genome („GWcorr“, 2c pav.); ii) sąlyginių ir stebimų duomenų rinkinių sutapimas viršutiniame 1% 25 bp didžiausių signalų („Match1“); iii) didžiausio 1% procento procentinė dalis, nustatyta viršutinėse 5% sąlyginėse 25 bp dėžėse („Catch1obs“); iv) viršutinės 1% procentinės dalies procentinė dalis, nustatyta viršutinėse 5% stebimose 25 bp dėžėse („Catch1imp“) (papildomi 5–7 pav.); v) 1% stebimų viršutinių 1% ir vi) 1% impulsinių 25 bp dėžių atkūrimas, atsižvelgiant į visą kito signalo diapazoną, naudojant imtuvo darbinių charakteristikų (ROC) kreivės plotą po kreivės (AUC). („AucObs1“ ir „AucImp1“, papildomi 5–7 pav.); (vii) ir bazių, padengtų stebimais didžiausiais skambučiais, AUC atkūrimas, remiantis visu sąlyginių duomenų signalo diapazonu („CatchPeakObs“, 2d pav. ir papildomi 6–7 pav.). Šie 1% ir 5% procentai užfiksavo chromatino būsenų įvairovę kiekviename žymenyje (papildomas 8 pav.) Ir užfiksavo daugumą aukšto signalo turinčių vietų (2b pav. Ir papildomas 4 pav.; Taip pat žr. Toliau aptariamus genomo signalo pasiskirstymus). ). DNR metilinimui mes panaudojome „GWcorr“ ir „Methyl25“. Anksčiau pasiūlytas atitikties matas, pagal kurį dvi DNR metilinimo vertės buvo suderintos, jei jos buvo 0, 25 viena nuo kitos 30, nes dėmesys mažiausiam signalo procentui yra mažiau reikšmingas ( nes didžioji dauguma CpG dinukleotidų žmogaus genome yra labai metilinami).

Norėdami pateikti „ChromImpute“ našumo perspektyvą kiekvienoje metrikoje, mes ją palyginome su dviem griežtomis bazinėmis linijomis. Pirmasis pradinis scenarijus, „BestSingle“, prognozuoja trūkstamą žymę, remiantis panašiausio tikslinio ženklo eksperimentinio duomenų rinkinio signalu, remiantis konkrečia metrika, išmatuota per bet kurį kitą mėginį. Šis pradinis scenarijus yra nerealus kaip įskaitymo metodas, nes pats panašiausias eksperimentas iš anksto nežinomas ir jo negalima pasiekti „ChromImpute“ ar jokiame numatymo metode. Antrasis atskaitos taškas, „SignalAvg“, numato visų kitų mėginių vidutinį tikslinio ženklo signalą ir gali būti laikomas alternatyviu imputacijos metodu.

„ChromImpute“ parodė tvirtą stebėtų duomenų rinkinių atstatymą tiek bendrojo veikimo, tiek abiejų griežtų bazinių verčių atžvilgiu. „GWcorr“ metrikoje „ChromImpute“ parodė vidutiniškai 0, 68 koreliaciją viename ženkle (palyginti su „BestSingle“ ir „SignalAvg“ - 0, 50, 2c pav.), Aplenkdama „BestSingle“ 91% duomenų rinkinių ir „SignalAvg“ - 99% duomenų rinkinių vidutiniškai. „ChromImpute“ parodė, kad AucObs1 (palyginti su 0, 84 ir 0, 88, 5 papildomas 5 pav.) Vidutiniškai pažymėjo AUC = 0, 95, o AUC = 0, 96 - „CatchPeakObs“ (palyginti su 0, 83 ir 0, 88) (2 d pav.). Metil25 rodiklyje „ChromImpute“ 97% laiko pranoko „SignalAvg“ ir 76% laiko „BestSingle“.

Mes taip pat palyginome „ChromImpute“ su keliais papildomais imputavimo metodais. Pirmiausia įdiegėme „ChromImpute-LR“, naudodamiesi ta pačia ansamblio mokymo strategija, bet vietoj regresijos medžių, kad sujungtume ypatybes, tiesine regresija. „ChromImpute-LR“ veikimas buvo panašus arba geresnis nei „ChromImpute-LR“ 1 ir 2 pakopų, o žymiai geresni - DNR metilinimo, nors „ChromImpute-LR“ rodikliai buvo šiek tiek geresni kai kurių 3 pakopos ženklų, kurie turėjo mažiau mokymo duomenų rinkinių, atžvilgiu (papildomas pav. 9). Antra, 1 pakopos histonų žymėjimą ESC ir iPSC palyginome „ChromImpute“ su prognozuotoju, remdamiesi vidutinio vis didesnio šių beveik pakartojamų duomenų rinkinių skaičiaus vidurkiu (papildomas 10 pav.). Nuspėjamoji galia padidėjo vidutiniškai padauginus pakartojimų, tačiau „ChromImpute“ numatė geresnę nuspėjamąją galią nei dešimt beveik pakartojamų kai kurių ženklų ir trys beveik visų replikacijų pakartojimai (papildomas 10 pav.). Trečia, „ChromImpute“ taip pat aplenkė artimiausio kaimyno prognozuotojus pagal ženklą pagal vietinį ir bendrą atstumą, prognozuotoją treniravo tik viename pavyzdyje, o ne visame ansamblyje (papildomas 9 pav.), Ir prognozuotoją, pagrįstą to paties pavyzdžio aktyviųjų ženklų vidurkiais. nuspėti kitus aktyvius ženklus, taip pat ir represinius ženklus (papildomas 11 pav.), kiekvienu atveju palaikydami mūsų įskaitymo strategiją.

Padidėjęs patikimumas ir komentuojamų funkcijų atkūrimas

Nors ankstesnės analizės parodė, kad numanomi duomenų rinkiniai pagrįstai suderina stebimus duomenų rinkinius ir todėl gali būti naudingi, kai stebimų duomenų nėra, mes toliau tyrėme, ar sąlyginiai duomenų rinkiniai taip pat turi aiškių pranašumų, kurie daro juos vertingais, net jei yra stebimų duomenų rinkinių. Priežastinių duomenų rinkinių pranašumus gali sukelti dvi galimos priežastys: i) sąlyginiai duomenų rinkiniai yra pagrįsti daugelio eksperimentų informacijos derinimu, todėl jie gali būti patikimesni eksperimentiniam triukšmui ir kitiems trikdžiams nei stebimi duomenys; ii) derinant svarbią informaciją iš daugelio susijusių eksperimentų, numanomi duomenys gali pasiekti didesnį „efektyvų“ sekos nustatymo gylį ir tokiu būdu galimai didesnį signalo ir triukšmo santykį.

Mes panaudojome savybę, kuri su promotoriumi susijęs H3K4me3 dažnai lokalizuojasi šalia transkripcijos pradžios vietų (TSS), o kad su transkripcija susijęs H3K36me3 dažnai lokalizuojasi genų kūnuose. Apibrėžėme du rodiklius, kurie apibūdina stipriausio H3K4me3 signalo (esant 25 bp raiška) lokalizaciją per 2 kb anotacijos TSS („PromRecov“, 3a pav.) Ir stipriausią H3K36me3 signalą lokalizuotą genų kūnuose („GeneRecov“). 3b pav.), Naudojant AUC toje ROC kreivės dalyje, kurios klaidingo teigiamo rodiklio procentas yra 5% ar mažesnis (mes pirmiausia sutelkėme dėmesį į šią metriką, o ne į visą AUC), nes mes tikėjomės, kad daugelis anotuotų vietų nepažymės stebimos arba sąlyginius duomenis bet kuriame viename pavyzdyje, tačiau buvo gauti panašūs rezultatai, pagrįsti visu AUC (papildomas 12a, b pav.).

Image

( a, b ) Kiekybinis stebėtų (mėlynos) ir sąlyginės (raudonos) duomenų palyginimas atkuriant anotuotus promotorius ( a ) ir genų kūnus ( b ), remiantis plotu po ROC kreive iki 5% klaidingai teigiamo H3K4me3 signalo atkūrimo greitis ( y ašis) vietose, esančiose per 2 kb TSS ( a ), ir H3K36me3 signalo atkūrimas genų kūneliuose ( b ). Rodyklės rodo du vaisiaus smegenų pavyzdžius (E081 ir E082), kurių stebimų duomenų reikšmės yra labai skirtingos, ir tai rodo žymiai didesnį (ir nuoseklesnį) sąlyginių duomenų atsigavimą. FPR, klaidingai teigiamas rodiklis. ( c, d ) Sąlyginio (raudonojo) ir stebimo (mėlynojo) duomenų rinkinių signalo palyginimas, remiantis −log 10 P H3K4me3 verte, supančia TSS ( c ), ir H3K36me3 genų kūnuose ( d ). Sąlyginiai duomenys parodo žymiai nuoseklesnį visų duomenų rinkinių profilį, ypač dviejų vaisiaus smegenų mėginių (E081, E082), kurie rodo reikšmingus stebėtų duomenų skirtumus. e ) Visų mėginių genomo signalo koreliacijos palyginimas poromis, naudojant stebimus (viršutinius) ir sąlyginius (apatinius) duomenis apie H3K4me1, H3K27me3 ir DNase (papildomi ženklai parodyti papildomame 19 pav.) su mėginiais, išdėstytais ir nuspalvintais, kaip parodyta paveikslėlyje. 1a (kairioji šoninė juosta). Sąlyginiai duomenų rinkiniai geriau užfiksuoja biologinius ryšius tarp mėginių nei stebimi duomenų rinkiniai, nes jų koreliacijos struktūra aiškiai nubrėžia pluripotentines ląsteles, imunines ląsteles, suaugusiųjų smegenų ir kelių audinių grupes (1a pav.), Tuo tarpu stebimi duomenų rinkiniai yra daug mažiau koreliuojami net ir labai panašių mėginių atveju. f ) Plotas pagal ROC kreivę, skirtas klasifikuoti, ar dvi skirtingos eksperimentų poros priklauso tai pačiai grupei, kai poros klasifikuojamos pagal jų koreliaciją. 0.5 reikšmę galima gauti atsitiktinai atspėjus, o 1, 0 vertė yra didžiausias įmanomas balas. „Kita“ ir „kodavimas“ grupės nebuvo įtrauktos į šią analizę, kaip ir numanomos poros, kurių nebuvo stebėtuose duomenyse. Tai kiekybiškai rodo, kad sąlyginių sąlyginių duomenų rinkinių panašumas labiau atitinka mėginių biologines grupes.

Visas dydis

Mes nustatėme, kad sąlyginiai duomenys parodė geresnį anotacijos sutapimą, nei stebimi kiekvieno duomenų rinkinio duomenys, dažnai dideliu skirtumu (papildomas 13 pav.). Tiesą sakant, blogiausio našumo sąlyginis H3K4me3 duomenų rinkinys atliko geriau nei 96% stebimų H3K4me3 duomenų rinkinių, o blogiausio efektyvumo sąlyginis H3K36me3 duomenų rinkinys vertinimuose buvo geresnis nei 91% stebimų duomenų rinkinių (3a, b pav.). Kelių stebimų H3K36me3 duomenų rinkinių genų kūnų atsigavimas buvo tik šiek tiek didesnis nei atsitiktinis, tuo tarpu sąlyginių duomenų atveju atkūrimas buvo pastovus. Kadangi šie rezultatai grindžiami tik signalo reikšmių eiliškumu, bet kokia normalizavimo strategija, kuri išsaugotų eilės tvarka (pvz., Kiekybinis normalizavimas 31 ), šių rezultatų nepakeistų. Mes taip pat pastebėjome geresnį bendrą sutikimą su komentuojamomis savybėmis, kai buvo svarstomi maksimalūs skambučiai, o ne signalo lygis (papildomas 14 pav.).

Be to, sąlyginiai duomenys parodė patikimesnį ir nuoseklesnį signalo profilį nei stebimi duomenys. Stebėtas H3K4me3 signalas, artimas visoms TSS, parodė iki 95 kartų kitimą tarp mėginių (3c pav.), O stebėtas H3K36me3 parodė septynis kartus didesnį genų kūnų kitimą (3d pav.). Teigdami, kad eksperimentinis kintamumas, o ne biologiniai skirtumai, iš tikrųjų grindžia kai kuriuos iš šių skirtumų, du vaisiaus smegenų mėginiai (E081 ir E082) parodė didelį heterogeniškumą H3K4me3 ir H3K36me3 jungtiniuose profiliuose. E081 parodė labai plokščius pasiskirstymus (3c pav., D), tuo tarpu E082 ir numanomi duomenys apie E081 ir E082 pasiskirstė kur kas labiau atpažįstamai (3c pav., D). Remiantis eksperimento dalyviais, šie E081 duomenų rinkiniai rodė palyginti prastus balus tiek „PromRecov“, tiek „GeneRecov“ metrikose (3a, b pav.).

Apskaičiuotieji ženklai taip pat rodė didesnį nuoseklumą nei stebimi ženklai jų viso genomo signalo pasiskirstyme (papildomas 15 pav.). Pvz., Stebimų H3K36me3 duomenų rinkinių dviejuose vaisiaus smegenų mėginiuose (E081 ir E082) skirtumas tarp genomo, kurio signalo reikšmė ≥ 3, buvo 11, 6 karto didesnis, o sąlyginiai duomenys parodė tik 1, 4 karto. skirtumas.

Mes taip pat panaudojome 28 histono ir DNR prieinamumo ženklus, kurie buvo pažymėti dviejose skirtingose ​​ESC linijose (H1 ir H9), kad palygintume beveik replikatus stebėtose ir sąlyginėse duomenų bazėse. Tikėjomės, kad aukštos kokybės duomenų rinkiniuose kiekvienas ženklas, pažymėtas H1, turėtų parodyti aukštesnę koreliaciją su atitinkamu H9 ženklu nei su kitais H9 ženklais (ir atvirkščiai H9 ženklais). Iš tiesų ši savybė dažniau buvo taikoma sąlyginiams duomenims, palyginti su stebimais duomenimis (papildomas 16 pav.), Dar kartą palaikydama aukštesnę sąlyginių duomenų rinkinių kokybę.

Sąlyginiai duomenys fiksuoja dinamiką ir imties ryšius

Norėdami išsiaiškinti, ar sąlygoti duomenys gali užfiksuoti dinaminę epigenominę informaciją apie įvairius ląstelių tipus, įvertinome savo „PromRecov“ ir „GeneRecov“ metrikus audiniams apribotose anotacijose, ypatingą dėmesį skirdami genų rinkiniui, išreikštam atitinkamuose mėginiuose (papildomi 12c, d ir d pav. 13c, d). Numatyti duomenys ir toliau smarkiai pralenkė išreikštų genų rinkinio stebėtus duomenis. Visi H3K4me3 sąlyginiai duomenų rinkiniai, išskyrus vieną, rodo aukštesnį PromRecov, ir visi, išskyrus vieną, H3K36me3 sąlyginiai duomenų rinkiniai, rodantys aukštesnį „GeneRecov“.

Mes taip pat palyginome sąlyginių ir stebimų duomenų gebėjimą atkurti išreikštus genus kaip mėginių, kuriuose jie buvo išreikšti, skaičiaus funkciją (papildomas 17 pav.). Tiek proksimalinių TSS regionų, tiek genų kūnų atsigavimas smarkiai padidėjo dėl mėginių skaičiaus, kuriame nurodytas genas išreiškiamas sąlyginėms žymėms (kaip tikimasi atsižvelgiant į daugybę kiekvieno žymens informatorių mėginių) ir stebimiems žymenims (tai rodo, kad genų aptinkama daugiau plačiai išreikštas rodo didesnį sutikimą su histono modifikavimo žymėmis net ir stebint duomenis). Pažymėtina, kad sąlygotas H3K4me3 parodė aukštesnį PromRecov laipsnį, neatsižvelgiant į tai, kiek išraiškos buvo apribotos tam tikrais mėginiais, net ir genų, išreikštų viename pavyzdyje, TSS regionuose. Stebimi H3K36me3 žymėjimai parodė šiek tiek didesnį genų kūnų susigrąžinimą iš genų, išreikštų tik šešiuose ar mažiau pavyzdžių (vidutiniškai 3% išreikštų genų pavyzdyje). However, for the remaining genes expressed in larger numbers of samples, imputed datasets consistently outperformed observed datasets.

For all tier 1–3 marks, we directly compared the correlation between observed gene expression levels and the signal data for both observed and imputed marks (Supplementary Fig. 18). For nearly all positively correlated marks, imputed signal showed a greater positive correlation with gene expression than observed signal, both in TSS-proximal regions (Supplementary Fig. 18a) and in gene bodies (Supplementary Fig. 18b). For negatively correlated marks, observed data showed greater negative correlation with expression than imputed data, but this higher negative correlation was associated with lower-quality observed datasets, and the difference was reduced when focusing only on higher-quality observed data, both in TSS-proximal regions and in gene bodies (Supplementary Fig. 18c, d).

We also evaluated the ability of both imputed and observed datasets to capture the relationships between tissues and cell types based on genome-wide correlation analysis between pairs of datasets (Fig. 3e, f and Supplementary Fig. 19). Specifically, we compared the imputed and observed data for their ability to group samples in accordance with their tissue group (defined in ref. 10 and shown in Fig. 1a of this paper) based on the correlation of individual marks (Fig. 3e and Supplementary Fig. 19). We found the imputed data showed a correlation matrix with a strongly pronounced block structure, corresponding to the biological groupings of cell types and tissues. This was substantially weaker in observed datasets, suggesting imputed data better captured sample relationships.

To quantify this difference, we evaluated the ability of each tier 1 mark, DNA methylation and RNA-seq to distinguish same-group versus different-group sample pairs (excluding the heterogeneous 'ENCODE' and 'Other' groups), based on the relative genome-wide pairwise correlation, evaluated as the AUC for both observed and imputed signal (Fig. 3f). Imputed data consistently outperformed observed data, showing an average AUC of 0.92 versus 0.79 for observed data. The increase in classification power was most pronounced for H3K4me3, H3K36me3, H3K27me3 and H3K9me3, which are generally considered less cell-type specific (AUC = 0.93 vs. 0.70).

These results also held for sample group classification based on histone mark peak call similarity (Supplementary Fig. 20), when trying to distinguish pairs of samples having the same anatomy annotation from those that have a different one 10 (with all marks except DNA methylation showing increased accuracy for imputed data compared to observed data, Supplementary Table 1 and Supplementary Fig. 20), and for higher-resolution distinctions beyond the tissue group level, as ChromImpute predictions showed higher correlation with corresponding observed data than predictions obtained by averaging all other same-group experiments (Supplementary Fig. 21). We reasoned that perhaps a weighted average of observed and imputed data may further improve classification power, but we did not see substantial improvement in a combination approach relative to just using the imputed data, except for DNA methylation where a balanced combination showed the highest classification power (Supplementary Fig. 22).

Imputed data improved GWAS enrichments

As epigenomic maps have recently emerged as an unbiased approach for discovering disease-relevant tissues and cell types 3, 32, we also evaluated the impact of epigenome imputation on the interpretation of trait-associated variants from GWAS. We quantified the enrichment (positive or negative) of trait-associated variants from the National Human Genome Research Institute (NHGRI) GWAS catalog 33 in both observed and imputed datasets for each tier 1 mark. We evaluated enrichments both in aggregate across all studies, based on area under an ROC curve up to a 5% false-positive rate (AUC5%) for the signal level recovery of trait-associated SNPs, and at the level of individual studies, based on mark signal rank differences between each study's SNPs and all other SNPs in the GWAS catalog. We evaluated both the number of studies for which there was a significant signal rank difference in at least one sample, and the total number of study-sample pairs that were significant, at varying P value thresholds. We then compared both the number of significant studies and the number of significant pairs to the numbers obtained for randomized versions of the GWAS catalog, which also enabled us to obtain a false-discovery rate estimate for each P -value threshold (Supplementary Table 2).

For all tier 1 active marks, imputed data resulted in substantially greater recovery of SNPs in the GWAS catalog than the observed data (Supplementary Fig. 23), and more significant enrichments for both the number of studies and the number of study-sample pairs, across all tested significance thresholds (Fig. 4a and Supplementary Figs. 24 and 25). In addition, the imputed data yielded a stronger enrichment for each enriched study-sample pair in the large majority of cases (Fig. 4b and Supplementary Fig. 26). We confirmed that the actual GWAS catalog yielded substantially more significant associations than randomized versions, for both the observed and imputed data across a range of P -value significance thresholds (Fig. 4a and Supplementary Figs. 24 and 25). Imputed data performance was substantially higher than that of the average mark signal across all available samples (Supplementary Fig. 24b), emphasizing that the higher performance was not simply due to averaging multiple samples. We also confirmed that the samples with the strongest positive enrichments for a given study were generally biologically relevant for active marks. For H3K27ac, for example, we found that liver was the most enriched sample for various cholesterol phenotypes, immune-related cells for various immune-related disorders, colonic mucosa for ulcerative colitis. Many additional biologically meaningful enrichments were found for diverse studies and cell types (Fig. 4c–f and Supplementary Table 2).

Image

( a ) (Left) The x axis shows the number of GWAS in which there was at least one sample for which the H3K27ac signal was significantly enriched at significance level indicated on the y axis using a Mann-Whitney U Test. This is shown for the observed data (blue), the imputed data restricted to the 98 samples with observed data (red), and the observed and imputed data based on ten randomizations of the GWAS catalog. (Right) The same as on left, but counting study-sample combinations as opposed to just studies. ( b ) A scatter plot showing the −log 10 P value computed for each study-sample combination based on the observed data ( x axis) and imputed data ( y axis) for each combination that had a P value of 10 −3 or better based on either the imputed or the observed data for H3K27ac. The diagonal line is the y = x line showing most of the most-significant enrichments based on either the observed or imputed data are for the imputed data. Additional marks can be found in Supplementary Figures 24–26. ( cf ) Enrichment matrices (heatmaps) showing all studies (rows) with uncorrected −log 10 P ≥ 3.5 and positive enrichment for at least one reference epigenome (columns) based on H3K27ac imputed data ( c, e ) and observed data ( d, f ). For each study (rows) is shown the trait, most-significant P value (–log 10 P ), max-sample abbreviation and PubMed identifier (PMID). Only samples that showed the highest-significance positive enrichment for at least one study are shown. Studies in c, d were significant (–log 10 P ≥ 3.5) for both observed and imputed data. Top three rows show studies with broad enrichment across samples. ( e, f ) Same enrichments for studies that were only significantly enriched using imputed ( e ) or observed ( f ) H3K27ac signal. Asterisks denote H3K27ac signal tracks that exist only as imputed data. Expanded enrichments for all samples, all tier 1 marks and additional GWAS are in Supplementary Table 2. SLE, systemic lupus erythematosus; ADH, attention deficit hyperactivity; ALL, acute lymphocytic leukemia; PB, peripheral blood.

Visas dydis

These results help validate the biological relevance of imputed datasets, based on an orthogonal annotation source, and help illustrate imputed datasets as a potentially useful resource for interpreting GWAS results.

Imputed datasets are informative for quality control

We next studied whether discrepancy between imputed and observed datasets is indicative of lower-quality experiments and can be used as a quality control (QC) metric. We ranked all H3K4me3 and H3K36me3 datasets based on PromRecov and GeneRecov scores, respectively, providing an independent benchmark informative of dataset quality (Fig. 5a). We then compared several QC metrics previously applied to these datasets 10, based on their ability to flag the worst-ranked datasets. These metrics are based on the proportion of reads falling in enriched regions as determined by various methods (signal proportion of tags (SPOT) 34, pre-binned regions enriched based on a Poisson distribution 10 and FindPeaks 35 ) and signal correlations between forward and reverse reads (normalized strand correlation (NSC) and relative strand cross-correlation (RSC)) 36 .

Image

( a ) Comparison of QC metrics (columns) for the ten datasets (rows) showing lowest agreement with gene and promoter annotations (Fig. 3a, b), based on H3K4me3 PromRecov (top) and H3K36me3 GeneRecov (bottom). Each entry shows rank (out of 127) for GeneRecov/PromRecov, read depth and each QC metric (Poisson statistic, Signal Proportion of Tags (SPOT), FindPeaks, Normalized and Relative Strand Correlation between forward and reverse strands (NSC and RSC)), and similarity between imputed and observed data (Match1 and GWcorr). Orange-shaded EIDs denote the five worst-agreement datasets from b . Data sets with the same read depth (a result of highly sequenced datasets being previously downsampled to the same number of reads 10 ) are given the same expected rank if ties were broken randomly. Most-problematic datasets (based on lack of gene or ±2 kb TSS annotation recovery) are sometimes missed by traditional QC measures but consistently show low imputation agreement. ( b ) Distribution of agreement between top 1% observed signal and top 1% imputed signal locations for H3K4me3 (top) and H3K36me3 (bottom), highlighting five worst-similarity (orange) and five highest-similarity (green) datasets. ( c ) Observed (blue) and imputed (red) signal tracks for worst-similarity (orange) and best-similarity (green) datasets for H3K4me3 (top) and H3K36me3 (bottom) for the entire chromosome 10 (0–135 Mb). Datasets with the lowest agreement have a relatively flat signal, suggesting that when observed and imputed datasets disagree most, it is usually the observed datasets that are of lowest quality. ( d ) Aggregation of observed signal for H3K4me3 surrounding the TSS (top) and H3K36me3 in gene bodies (bottom) for the five best-agreement (green) and worst-agreement (orange) datasets, highlighting the unusual profiles of some worst-agreement datasets, suggesting they are of lower quality, even though they were not flagged by traditional QC metrics.

Visas dydis

Traditional QC metrics indeed flagged several worst-ranked H3K4me3 and H3K36me3 datasets, but failed to detect several cases, especially for lower read depths. This was more pronounced for H3K36me3, where two metrics (NSC, RSC) failed to detect the majority of low-GeneRecov datasets, and several datasets (E104, E022, E087, E109) were not detected as problematic by any of the traditional QC metrics. A deeper understanding of the sources of lower-quality datasets is beyond the scope of this paper, but the low read depth of several flagged datasets (Fig. 5a and Supplementary Fig. 27) suggests that deeper sequencing in some cases could improve overall quality.

By contrast, imputation-based QC metrics were consistently able to capture worst-ranked datasets, even when traditional QC metrics failed (Fig. 5a). We evaluated two imputation-based QC metrics, the first based on our Match1 score (overlap of the top 1% of imputed signal with observed signal) (Supplementary Fig. 8) and the second based on our GWcorr score (genome-wide correlation in signal between imputed and observed signal tracks). Both performed well, showing the best agreement with PromRecov and GeneRecov at detecting the worst datasets (Fig. 5a). Notably, the E104 Right Atrium H3K36me3 dataset (which both the GeneRecov and imputation metrics ranked as the worst H3K36me3 dataset and had the lowest sequencing coverage depth) was rated as the single highest-quality H3K36me3 dataset, based on the NSC metric, and was considered among the ten highest-quality H3K36me3 datasets by SPOT. The metagene plot of this sample shows inconsistencies with the typical pattern for H3K36me3 and is suggestive of possible antibody cross-reactivity (Fig. 5d), illustrating how QC measures based on agreement with imputed data can be used to identify likely problematic datasets that are missed by other QC measures, which are ineffective in cases of label swaps or antibody cross-reactivity.

Stebimi duomenų rinkiniai iš esmės skyrėsi, nes jie atitiko atitinkamus sąlyginius duomenų rinkinius (5b pav., 3 papildomoji lentelė ir papildomas 28 pav.). Be to, stebimi blogiausio balo pavyzdžių („Match1“ metrika) signalo takai parodė ryškius regėjimo skirtumus nuo geriausiųjų pavyzdžių, tuo tarpu atitinkami implicitiniai signalo takai turėjo pastoviai stiprų signalą (5c pav., D). Koreliuodami QC metriką ir skaitymo gylį visuose mėginiuose (papildomas 27 pav.), „GWcorr“ ir „Match1“ metrika parodė aukščiausias koreliacijas tiek su „PromRecov“, tiek su „GeneRecov“ ir buvo geriau koreliuojami su visų histonų ženklų sekos gyliu, tuo pačiu būdami skirtingi nuo kitų QC. visų ženklų metriką, pabrėžiant, kad įskaitymais pagrįstos kokybės kontrolės priemonės kaupia svarbią informaciją, kuri papildo, iš esamos kokybės kontrolės metrikos.

Sąlyginiai duomenys nustatė netikėtus signalo regionus

Nors daugelis aukštos kokybės eksperimentų visame pasaulyje sutiks su numanomais duomenimis, gali būti konkrečių vietų, kurių implicitiniai duomenys nesutampa su stebimais duomenimis. Kadangi sąlyginiai duomenys yra tam tikrų išankstinių lūkesčių dėl stebėtų duomenų forma, genomo vietos, kuriose abi nesutaria, gali tiksliai nustatyti biologiškai įdomias vietas, o kai kuriais atvejais - audiniams būdingus norminius veiksnius.

Norėdami ištirti šį sąlyginių duomenų rinkinių taikymą, mes išanalizavome genomo vietas, kuriose stebimi duomenys rodo stiprų DNR prieinamumą, tačiau sąlyginiuose duomenyse DNR prieinamumas yra silpnas arba jo nėra. Šių vietų sekos motyvų analizė parodė, kad biologiškai svarbūs reguliavimo motyvai yra praturtinti žinomomis ląstelių rūšims būdingomis funkcijomis (papildomas 29 pav.). Pavyzdžiui, NFKB motyvai buvo rasti naudojant pirminį monocitų DNR prieinamumą (E029), atitinkantį imuninį reguliavimą, o PAX2 motyvai vaisiaus inksto DNR prieinamumui (E086), atsižvelgiant į vaidmenį inkstų vystymesi37.

Taigi, net ir naudojant aukštos kokybės duomenų rinkinius, išankstinio signalo tikėjimasis visame genome taip pat gali būti informatyvus, norint nustatyti lokaliai skirtingas vietas, kurios gali būti susijusios su ląstelių tipui būdingais ir audiniams būdingais reguliavimo procesais. Tačiau jei jau yra žymuo, kuris yra labai koreliuojamas su dominančiu ženklu, imputacija jau gali suteikti pakankamai artimą tikrajam signalui, kad skirtingas vietas galėtų lemti biologinis ar eksperimentinis triukšmas, o ne ląstelių tipas - specifinis reguliavimas.

Įvairių ženklų naudojimo funkcijos skiriasi

Toliau siekėme gauti informacijos apie skirtingų ženklų ir funkcijų naudojimą įtraukiant duomenų rinkinius. Pirmiausia mes ištyrėme, kaip dažnai kiekviena ypatybė buvo naudojama mūsų regresijos medžiuose, šaknyje (papildomas 30a pav.) Arba bet kurioje vietoje (papildomi 30b ir 31 pav.), Kai ji buvo prieinama. Mes tai padarėme ir dėl pirmiau išanalizuotos pirminės įskaitymo, atskirai vertindami 1, 2 ir 3 pakopų žymenis, atsižvelgiant į jų taikymo srities skirtumus, ir dar vienas įskaitymas apsiribojo septyniais pavyzdžiais, giliai apimančiais daugelį 9, 10 balų, apimančius visas pakopas. 1–3 ženklai vienodi, atsižvelgiant į jų panašų aprėptį.

Beveik visų acetiliavimo ženklų dažnis šaknyje buvo kitas acetilinimo žymuo toje pačioje mėginio toje pačioje genomo padėtyje, atspindintis labai koreliuojamą ir dinamišką acetilinimo žymių pobūdį. Tiriant histonų metilinimą, DNR prieinamumą, RNR seq ir DNR metilinimą, labiausiai informatyvus šaknies bruožas dažniausiai buvo pagrįstas tuo pačiu ženklu artimiausių K mėginių rinkinyje, atsižvelgiant į jų stabilesnį pobūdį skirtingų tipų ląstelėse.

Nagrinėjant bet kurią regresijos medžio padėtį, dažniausiai naudojami požymiai iš kitų to paties pavyzdžio ir tos pačios padėties ženklų, nors gana dažnai buvo naudojamos visos tikslo genomo vietą supančios pozicijos (papildomas 31 pav.). DNR prieinamumas buvo rečiau naudojamas tikslinėje tikslinėje vietoje, palyginti su histono žymėjimo ypatybėmis (papildomas 31 pav.), Atspindėdamas nedidelį nukleozomų poslinkį atvirų chromatinų srityse ir tokiu būdu histono modifikavimo žymių poslinkį, palyginti su DNR prieinamumo smailėmis.

Chromatino būsenos komentaras, naudojant daugybę sąlyginių ženklų

Atsižvelgiant į chromatino ženklų derinių svarbą skiriant biologiškai reikšmingas savybes ir skirtingas reguliavimo elementų klases, mes panaudojome ChromHMM 20, 21 chromatino būsenoms, pagrįstoms sąlyginėmis žymėmis, panaudoti. Chromatino būsenos analizė, pagrįsta stebimais duomenimis, gautais projekto Epigenomics plane, pirmiausia buvo nukreipta į penkis ženklus, bendrus visiems 127 mėginiams (H3K4me1, H3K4me3, H3K36me3, H3K27me3 ir H3K9me3) arba tik šešis ženklus (su H3K27ac) 98 mėginiams 10, kurių skaičius mėginių skaičius greitai mažėja, nes dėl trūkstamų duomenų rinkinių atsižvelgiama į papildomus ženklus. „ChromHMM“ tiksliai tvarko trūkstamus duomenis, tačiau neturint tam tikro žymens, gali smarkiai sumažėti atitinkamų chromatino būsenų genomo aprėptis mėginiuose, kuriems trūksta apibrėžimo žymens (pvz., Chromatino būsena, kurioje yra DNR prieinamumas, kurioje yra prieinamumas, rodo 60 kartų mažesnį mėginiai, kuriems nėra prieinamos DNR, papildomas 32 pav.). Epigenominių ženklų imputacija apeina šiuos apribojimus ir yra praktinė alternatyva trūkstamų „ChromHMM“ duomenų strategijai, leidžianti kartu išmokti chromatino būsenas vienodais signalo takeliais, kad būtų gausu daugybės epigenominių požymių ir daugybės mėginių.

Pirmiausia kartu su visais 127 pavyzdžiais (6b, c pav.) Mes išmokėme 25 valstybių modelį 3, naudodamiesi visais 1 ir 2 pakopų ženklais. Tai užfiksuoti keli promotoriaus, stipriklio, atviro chromatino tipai, transkribuotos ir represuotos būsenos ir parodyti specifiniai genų komentarai, išsaugojimas, DNR metilinimas ir RNR-seq sodrinimas (6b pav., C ir papildomas 33 pav.). Palyginti su 15 būsenų chromatino būsenos modeliu, paremtu stebimais 127 mėginių duomenimis 10 (papildomas 33 pav.), 12 ženklų modelis geriau atskyrė aktyviąsias ir padidėjusias sustiprinimo būsenas (naudojant H3K27ac ir H3K9ac) ir užfiksuotas naujas būsenas (pvz., būsena 19_DNazė, rodanti DNR prieinamumą, tačiau neturinti stipriklio / promotoriaus žymių ir būsena 5_Tx5 ′, susieta su 5 'nuorašų galais ir pagrįsta H3K79me2). Dėl padidėjusio sąlyginių duomenų stabilumo ir patikimumo, imputacija pagrįstos chromatino būsenos parodė nuoseklesnį genomo apimtį visuose mėginiuose (papildomas 34 pav.), Geresnį suderinamumą su anotuojamais genų kūnais ir TSS - tiek visiems genams (papildomas 35a, b pav.) ) ir genų, išreikštų tam tikrame audinyje, rinkiniui (papildomas 35c, d pav.) ir geresnį evoliucijos požiūriu išsaugotų elementų atskyrimą (papildomas 36 pav.) 38 . Be to, mes matėme geresnį mėginio, neįtraukto į jokius mūsų treniruočių duomenis, atkūrimą (osteoblastų DNR prieinamumo duomenų rinkinys 39, papildomas 37 pav.), Įskaitant konkrečiam mėginiui skirtas vietas; Be to, mes užfiksavome didelius mėginio tipo skirtumus chromatino būsenose (pvz., ESC / iPSC mėginiuose buvo nuolat gausesni dvivalentės promotoriaus būsenos 40, papildomas 38 pav.), kai kuriais atvejais skirtumai buvo ryškesni nei chromatino būsenose, remiantis stebimais duomenimis (papildomas 38 pav.).

Image

a ) Kiekvieno ženklo (stulpelių) įskaitymas, naudojant požymių (eilučių) pogrupius viršutinėse 1% signalo dėžėse arba 0, 25 atitikties matą DNR metilinimui, Chr10, palyginti su susitarimu, pasiektu naudojant visas funkcijas, pagrįstas septyniais pavyzdžiais su giliu ženklu aprėptis neišskiriant 1–3 pakopų ženklų. Tos pačios mėginio savybės yra svarbiausios acetilinimo žymenims, o tos pačios žymės yra svarbiausios H3K27me3, H3K36me3, H3K9me3 ir RNR-seq. Tik H3K18ac ir H3K79me2 profiliavimas leidžia pasiekti didesnį santykinio įskaitymo susitarimą nei visi penki pagrindiniai ženklai, darant prielaidą, kad rinkinys turi vienodą ženklų aprėptį. Papildomų pogrupių našumas parodytas papildomame 42 paveiksle. Paskutiniuose dviejuose stulpeliuose rodomas vidutinis objekto pogrupio našumas per visus tikslinius ženklus, ypač acetilinant. Šerdis = H3K4me1, H3K4me3, H3K36me3, H3K27me3, H3K9me3. Jei tikslinis ženklas buvo įtrauktas į poaibį, skaičiuojant šiuos vidurkius, taikomų ženklų pogrupiams, tiksliniam ženklui buvo naudojama 1 vertė; įskaitymo atlikimas, apribotas kitais pogrupio ženklais, jei jų yra, pateikiamas lentelėje. H3K18ac + H3K79me2 ir 1 bei 2 pakopų įvertinimai apsiribojo penkiais mėginiais, kurie buvo giliai profiliuoti tarp žymių, taip pat buvo eksperimentiškai profiliuoti H3K79me2. b ) Chromatino būsenos segmentacija, naudojant sąlyginius 12 ženklų duomenis 127 mėginiuose, naudojant 25 būsenų modelį ir spalvas, parodytas c punkte . Segmentai yra labai nuoseklūs panašiems mėginiams, tačiau gali užfiksuoti labai dinamiškus reguliavimo elementus skirtinguose mėginiuose. c ) Chromatino būsenos modelis, naudojant 12 ženklų ir 25 būsenas, treniruotas kartu naudojant visų 127 mėginių imputuotus duomenis. Kiekvienai būsenai (eilutėms) parodomi jos emisijos parametrai, genomo aprėptis, santykinis funkcinis sodrumas įvairioms pastaboms ir konservuotiems elementams, stebimoji mediacija ir sąlyginis DNR metilinimas ir RNR-seq signalas (papildomas 33 pav.), Po kurio seka kandidato būsenos komentaras. . d ) Išplėstas chromatino būsenos modelis, parengtas naudojant 50 būsenų ir 29 žymenis septyniuose mėginiuose, turinčiuose gilų žymėjimą. Valstybės yra sugrupuotos ir paženklintos pagal maksimaliai praturtintą 25 valstybių modelio atitiktį. Papildomi šio modelio ženklai pavaizduoti vertikalios linijos kairėje. Išmetamųjų teršalų parametrai ir funkcinis praturtinimas (panašus į c ) ir kiekvienos būsenos atstatytų vietų procentinis procentas naudojant ženklų pogrupius (papildomi 40, 41 ir 43 pav.). „+ H3K18ac“ žymi 1 ir 2 pakopų ženklų pogrupį, išplėstą H3K18ac. Kai ta pati chromatino būsena nebuvo maksimaliai atgauta naudojant 1 ir 2 pakopų ženklus, paskutiniai du stulpeliai žymi geriausią kitą būseną ir jos procentinį priskyrimą.

Visas dydis

Mes taip pat apmokėme 50 valstijų modelį, naudodamiesi sąlyginiais duomenimis apie 29 ženklus iš septynių giliai uždengtų mėginių. Modelis parodė skirtingus išmetamųjų teršalų parametrus, įvairius funkcinius praturtinimus ir santykinai nuoseklius išmetamųjų teršalų parametrų ir žymėjimo dažnio ryšius tarp mėginių beveik visoms būsenoms (6d pav. Ir papildomi 39–41 pav.).

Tikslus įskaitymas naudojant ribotą skaičių ženklų

Norėdami padėti suskirstyti prioritetus į naujų tipų ląstelių eksperimentinį profiliavimą, mes ištyrėme ženklų, kurie suteikia aukščiausio tikslumo imputaciją, pogrupį. Mes apsvarstėme du parametrus, pirmąjį („nesusijusį nustatymą“) darant prielaidą, kad nauji pavyzdžiai iš esmės nesiskiria nuo esamų rinkinyje ir gali pasikliauti tik tos pačios imties ypatybėmis, o antrasis („susijęs nustatymas“) darant prielaidą, kad nauji pavyzdžiai yra susiję su esamu duomenų rinkinių rinkiniu, apimant maždaug vienodą kiekvieno žymens aprėptį, kurį galima naudoti įtraukiant į naują pavyzdį.

Abiejuose parametruose įvertinome numatomą funkcijų pogrupio galią, palygindami pasiektą susitarimą tarp stebimo signalo ir numanomo signalo, naudodamiesi funkcijų pogrupiu, palyginti su susitarimu, pasiektu naudojant visas funkcijas. Mes pasirinkome šią „santykinio susitarimo“ metriką, kad nereikėtų bausti už ženklų, kuriuos sunku priskirti net dėl ​​žemos kokybės signalo, numatymo. Mes įvertinome šį santykinį susitarimą naudodamiesi „Match1“ metrika (išskyrus DNR metilinimą, kur vietoje naudojome metil25) ir nustatymo koeficientą ( R2 ). Mes apsiribojome šiais septyniais chr10 apimties giliojo aprėpties pavyzdžiais ir atlikdami imputaciją nepadarėme skirtumo tarp 1–3 pakopos ženklų (papildomas 8 pav.).

„Nesusijusiuose“ nustatymuose (tik to paties pavyzdžio ypatybės) įtraukiant H3K36me3, H3K9me3, H3K27me3 ir RNR-seq, žemiausi santykiniai „Match1“ balai (20–39%) (6a pav. Ir papildomas 42a pav.), Po kurio seka DNR prieinamumas (70%), H3K79me2 (82%) ir H3K4me1 / 2/3, H2A.Z ir H3K79me1 (92–93%), ir tai rodo prioritetus pagal ženklus, kuriuos sunkiausia priskirti naudojant to paties pavyzdžio ypatybes, net jei naudojami visi kiti ženklai. Visi acetiliacijos ženklai rodė aukštesnius santykinius „Match1“ balus (97–100%), tačiau H3K27ac santykinis balas buvo mažiausias (97%), tai rodo, kad jame yra unikaliausios informacijos. Santykinio „Match1“ rezultato atsigavimas buvo vidutiniškai 87% tarp visų ženklų, kai buvo naudojamos visos to paties pavyzdžio savybės, 70%, kai buvo naudojamos tik penkios pagrindinės žymės (skaičiuojant eksperimentiniu būdu surinktus ženklus kaip 100% atkurtus), 73% - naudojant pagrindinius ženklus ir arba DNR prieinamumas arba H3K9ac, 78% naudoja pagrindinius ženklus ir H3K27ac ir 85% naudoja visus 1 ir 2 pakopų ženklus (6a pav. Ir papildomas 42a pav.). R 2 vertės parodė bendrus panašius rezultatus ir išvadas, tačiau atskleidė mažesnį santykinį sutikimą dėl DNR metilinimo (papildomas 42b pav.), Taip pat pabrėždamas unikalią informaciją apie kitus to paties pavyzdžio žymenis.

„Susijusiose“ nuostatose (tiek to paties pavyzdžio, tiek to paties ženklo ypatybės) penki pagrindiniai ženklai sąlygojo 80% „Match1“ santykinį atsigavimą per visus ženklus, o atitinkamai padidėjo iki 86%, 82% ir 81%. H3K27ac, H3K9ac arba DNR prieinamumo įtraukimas ir padidėjo iki 89% naudojant visus 1 ir 2 pakopų ženklus (6a pav.). Acetiliacijos žymių atsigavimas buvo vidutiniškai mažesnis (66%), naudojant tik penkias pagrindines žymes, tačiau padidėjo atitinkamai iki 77%, 71% ir 68%, įtraukiant H3K27ac, H3K9ac arba DNR prieinamumą. Naudojant vieną ar du ženklus, kartais buvo stebėtinai daug kitų ženklų. Pavyzdžiui, „H3K18ac“ buvo vienintelis ženklas, suteikiantis aukščiausią visų kitų ženklų vidutinį atsigavimą (87%; 88% - acetiliavimo žymenų), ir didesnis nei 80% visų ženklų, išskyrus H4K20me1, H3K79me1 ir H3K23me2. H3K79me2 profiliavimas buvo labai vienas kitą papildantis, todėl H4K20me1 ir H3K79me1 atsigavo 98%; ir H3K79me2 profiliavimas kartu su H3K18ac sąlygojo 90% vidutinį žymių atkūrimą naujo tipo ląstelėse, kai buvo naudojamas visas esamas duomenų rinkinys, bet tik 71% vidutinio atkūrimo naudojant to paties pavyzdžio ypatybes.

Mes taip pat panaudojome chromatino būsenas, kad įvertintume „nesusijusį“ parametrą, remiantis 29 ženklų pogrupių galimybe atkurti kiekvieną iš 50 chromatino būsenų, išmoktų iš septynių giliai uždengtų mėginių duomenų, kai likusius žymenis trūko 20 ( 6d pav. Ir papildomas 43 pav.). Mes nustatėme, kad netaikant bet kokio DNR prieinamumo, H3K9me3, H3K36me3, H3K4me1, H3K27me3 ar H3K27ac, atsirado bent viena „trūkstama“ būsena (<20% atkūrimas; papildomas 43a pav.). Laikydami H2A.Z, H3K79me2, H4K20me1, H3K79me1, H3K4me3 ar H3K4me2, gavote bent vieną būseną, kurios atsigavimas buvo mažesnis nei 70%. Nė vienas atskiras ženklas nepadėjo iš esmės atgaivinti būsenų, viršijančių būsenas, kurias pirmiausia apibrėžė tas ženklas (papildomas 43d pav.). Naudojant tik penkis pagrindinius ženklus ir traktuojant visus likusius ženklus kaip trūkstamus duomenis, vidutiniškai kiekvienai būsenai buvo priskirta 31% priskirtų vietų (6d pav. Ir papildomas 43c pav.). Įskaitant H3K27ac, H3K9ac ar DNR prieinamumą, vidutinis atkūrimas padidėjo tik iki 35–37%, o didžiausias vidutinis bet kurio ženklo atkūrimas buvo 43%, pridėjus H3K18ac. Naudojant visus 1 ir 2 pakopų ženklus, vidutinis atsigavimas padidėjo iki 65%, tik 12 būsenų rodo 30% ar mažiau (6d pav. Ir papildomas 43b pav.). H3K18ac įtraukimas į 1 ir 2 pakopų žymenis padidino vidutinį būklės atsigavimą iki 77%, visose būsenose parodydamas daugiau kaip 30% atkūrimą. Šie rezultatai rodo didelę papildomą chromatino būsenų įvairovę, neužfiksuotą remiantis chromatino žymėmis, kurioms išsamiai parodyti „Roadmap Epigenomics“ ir ENCODE projektai.

Diskusija

Šiame darbe mes pristatėme skaičiavimo metodą, skirtą genomo masto epigenominių signalų, taikomų 25 bp skiriamąja geba, numatymui (įskaitymui). Metodas apima tiek trūkstamus, tiek esamus duomenų rinkinius, panaudojant epigenominių ženklų koreliacijas tam tikrame pavyzdyje ir susijusių pavyzdžių epigenominio kraštovaizdžio panašumus. Jis taikomas bet kokio tipo funkciniams duomenims, kurie gali būti vaizduojami kaip signalo takelis. Sukūrėme ir pritaikėme kiekybinių metrikų ir testų rinkinį, kad įvertintume sąlyginių duomenų tikslumą. Mes parodėme, kad sąlyginiai pavyzdžio pavyzdžio duomenys yra didelės skiriamosios gebos ir geriau atitinka stebėtus duomenis, nei naudojant visų kitų stebimų to ženklo duomenų rinkinių vidurkį (svarbus kiekvieno tyrimo pradinis palyginimas), ir jis yra taip pat geresnis atitikimas nei net vienas artimiausias duomenų rinkinys (etalonas, kuriam reikia žinių apie taikinio ženklą ir todėl praktiškai neįmanomas).

Mes parodėme, kad numanomi duomenys pralenkė stebėtus duomenis, remiantis daugybe analizių: (i) panašumas į anotuotų genų ypatybes; ii) glaudžiai susijusių mėginių nuoseklumas; iii) biologinių ryšių tarp audinių ir ląstelių tipų fiksavimas; (iv) koreliacija su stebėta genų ekspresija; v) SNP, identifikuotų GWAS, praturtinimas; vi) chromatino būsenos TSS, genų kūnų, riboto audinio aktyvumo ir konservuotų elementų fiksavimas. Stebimi duomenys parodė tik nedidelį pranašumą identifikuojant genus, pasižyminčius labiausiai audiniams būdingais išraiškos būdais (maždaug 3% kiekvieno mėginio genų). Be to, nesutarimus tarp stebimų ir numanomų duomenų dažniausiai lėmė prastesnės kokybės eksperimentiniai duomenų rinkiniai, o ne žemos kokybės imputacija.

Mūsų gairės rodo, kad praktiškai stebimi duomenys ne visada yra neginčijamas aukso standartas, tačiau tiek stebimi, tiek sąlyginiai duomenys yra svarbūs ir papildantys vienas kitą, kiekvienas turi savo privalumų ir kiekvienas gali turėti klaidingai neigiamą ir klaidingai teigiamą rezultatą. signalus. Be abejo, kai yra aukštos kokybės, giliai sekamų ir išsamiai pakartotų eksperimentų, jie išlieka aukso standartu. Tačiau atsižvelgiant į biudžeto ir imties apribojimus, mūsų darbas nustato sąlyginius duomenis kaip svarbų eksperimentinių tyrimų papildymą. Bet kokiam fiksuotam biudžete numatytų eksperimentų skaičiui įtraukimas leidžia projektams ištirti didesnę mėginių, tyrimų ar sąlygų įvairovę ir padidinti patikimumą, panaudojant automatiškai išmoktas koreliacijas šiuose duomenų rinkiniuose, užuot pasikliaujant vien tiesioginiu eksperimentiniu profiliavimu ir replikacijomis, kad padidėtų patikimumas.

Be to, bendras stebimų ir numanomų duomenų naudojimas atveria daug naujų programų, kurių anksčiau nebuvo įmanoma atlikti. Sąlyginiai duomenys gali būti naudojami kaip išankstiniai eksperimento lūkesčiai, su kuriais galima palyginti ir palyginti gautus duomenis. Mes pademonstravome du tokių palyginimų pritaikymus, naudodami stebimų ir sąlyginių duomenų visuotinius neatitikimus kaip QC metriką ir nustatėme stebėtinas vietas, kurios, mūsų manymu, praturtėjo reguliatoriaus taikiniams. Konkrečiai kalbant apie QC, mes parodėme, kad nedidelis sąlyginių ir stebimų duomenų sutapimas atskleidė probleminius duomenų rinkinius, kuriuos praleido daugelis esamų rodiklių, kuriuose pagrindinis dėmesys skiriamas duomenų signalo-triukšmo savybėms, todėl gali praleisti mėginių derinimus, kryžminį reagavimą. antikūnai ar kitos eksperimentinės klaidos. Turėdami tankiau atrinktų epigenominių duomenų rinkinių, mes tikimės, kad naujos kartos QC metrikoje bus vis dažniau naudojamos į imputaciją panašios priemonės, tokios kaip anksčiau apibrėžtos griežtos bazinės linijos arba sudėtingesnis susitarimas su „ChromImpute“.

Mūsų darbas taip pat turi reikšmės eksperimento prioritetų nustatymui atliekant didelio masto epigenominius žemėlapius. Kelių žemėlapio epigenomikos projektas apėmė šešių histonų žymių rinkinį didžiausiame gylyje: H3K4me1, H3K4me3, H3K27me3, H3K9me3, H3K36me3 ir H3K27ac. Mūsų rezultatai patvirtina šią strategiją, nes H3K27me3, H3K9me3 ir H3K36me3 nebuvo galima veiksmingai priskirti naudojant to paties pavyzdžio duomenis, net jei būtų pažymėti visi kiti to paties pavyzdžio ženklai, o visi H3K4me1, H3K4me3 ir H3K27ac turėjo svarbią unikalią informaciją, kurios nebuvo galima numatyti. naudojant tik tas pačias pavyzdines kitų penkių ženklų savybes. Mūsų rezultatai patvirtina, kad galima išplėsti šį rinkinį naudojant H3K18ac, o tai paskatino geriau įskaityti ne H3K27ac acetilinius, o H3K79me2 - tai paskatino geriau užfiksuoti su transkripcija susijusius ženklus. Įrodymai rodo, kad abu ženklai yra svarbūs savaime, H3K18ac reaguojant į patogeną 41 ir vėžys 42, 43, 44, 45, o H3K79me2 - epigenetinėje atmintyje 46, vystymasis ir vėžys 47 .

Taip pat svarbu pripažinti imputavimo metodo apribojimus. Jei žymėjimo signalas yra labai būdingas vienam ar keliems pavyzdžiams ir jis nesusijęs su kitais pavyzdžiais pažymėtais ženklais arba turi kitokią koreliacijos struktūrą nei treniruotėms naudojamuose pavyzdžiuose, tada tiksliai įskaityti neįmanoma ženklas tose vietose. Kai tikslinis ženklas buvo pažymėtas tik keliuose pavyzdžiuose, funkcijos, susijusios su tuo pačiu ženklu kituose pavyzdžiuose, gali būti mažiau informatyvios arba labiau šališkos. Pvz., Įvesti transkripcijos faktoriaus surišimą gali būti sudėtingesni, nes jų koreliacijos struktūra su kitais ženklais gali labai skirtis skirtinguose mėginiuose, atsižvelgiant į tai, ar transkripcijos faktorius yra aktyvus, ar ne, ir dauguma jų buvo susieti tik su ribotu pavyzdžių skaičiumi. Dabartinės sistemos apribojimas įtraukiant duomenų rinkinius tarp asmenų yra tas, kad šiuo metu į genetinius variantus neįtraukiame kaip įvesties duomenų, ir tai yra potencialiai svarbi ateities plėtros sritis, atsižvelgiant į tai, kad vis daugiau duomenų apie duomenų apie chromatino ženklus ir genotipą egzistuoja asmenims 48. 49, 50 . Audinių mėginiuose, atspindinčiuose įvairių tipų ląstelių mišinius, mūsų sąlyginiuose žemėlapiuose greičiausiai atsispindės tas pats mišinys, kaip ir stebimuose duomenyse, nors mišrių mėginių dekonvoliucija yra potencialiai svarbi būsimo darbo kryptis.

Galiausiai, mūsų žiniomis, išsamiausias epigenominis šaltinis yra iki šiol, įskaitant 4 315 sąlyginius duomenų rinkinius iš 127 mėginių ir 34 balus (iš jų tik 26% buvo eksperimentuojama). Likę 74% (3 193 duomenų rinkiniai) egzistuoja tik kaip sąlyginiai duomenys, smarkiai padidindami net ir išsamesnių esamų epigenominių žemėlapių skaičių, įvairovę ir išsamumą. Mes taip pat pateiksime 25 chromatino būsenų, paremtų 12 sąlyginių ženklų 127 mėginiuose, anotacijas ir 50 chromatino būsenų, pagrįstų 29 epigenominiais ženklais 7 mėginiuose, anotacijas, kurios iki šiol yra išsamiausias norminių anotacijų rinkinys visame žmogaus genome. Kaip rodo mūsų pirminės analizės, gauta nekodinės žmogaus genomo dalies anotacija gali padidinti būsimų genų reguliavimo, ląstelių diferenciacijos, genetinės variacijos ir žmonių ligų tyrimų galingumą.

Metodai

Signalų takeliai.

Histonų žymėjimui ir DNase signalo takeliams mes panaudojome etaloninių epigenomų signalo takelių versiją, pagrįstą loglog P- 10 praturtėjimo verte, palyginti su įvesties valdymu, remiantis Puasono paskirstymu iš (Roadmap Epigenomics Consortium et al ., 2015) 10, pasiekiama per //compbio.mit.edu/roadmap/. Kai kurie iš šių etaloninių epigenomų yra pagrįsti keliais biologiniais mėginiais, kurie buvo sujungti, tačiau mes kiekvieną etaloninį epigenomą vadiname „pavyzdžiu“. Signalą mes panaudojome tik 1-22 ir X chromosomoms. RNR sekos duomenims mes vienodai apdorotus nesusijusius signalo takelius, taip pat prieinamus iš tos pačios vietos, pavertėme normalizuotomis RPKM reikšmėmis, tada pridėjome vieną, o tada paėmėme žurnalo bazę. 2 vertė. Normalizuotos RPKM vertės buvo apskaičiuotos padauginus nenormalizuoto signalo vertę iš 10, tada padalijant iš skaitymo ilgio ir egzoninių parodymų skaičiaus sandaugos, neįskaitant mitochondrijų, ribosomų ir viršutinės 0, 5% signalo vertės 10 . Šiuos signalų takus histono žymėms, DNazės ir RNR-seq duomenims konvertavome į 25 bp skiriamąją gebą, paimdami bazinio signalo lygio vidurkį, persidengiantį kiekviename 25 bp kaupiklyje. DNR metilinimui mes panaudojome tolygiai apdorotus viso genomo bisulfito duomenis 10, kurie kiekvienoje bazėje suteikė metilinto frakcijos dalį visose CpG, turinčiose daugiau kaip tris skaitymo atvejus. Mes užpildėme trūkstamas bazių reikšmes CpGs, pakeisdami jas genomo vidurkiu, skirtu DNR metilinimui treniruotės metu, ir chromosomos vidurkiu, naudojant prognozuotojus, nes šis žingsnis buvo atliktas kiekvienoje chromosomoje atskirai.

Mes pasirinkome −log 10 P vertės signalo takus, o ne histono žymių ir DNase raukšlių keitimo takus, nes jie buvo paskirstyti kaip pirminiai signalo takeliai analizėms (Roadmap Epigenomics Consortium et al ., 2015) 10 remiantis tuo, kad geriau signalo ir triukšmo savybės. Visų pirma, abu takelių rinkiniai buvo sukurti atsižvelgiant į labai sekamų duomenų rinkinių paėmimą į tą patį sekos gylį, taigi −log 10 P vertės takelyje nė vienas duomenų rinkinys neturėjo neproporcingai aukšto signalo vien dėl to, kad buvo labai seka, o kita vertus Buvo įtrauktos rankiniu būdu sekamų duomenų rinkiniai ir kai kuriais atvejais jie turėjo vietas su dideliais kartų keitimo signalais, atsirandančiais dėl triukšmo, o „log 10 P“ vertės takelio vertės nebuvo tokios aukštos. Be to, dėmesys „log 10 P“ vertės takams yra labiau suderintas su numatytosios „ChromHMM 21“ dvejetainės dalies, naudojamos chromatino būsenai mokytis, pagrindu.

ChromImpute metodas. ChromImpute metodas nuspėja tikslinio ženklo signalą tiksliniame pavyzdyje, remdamasis dviem požymių klasėmis: (i) kiti tame pačiame pavyzdyje pažymėti ženklai ir (ii) tikslinis ženklas kituose pavyzdžiuose. Prognozatoriai, integruojantys šias savybes, yra mokomi atsižvelgiant į kiekvieną imtį, kuriai turime tikslinį ženklą, išskyrus tikslinį imtį. Tuomet kiekvienas apmokytų prognozuotojų būrys yra pritaikomas tikslinėje imtyje ir jų prognozės apskaičiuojamos kaip vidurkis, kad būtų gautos galutinės prognozės. Tikimasi, kad ansamblio požiūris vidutiniškai sumažins šališkumą, susijusį su bet kokiu vienu numatytoju.

Formaliai tegul o c, m, p parodo stebėtą ženklo m reikšmę c pavyzdyje p vietoje . Tegul M c, m žymi c pavyzdžio taškų rinkinį tarp tų, kurie gali būti naudojami numatyti m žymę. Pažymėkime C m pavyzdžių rinkinį, kuriame pažymėtas m ženklas. Tegul m t žymi tikslo ženklą ir c t tikslinį pavyzdį. Norėdami numatyti ct pavyzdžio žymėjimą m t kiekvienam mėginiui c t ′ ∈ C m t \ { c t }, mes atskirai apibūdiname ypatybes. C t ′ pavyzdyje leidžiame žymėti M I

Image

, kuris yra bendrųjų ženklų tarp c t ir c t ′ pogrupis, kuris gali būti naudojamas numatyti tikslinį ženklą m t , o tada apibrėžti dvi ypatybių klases, kad būtų galima numatyti ženklo m t signalą pavyzdyje c t ′ a taikinio genomo padėtis p .

1. Funkcijos, pagrįstos kitų tame pačiame pavyzdyje pažymėtų ženklų rinkiniu. Kiekvienam ženklui m ∈ M I ir kiekvienai n reikšmei mes apibūdiname s m, n savybes taip, kad n = 500 i arba n = 25 i sveikoms sveikoms reikšmėms i = −20, …, 20. Funkcijai s m, n priskiriama reikšmė oct ′, mml, p + n. Mūsų žymėjime p + n nurodo vietą toje pačioje chromosomoje kaip p , bet bazinė padėtis pasislinko n . Tai reiškia, kad yra savybių tikslinėje padėtyje ir kas 25 bp per 500 bp, o kas 500 bp per 10 000 bp tiek prieš, tiek pasroviui nuo tikslinės padėties.

2. Savybės, pagrįstos tiksliniu ženklu kituose pavyzdžiuose. Kiekvienam ženklui m ∈ M I , g ∈ { vietinis, globalus } ir k = 1, …, min (10, | C I |) apibrėžiame bruožus f m, g, k , kur apibrėžiame, kad C I turi būti C m t ∩ C m \ { c t ′, c t }. C I atitinka visus mėginius, turinčius taikinio ženklą ir ženklą, kuris bus naudojamas nustatant panašius mėginius, išskyrus bendrą taikinį ir mėginį, skirtą mokyti numatytojo. f m, g, k turi reikšmę

Image
kur c j yra C I pavyzdys, kuris yra užimtoje padėtyje j, kai kiekvienas mėginys c ∈ C I yra išdėstytas didėjančia d m, g ( c t ' , c ) verte. Jei g = globalus , tada
Image
čia ρ yra Pearsono koreliacijos koeficientas, taikomas c ženklo m reikšmei genomo mastu c t ′ ir c . Jei g = vietinis , tada toje vietoje p

Image

kuris naudoja signalą tikslinėje vietoje ir kas 25 bp intervalą per 500 bp, kad nustatytų artimiausius pavyzdžius. Artimiausio mėginio ryšiai, pagrįsti vietiniu atstumu, buvo nutraukti savavališkai.

Objektų vektorius sukonstruojame sujungdami visas aukščiau apibrėžtas s m, n ir f m, g, k ypatybes. Priemonės, kai naudojant ct pavyzdyje naudojamą nuspėjamąjį elementą, yra apibrėžtos aukščiau, išskyrus tai, kad c t ′ keičiamas į c t .

Konkretūs mūsų numatomi prognozatoriai buvo regresiniai medžiai 27 . Formaliai mes apibrėžiame regresijos medį T , kad būtų padalintų mazgų S rinkinys ir lapų mazgų N rinkinys. Padalintas mazgas s ∈ S gali būti pavaizduotas keturkampiu (f, v, l, r), kur f yra požymis, naudojamas duomenims padalinti, v yra požymio f , kuriuo grindžiamas padalijimas, vertė, ir l ir r yra mazgai S ∪ N. Lapo mazgas n ∈ N gali būti pavaizduotas vienkartine ( e ), kuri yra prognozės reikšmė, susieta su mazgu. Be to, vienas mazgas w ∈ S ∪ N yra nurodytas kaip medžio šaknis. Mes pažymime u objektų verčių, kurioms turėtų būti sukurta išėjimo prognozė, vektorių. Norėdami sugeneruoti prognozę, pirmiausia nustatome kintamąjį z į šaknies mazgą w , o tada, kai z nėra lapo mazgas, jei u. ( Zf ) ≤ zv , leidžiame z = zl, o kitu atveju z = zr, kur ux nurodo funkciją. x vektoriaus u . Kai z yra lapų mazgas, prognozuojama ze .

Regresijos medžius žymime m t remdamiesi mėginio c t ′ mėginių ėmimo vietų rinkiniu P rekursyviai. Mes apibrėžiame mazgo kūrimo procedūrą, kuri kaip įvestis nustato X pozicijų rinkinį ir identifikuoja požymį f ir padalijimo vertę v , pagal kurią padalijamos pozicijos. Procedūroje mes apibrėžiame rinkinius

Image

kur

Image
atitinka p padėties vektoriaus charakteristikos vertę f , kaip apibrėžta aukščiau, kai m t apskaičiuojamas remiantis c t ′ pavyzdžiu . Jei rinkinys
Image
yra tuščias, tai reiškia, kad nėra padalijimo, kurį galima sukurti naudojant abi skaidinio dalis, turinčią bent 20 duomenų taškų, suvaržymą, skirtą sumažinti perpildymą, tada sukuriame lapo mazgą n, kuriame yra nustatyta susijusi mazgo ne išvesties prognozė. į
Image
, tai yra vidutinė ženklo m t vertė pavyzdyje c t ′ visose X padėtyse; priešingu atveju, mes sukuriame padalintą mazgą s ir nustatome sf ir sv atitinkamai f ir v , remiantis

Image

Tai pasirenka padalijimą, kuris sumažina gautos išvesties numatymo kvadrato paklaidą, atsižvelgiant į apribojimą, kad abu skaidinio pogrupiai turi mažiausiai 20 duomenų taškų. Tada mes nustatome sl ir sr sukurtus mazgus, taikydami mazgo sukūrimo procedūrą atitinkamai padėčių rinkinei XL f, v ir XR f, v . Ryšiai už geriausią padalijimo savybę ir vertę buvo nutrūkę atsitiktinai. Įvesties duomenys buvo suapvalinti iki dešimtosios dalies, kad būtų galima generuoti ypatybes, treniruotis ir pritaikyti numatiklius, ir tik tos vertės, esančios treniruočių duomenyse, buvo laikomos padalytomis vertėmis. Šio apvalinimo tikslais DNR metilinimo vertės buvo traktuojamos kaip procentai, tačiau galutinė DNR metilinimo išeiga buvo nurodyta kaip frakcija. Mazgo sukūrimo procedūra iš pradžių iškviečiama visose P padėtyse, kuriant pagrindinį mazgą.

Norėdami prognozuoti c t pavyzdyje pažymėtą m t padėtyje p , apskaičiuojame

Image

čia b yra mėginių ėmimo vietų aibių skaičius ir

Image
žymi regresijos medžio, gauto iš mėginio c t ′, numatymą, kad būtų galima numatyti ženklą m t, naudojant mėginių ėmimo vietų rinkinį P i, kai jis taikomas požymio vektoriui, kaip apibrėžta aukščiau, numatant ženklą m t mėginio c t vietoje p .

Kiekviename mokymo vietų komplekte buvo 100 000 atsitiktinai atrinktų vietų. Mokymui mes panaudojome vieną pozicijų rinkinį, su dviem išimtimis. Mes išmokėme numatyti 3 pakopos ženklus pirminiame įskaityme ir visus įskaitymo balus, susijusius tik su septyniais pavyzdžiais, turinčiais daug ženklų (E003, E004, E005, E006, E007, E008, E017) 10, remiantis 10 trys nepriklausomos 100 000 imties vietų, nes mes turėjome ribotą skaičių skirtingų pavyzdžių, iš kurių mokyti numatytojų. Jei funkcijų, kurias galima apibrėžti tiksliniam pavyzdžių mokymui, rinkinys yra tuščias, o tai atsitiko vertinant nuspėjamąjį pasirodymą, kai buvo išlaikomos kai kurios savybės, mes tą prognozatorių išskyrėme iš ansamblio.

Visos prognozės, išskyrus DNR metilinimą, buvo 25 bp raiškos. DNR metilinimui mes darėme bazines prognozes tik CpG pozicijose, tačiau savybės, pagrįstos kitais ženklais, vis tiek buvo apskaičiuotos 25 bp skiriamąja geba. Mes nedarėme aiškių prognozių dėl kiekvienos chromosomos pirmosios ir paskutinės 10 kb padėties, o vietoj to signalo reikšmė buvo naudojama 0, išskyrus DNR metilinimą, kai ji buvo 0, 5.

Atliekant pirminį įskaitymą, pakopų žymėjimai nustatė, kuriuos ženklus galima naudoti norint įskaityti kitus ženklus (papildomas 2 pav.), Ir mes prognozavome chr1-22 ir chrX. Norėdami įvertinti imputacijos atlikimą su požymių ir ženklų pogrupiais, kurie nebuvo šališki dėl tam tikrų ženklų gilios imties aprėpties, mes atlikome atskirą imputacijų rinkinį, naudodami tik septynis pavyzdžius, turinčius gilų ženklų aprėptį. Šiam įskaitymų rinkiniui mes lygiai taip pat traktavome 1–3 pakopų ženklus, o metodas galėjo būti naudojamas bet kuriame iš šių pakopų turimų ženklų numatyti bet kurį kitą ženklą. Šiems vertinimams prognozavome tik chr10.

Tam, kad būtų galima patenkinti skaičiavimo reikalavimus, susijusius su prognozavimo priemonių komplekso mokymu, o vėliau juos pritaikyti generuoti genomo masto prognozes daugiau nei 4000 duomenų rinkinių, mes pirmiausia įrašėme į diską atsitiktinai atrinktų pozicijų ypatybių pavyzdžius kiekvienam stebimam žymeniui ir mėginiui. Ženklo pavyzdžių pavyzdžių rinkinio ir išrašyto pavyzdžio pakako, kad būtų galima mokyti numatytojus remiantis atranka, kad būtų galima numatyti ženklą bet kuriame kitame pavyzdyje. Atsižvelgiant į bendrą tikslinį pavyzdį, bus naudojami skirtingi funkcijų pogrupiai, atsižvelgiant į tai, kas aprašyta aukščiau, tačiau šis žingsnis leido žymiai pakartotinai naudoti skaičiavimus ir atmintį, kai tas pats ženklas buvo įtrauktas į kelis pavyzdžius. Išrašius mokymo pavyzdžius, skirtingi prognozuotojai galėtų būti mokomi lygiagrečiai. Prognozatorių taikymas norint įskaityti viso genomo reikšmes buvo lygiagretus skirtingiems mėginiams, žymėms ir chromosomoms. Norėdami efektyviau apskaičiuoti lokaliausių artimiausių mėginių užsakymą kiekvienoje vietoje, atlikdami viso geno prognozes, tai yra kompiuterinis reikalavimas, mes pasinaudojome informacija apie artimiausių mėginių užsakymą anksčiau apsvarstytoje vietoje, kuri dažnai būtų labai panaši.

Palyginimas su tiesine regresija, artimiausio kaimyno ir vienos imties treniruočių prognozėmis. Linijinei regresijai ir artimiausio kaimyno palyginimui prognozes apsiribojome chr10. Tiesinė regresija buvo weka (v.3.7.3) 51 įgyvendinimas su keteros normalizavimo parametru, lygiu 1. Palyginimui su artimiausio kaimyno metodais mes panaudojome iki dešimties artimiausių kaimynų, kuriuos apibrėžė H3K4me1, tiek vietiniam, tiek globaliam. atstumas, kaip apibrėžta aukščiau. Mes pasirinkome H3K4me1 tokį, koks jis buvo apibrėžtas visuose mėginiuose ir susietas su labiau mėginių specifiniais modeliais 3, 4 . H3K4me1 numatymui mes panaudojome H3K4me3. Panašiai kaip palyginimui su treniruotėmis, kurių pagrindą sudaro viena artimiausia imtis, mes pasirinkome artimiausią imtį pagal visuotinę H3K4me1 koreliaciją, išskyrus H3K4me3 naudojimą prognozuojant H3K4me1.

Genų komentarai, raiška, konservuoti elementai. Genų anotacijos praturtinimui mes panaudojome modifikuotą GENCODE 10 genų anotacijų 52 versiją, į kurią buvo įtraukti tik ilgi nuorašai, naudojami („Roadmap Epigenomics Consortium et al .“, 2015) 10 . Norėdami apibrėžti išreikštų genų rinkinį kiekviename pavyzdyje, mes sujungėme baltymus koduojančius genus ir nekoduojančius RNR rinkinius, pasirinkdami tuos genus, kurių RPKM ≥ 0, 5 buvo perdirbti (Roadmap Epigenomics Consortium et al ., 2015) 10 . Evoliuciškai konservuoti elementai buvo „SiPhy-pi“ konservuotų elementų hg19 galiojimo laikas, apie kuriuos anksčiau buvo pranešta 38, 53 .

Signalų šilumos žemėlapių grupavimas. Signaliniai šilumos žemėlapiai buvo sugeneruoti pirmiausia atsitiktinai parenkant 2 000 25 bp intervalus genome, kurie sudaro vieną kiekvienos matricos matmenį. Kitas matmuo atitinka skirtingus pavyzdžius, kuriuose buvo pastebėtas ženklas. Elementų išdėstymas abiejuose matricos matmenyse buvo nustatytas naudojant Matlab hierarchinio grupavimo įgyvendinimą ir stebimiems duomenims pritaikytą optimalų lapų išdėstymą 54 . Koreliacijos atstumas buvo naudojamas, išskyrus DNR metilinimo eilučių grupavimą, H3K23me3, H4K5ac ir RNR-seq, kur buvo naudojamas Euklido atstumas, nes eilučių dispersija nebuvo lygi. Numatytų duomenų matrica pagrįsta tuo pačiu eilučių ir stulpelių išdėstymu, koks yra sukurtas remiantis stebimais duomenimis.

Chromatino būsenos, pagrįstos numanomais duomenimis. Chromatino būsenos buvo numanomos sąlyginiais duomenimis naudojant „ChromHMM 21“ . Duomenys buvo suskaidomi dvejetainiu būdu 200 bp skiriamąja geba, vidutiniškai apskaičiuojant aštuonis 25 bp intervalus, sutampančius ir naudojant vidutinį signalo slenkstį 2. Buvo išvestos dvi modelių rūšys. Viename modelyje buvo naudojami 12 pakopų 1 ir 2 ženklai visuose 127 pavyzdžiuose. Antrasis modelis buvo pagrįstas visais 1–3 pakopų ženklais, priskiriamais visuose septyniuose pavyzdžiuose ir turinčiuose gilų ženklų aprėptį, kur patikimiau priskyrėme 3 pakopos ženklus. Buvo gautos tiek užpakalinės tikimybės, tiek kiekvienos būsenos minkštos priskyrimai, tiek kietos užduotys, pagrįstos maksimaliu užpakaliu, tačiau visos chromatino būsenos analizės buvo pagrįstos kietosiomis užduotimis. Remiantis stebimais duomenimis, chromatino būsenos buvo gautos iš (Roadmap Epigenomics Consortium et al ., 2015) 10 .

Chromatino būsenos priskyrimas pagal ženklų pogrupio žemėlapius buvo nustatytas naudojant „ChromHMM 21“ komandą „EvalSubset“. Tai panaši į anksčiau aprašytą procedūrą 20, tačiau pagrįsta sunkiais uždaviniais.

Vieno ženklo skambučiai. „Macs2“ (versija 2.0.10) 55 buvo panaudotas sąlyginio signalo duomenų viršūnėms iškviesti. Komanda „bdgpeakcall“ buvo naudojama generuoti „siaurus“ skambučius, o „bdgbroadcall“ komanda buvo naudojama generuoti „gappedPeaks“ su „-c“ ribos žyma buvo nustatyta 2. Šie piko skambučiai buvo palyginti su atitinkamais piko skambučiais, remiantis stebimais duomenimis, gautais iš „Kelių žemėlapio epigenomikos konsorciumo“. et al ., 2015) 10, kurie taip pat buvo sukurti naudojant „Macs2“, bet remiantis komanda „callpeak“, pritaikyta suderintiems skaitymams.

Palyginimas su GWAS analize. NHGRI GWAS katalogo 33 turinį mes gavome 2014 m. Rugsėjo 12 d. Per „UCSC Genome Browser 56“ . Suskirstėme įrašus į tyrimus remdamiesi unikalia „PubMed ID“ ir bruožo kombinacija. Kiekviename tyrime mes išfiltravome SNP rinkinį taip, kad du SNP nebuvo toje pačioje chromosomoje 1 MB atstumu vienas nuo kito. Mes tai padarėme atlikdami SNP klasifikavimą tyrime pagal jų P reikšmės reikšmę ir tada filtruodami SNP, jei jis buvo ne didesnis kaip 1 Mb nuo aukštesnio rango SNP, kuris nebuvo filtruojamas. Tyrėme signalo lygio reikšmingumą stebėtiems ir atskirai imputuotiems duomenims, susijusiems su SNP rinkiniu, tyrime, palyginti su visais kitais GWAS katalogo SNP, po filtravimo naudojant Mann-Whitney U testą, įdiegtą „Apache Commons Math 3.3“ bibliotekoje. Kiekvienam žymeniui ir atskirai stebėtiems ir sąlyginiams duomenims apskaičiavome apskaičiuotus klaidingų atradimų rodiklius (FDR) kiekviename P vertės slenkstyje, kontroliuodami kelis tyrimo ir mėginių derinius. Mes tai padarėme sugeneruodami 100 atsitiktinių tyrimo uždavinių per filtruojamų SNP rinkinį per visus tyrimus, tada iš naujo apskaičiavome signalo asociacijų reikšmingumą. P vertės, atitinkančios P vertę, buvo įvertintos apskaičiuojant vidutinį mėginių tyrimo derinių, kurie pasiekė tą reikšmingumo ribą, kai yra permutuotas katalogas, skaičių, padalytą iš bendro derinių, pasiekusių reikšmingumo ribą, skaičiaus, remiantis faktiniu katalogu, skaičiaus. Jei mažiau reikšminga P vertė turėjo iš pradžių mažesnį FDR įvertį nei reikšmingesnė P vertė, tada reikšmingesnė P vertė taip pat gavo tą mažesnį FDR įvertį. Mes parodėme pirmąsias dešimt permutacijų, sugeneruotų P vertės palyginimo grafikuose. Norint palyginti reikšmingiausią sąlyginį imtį su vidutiniu signalu, vidutinio signalo FDR reikėjo tik norint kontroliuoti, kad būtų galima išbandyti kelis tyrimus, nes nebuvo imčiai būdingų prognozių. Atliekant šį specifinį palyginimą, sąlyginių duomenų FDR buvo nustatyti taip, kaip aprašyta aukščiau, tačiau atsižvelgiant tik į reikšmingiausią visų reikšmių P vertę, gautą konkrečiame tyrime, tiek faktiniame, tiek kiekviename atsitiktinių imčių kataloge.

Motyvo analizė. Motyvo analizė buvo atlikta kiekvienam mėginiui, kuriame buvo DNase duomenų. Praturtėjimo pagrindas buvo tos vietos, kuriose DNase signalas buvo didesnis nei 5 stebėtuose duomenyse ir mažesnis nei 1 sąlyginiuose duomenyse. Praturtėjimo fonas buvo apribotas visose vietose, kurių stebimas DNazės signalas buvo didesnis nei 5. Buvo atlikta papildoma analizė, kai priešakyje buvo visos vietos, kuriose DNase signalas buvo didesnis nei 5, su visu genomo fonu. Motyvo analizė buvo atlikta naudojant anksčiau aprašytą programinę įrangą ir surinktą motyvų rinkinį 57 .

Prisijungimo kodai.

Visus numanomų signalų duomenų rinkinius ir maksimalius skambučius bei chromatino būsenas, pagrįstus numanomais duomenimis, galite rasti //compbio.mit.edu/roadmap/. „ChromImpute“ programinę įrangą galima rasti adresu //www.biolchem.ucla.edu/labs/ernst/ChromImpute/, o šaltinio kodas pateikiamas kaip 1 papildomas failas ir prižiūrimas //github.com/jernst98/ChromImpute.

Papildoma informacija

PDF failai

  1. 1.

    Papildomi skaičiai

    Papildomi 1–43 paveikslai

„Excel“ failai

  1. 1.

    1 papildoma lentelė

    Anatomija

  2. 2.

    2 papildoma lentelė

    GWAS su FDR

  3. 3.

    3 papildoma lentelė

    Priskyrimo sutartis

ZIP failai

  1. 1.

    Papildomas kodas

    Pirminis kodas