Empirinės įžvalgos apie mažos RNR sekos stochastiką | mokslinės ataskaitos

Empirinės įžvalgos apie mažos RNR sekos stochastiką | mokslinės ataskaitos

Anonim

Dalykai

  • Statistiniai metodai
  • Statistika

Anotacija

Stochastikumo pasiskirstymo pasirinkimas modeliuojant triukšmo pasiskirstymą yra pagrindinė prielaida analizuojant sekos duomenis ir todėl yra labai svarbus norint tiksliai įvertinti biologinį heterogeniškumą ir diferencialinę išraišką. Buvo manoma, kad RNR sekos nustatymo principai seka Puasono pasiskirstymus. Mes surinkome duomenis apie mikroRNR sekos nustatymą ir pastebėjome, kad jo stochastiškumą geriau suderina gama pasiskirstymas, greičiausiai dėl ekspozicinės PGR amplifikacijos stochastinio pobūdžio. Savo išvadas patvirtinome dviem nepriklausomais duomenų rinkiniais: vienas - mikroRNR sekos nustatymui, kitas - RNR sekos nustatymui. Paskatintas gama pasiskirstymo stochastikumu, mes pateikėme paprastą RNR sekos duomenų analizės metodą ir parodėme jo pranašumą prieš tris egzistuojančius diferencinės raiškos analizės metodus, naudojant tris duomenų pavyzdžius - techninių ir biologinių duomenų kopijas.

Įvadas

Naujos kartos seka yra stochastinis arba „triukšmingas“ 1 procesas. Vidinis triukšmo šaltinis yra neatsiejamas biocheminių procesų atsitiktinumas rengiant biblioteką ir skaitant 2 kartą . Taigi pakartotinis to paties pavyzdžio seka (ty „techninis pakartojimas“) gali sukelti skirtingą sekos seką 3 . Tinkamas triukšmo pasiskirstymo supratimas yra labai svarbus renkantis tinkamą paskirstymo modelį, kad būtų galima daryti statistinius duomenis ir kad būtų galima tiksliai įvertinti biologinį heterogeniškumą ir atskirų genų skirtingą išraišką.

Literatūroje manoma, kad vidinis RNR sekoschatiškumas atitinka Puasono pasiskirstymą. Pvz., Daroma prielaida, kad modeliuojant populiarių įrankių, skirtų diferencijuotai išreikštiems genams identifikuoti (pvz., EdgeR 4 ir DESeq 5 ), ir statistinių metodų, kaip klasifikuoti genus 6 ar 7 pavyzdžius, techninių variacijų modeliavimui yra Puasono skirstinys. Tačiau ši prielaida visų pirma grindžiama argumentu, kad duomenų sekos sudarymas yra atskiras skaičius, o patvirtinamieji empiriniai įrodymai yra labai riboti 8 . Be to, šie empiriniai įrodymai buvo gauti tik iš skaitymo generavimo etapo techninių pakartojimų (ty du tos pačios bibliotekos alikvotai, skirti dviem srauto elemento juostoms), o ne dėl bibliotekos paruošimo etapo.

Mes ištyrėme vidinį mikroRNR (miRNR; mažų nekoduojančių RNR klasių) sekos nustatymo stochastikumą, remdamiesi techninių replikacijų duomenimis, apimančiais ir bibliotekos paruošimo, ir skaitymo generavimo žingsnius. Mes surinkome dviejų sarkomų miRNR sekos duomenis: mikofibrosarkomą (MXF) ir piktybinę pleomorfinę pluoštinę histiocitomą (PMFH), kurioms kiekviena buvo paruošta bibliotekoje ir seka šešis kartus, naudojant vienodą eksperimento metodą. Mes pastebėjome, kad miRNR sekos duomenų stochastikumas labiau atitinka gama pasiskirstymą ir pateikė biologinį aiškinimą, pagrįstą eksponentiniu stochastiniu PGR amplifikacijų augimu. Toliau mes patvirtinome šį stebėjimą dviem nepriklausomais duomenų rinkiniais: vienas miRNR sekos nustatymui ir kitas RNR sekos nustatymui. Paskatintas gama pasiskirstymo stochastikumu, mes pateikėme paprastą ir galingą metodą (pagrįstą kubinių šaknų transformacija ir normaliojo paskirstymo metodais) RNR sekos duomenų analizei ir parodėme jo pranašumą prieš tris esamus diferencinės raiškos analizės metodus, naudojant tris duomenų pavyzdžius. atkartoti duomenis ir biologinius atkartoti duomenis.

Rezultatai

Empiriniai duomenys rodo gama pasiskirstymą RNA-seq duomenų stochastikumo prielaidai

Papildomi S1 ir S2 paveikslai rodo bendrą sarkomos lyties kopijų duomenų pasiskirstymą. Kiekvienai miRNR kiekviename mėginyje apskaičiavome sekos sekos vidurkį ir dispersiją šešiose techninėse kopijose. Buvo aiškus vidurkio ir dispersijos santykis, kuris priklausė nuo vidurkio (1 pav.). Mažai skaitomų miRNR (apytiksliai reikšmių vidurkis yra <10 MXF ir <30 PMFH atveju) dispersija apytiksliai lygi vidurkiui; likusių miRNR (apibūdinamų kaip labai gerai perskaitytų miRNR) dispersija padidinta maždaug su vidurkio kvadratu. Ankstesnis vidutinio dispersijos santykis atitinka Puasono skirstinį, galbūt dėl ​​mažai skaitomų miRNR retumo; tačiau pastarasis atitinka gama pasiskirstymą 9 . Norėdami dar labiau įvertinti šį teiginį, kiekvienai miRNR mes apskaičiavome p-reikšmę Kolmogorovo – Smirnovo tinkamumo bandymui, darant prielaidą, kad tai yra Puasono pasiskirstymas arba gama, ir nubraižėme kiekvieną iš jų pagal vidurkį (2 pav.). Ši analizė patvirtino, kad mažos skaitymo vertės miRNR linkusios sekti Puasono pasiskirstymą (tai yra, p-vertės tolygiai pasiskirstančios p-vertės skalėje nuo 0 iki 1), tačiau didelės skaitymo vertės miRNR labiau atitinka gama paskirstymą.

Image

Plokštės ( C, D ) orientuojasi į tų pačių brėžinių mažai skaitomą dalį. Mėlyna vientisa linija yra įstrižainė. Raudona punktyrinė linija yra tiesi linija, skirta aukštai nuskaitytoms miRNR kiekviename mėginyje, o pritvirtintos linijos formulė pateikiama raudona spalva.

Visas dydis

Image

( A ) MXF; ( B ) PMFH.

Visas dydis

Be mūsų pačių duomenų, mes taip pat stebėjome tą patį vidutinio dispersijos santykį miRNR sekos nustatymo duomenyse iš „miRNA 10 kokybės kontrolės tyrimo“ (papildomas S3 pav.) Ir RNR sekų nustatymo duomenyse iš 3 sekos kokybės kontrolės konsorciumo (papildomas paveikslas S4). Šios išvados patvirtina mūsų rezultatų tvirtumą ir jų galimą apibendrinamumą RNR sekos nustatymui.

Norėdami parodyti stochastikumo prielaidos svarbą sekos duomenų analizėje, ištyrėme jos poveikį diferencialinės išraiškos analizei, kai yra tik techniniai pakartojimai (pvz., Analizuojant jungtinius pavyzdžius). Kadangi tokie eksperimentai paprastai apima tik nedidelį skaičių techninių pakartojimų, dispersija paprastai yra apytiksliai apskaičiuojama kaip vidurkio funkcija atsižvelgiant į paskirstymo suvaržymą, o ne vertinama empiriniu būdu, kad būtų išvengta statistiškai nepageidaujamų padarinių įvertinant vidurkį ir dispersiją. iš negausių duomenų. Mūsų analizėje buvo lyginamas vidutinis išraiškos lygis tarp MXF ir PMFH kiekvienoje iš jų 352 bendrų labai skaitomų miRNR (papildoma lentelė S1) ir apytiksliai apskaičiuotas dispersija pagal gama pasiskirstymą arba Puasono pasiskirstymą. Tiek gama pagrįstas testas, tiek Puasono bandymas buvo atlikti pagal apibendrintą tiesinio modelio sistemą 11 . 3A paveiksle lyginamos p vertės, gautos atlikus du bandymus. Poissono pagrindu atliktas testas lėmė daug mažesnes p vertes, nes labai įvertintas dispersijos neįvertinimas, kai daroma prielaida, kad dispersija lygi vidurkiui, todėl atsirado daug klaidingai teigiamų atradimų. Keturiolikos miRNR Poisono p-vertė buvo mažesnė kaip 0, 0001, o gama pagrįsta p-vertė buvo didesnė kaip 0, 5. Šių 14 miRNR kartotekos (papildomas paveikslas S5) rodo akivaizdų reikšmingų skirtumų tarp jų vidutinės gausos tarp MXF ir PMFH trūkumą.

Image

( A ) Vulkano kartos pakitimas ir statistinė reikšmė skirtingai miRNR raiškai. MiRNR specifinis –log10 (p reikšmė) palyginant MXF ir PMFH, remiantis Puasono pasiskirstymo prielaida (mėlynieji taškai) arba gama pasiskirstymo prielaida (raudoni taškai) nubraižomas atsižvelgiant į miRNR specifinį logaritminį santykį tarp MXF ir PMFH. ( B – E ) Vulkano brėžiniai, lyginantys diferencialinės miRNR išraiškos p-vertes, pagrįstas dviejų mėginių t-testu po kubinės šaknies transformacijos (CRT) (raudoni taškai), palyginti su p-vertėmis, pagrįstomis apibendrintu tiesinio modelio metodu, darant prielaidą, kad gama pasiskirstymas (mėlynieji taškai) ( B ), kraštasR (mėlynieji taškai) ( C ), DESeq (mėlynieji taškai) ( D ) ir voom (mėlynieji taškai) ( E ).

Visas dydis

Gama pasiskirstymą galima paaiškinti eksponentiniu stochastiniu PGR amplifikacijos augimu

RNR-seq duomenų gama paskirstytas pobūdis gali būti paaiškinamas PGR amplifikacijos panaudojimu ruošiant biblioteką ir pradiniame skaitymo generavimo etape. PGR molekulę amplifikuoja eksponentiškai: su kiekvienu ciklu molekulė tam tikra tikimybe (ty amplifikacijos efektyvumu) dvigubėja . Per kelis ciklus kiekviena pradinio mėginio molekulė gali vystytis įvairiomis kryptimis, atsižvelgiant į tai, ar ji dvigubėja kiekviename cikle. Taigi kiekvienos molekulės amplifikuoto skaičiaus tikimybės pasiskirstymas atitinka eksponentinį pasiskirstymą. Kai miRNR vaizduoja kelios molekulės pradiniame audinio mėginyje, jos skaičius po PGR amplifikacijos yra kiekvienos molekulės amplifikuoto skaičiaus suma; todėl jo pasiskirstymas yra eksponentinių pasiskirstymų suma, kurią žymi gama skirstinys 12 . Trumpai tariant, sekos skaičiavimas reiškia eksponentiškai amplifikuoto miRNR molekulių produkto, kurio stochastiškumas yra geriau suderintas pagal gama, o ne Puasono pasiskirstymą, rezultatą. Remiantis šiais argumentais, gama pasiskirstymas greičiausiai bus svarbus bet kokio kiekybinio įvertinimo naudojant PGR metodus stochastikumui.

Gama pasiskirstymas reiškia paprastą ir galingą metodą, pagrįstą kubinių šaknų transformacija, RNR-seq duomenų analizei

Nors mūsų gama pasiskirstymo pagal apibendrintą tiesinį modelį analizės metodui reikalinga statistinė kompetencija, gama pasiskirstymą galima analizuoti paprastai ir tiksliai, naudojant kubinių šaknų transformaciją ir normaliojo pasiskirstymo metodus, tokius kaip dviejų grupių t-testas. palyginimas 13, 14 . Mes taikėme šį paprastą metodą, norėdami palyginti du sekso kopijų rinkinius ir radome puikų sutikimą su sudėtingesniu metodu, pagrįstu apibendrintu tiesiniu modeliu (3B pav.). Šis iš karto pritaikomas sprendimas yra lengvai prieinamas tiek kiekybiniams, tiek ne kiekybiniams mokslininkams tyrimams su techniniais atkartojimais (pavyzdžiui, ląstelių linijų ar jungtinių mėginių tyrimams 15, 16 ).

Biologinių pakartojimų analizei buvo sukurti statistiniai metodai, tokie kaip „edgeR 4“, „DESeq 5“ ir „Voom 17“, leidžiant dispersijai viršyti vidurkį. Jie iš principo galėtų būti naudojami analizuoti ir techninius pakartojimus. Šiuos tris metodus pritaikėme lyties kopijų duomenims ir palygėjome su metodu, pagrįstu kubinių šaknų transformacija ir t-testu. Daugeliui miRNR, mūsų metodas lėmė panašias p reikšmes kaip voom, DESeq ir edgeR (panašumo tvarka) (3C – E pav. Ir papildoma S6 pav.). MiRNR, kurių skirtinga raiškos būsena skirtinguose metoduose skiriasi, mūsų metodas buvo labiau suderintas su empiriniais įrodymais (papildomi S7 ir S8 paveikslai).

Mes iškėlėme hipotezę, kad kubinių šaknų transformacija taip pat gali padėti normalizuoti pakartotinius biologinius duomenis ir vėliau leisti naudoti normaliu pasiskirstymu pagrįstus metodus, tokius kaip dviejų imčių t-testas diferencialinės raiškos analizei. Mes ištyrėme šią hipotezę dviejuose viešuose „miRNA-seq“ duomenų rinkiniuose su biologiniais pakartojimais: vienas iš „The Cancer Genome Atlas“ (TCGA) kiaušidžių vėžio tyrimo 18 ir kitas iš krūties vėžio tyrimo 19, palyginti su edgeR, DESeq ir voom. Analizė dar kartą parodė, kad (1) miRNR, kurių skirtinga raiškos būsena skirtinguose metoduose skiriasi, mūsų metodas labai koreliavo su voom, DESeq ir kraštinėmis R (panašumo tvarka) (4 pav.) Ir (2). mūsų metodas buvo labiau suderintas su empiriniais įrodymais (papildomas paveikslas S9 – S12).

Image

Kairiajame stulpelyje pateikiami TCGA kiaušidžių vėžio tyrimo duomenys, lyginant platinai jautrius ir platinai atsparius navikus; dešiniajame stulpelyje pateikti duomenys apie krūties vėžio tyrimą, lyginant invazinę latakų karcinomą ir normalų krūties audinį. Kiekvieno tyrimo metu buvo analizuojami labai nuskaityti genai (apibrėžti kaip vidurkis> 10).

Visas dydis

Apibendrinant, tiek techninių, tiek biologinių pakartojimų analizei, mūsų metodas suteikia gerą pusiausvyrą tarp pernelyg liberalaus kraštoR tendencijos ir per didelio konservatyvumo DESeq 20 . Be to, mūsų metodas konceptualiai ir skaičiavimo požiūriu yra daug paprastesnis nei voom. Be to, mūsų metodas leidžia esamą statistinę metodiką, sukurtą mikro matricų duomenims, išplėsti iki sekos nustatymo duomenų.

Diskusija

Apibendrinant galima daryti išvadą, kad mes supratome pagrindines RNR sekos stochastines savybes: (1) mes pateikėme empirinius įrodymus, kad RNR sekos paskirstymo stochastinis pasiskirstymas yra gama, jei genai skaitomi genai, ir Puasonas, - mažai skaitytų genų, ( 2) mes pasiūlėme biologinį gama pasiskirstymo aiškinimą, atpažindami jo ryšį su eksponentiniais PGR amplifikacijomis, ir (3) mes pasiūlėme paprastą, galingą ir universalų sprendimą, naudodami kubinių šaknų transformaciją ir normaliojo pasiskirstymo pagrįstus analizės metodus. sekos duomenų, kuriuos lengvai gali įvertinti biomedicinos tyrėjai.

Mūsų radinys, susijęs su vidinio stochastikumo gama paskirstytu pobūdžiu, turi didelę reikšmę ne tik diferencialinės išraiškos vertinimui, bet ir plačiai taikant giluminės RNR sekos nustatymą ir kitus kiekybinius metodus, susijusius su PGR amplifikacija. Be to, mūsų išvados pabrėžia, kad svarbu ištirti technologijos stochastiką, naudojant viso eksperimento technines replikacijas.

Metodai

Naviko audinio mėginių rinkimas

Mūsų tyrime buvo naudojami du sujungti minkštųjų audinių sarkomos (STS) pavyzdžiai. Pirmasis - sujungti 27 pirminius mikofibrosarkomos (MXF) naviko audinio mėginius, o kitas - sujungti 27 pirminius piktybinio pleomorfinio pluošto pluoštinės histiocitomos (PMFH) naviko audinio mėginius. Šie naviko mėginiai, visi iš naujai diagnozuotų, anksčiau negydytų navikų, buvo renkami 2000– 2012 m. Memorial Sloan Kettering Cancer Center (MSKCC). Išsamus šių 54 navikų aprašymas bus pateiktas atskirame rengiamame rankraštyje. Žmogaus naviko audiniai, naudojami šiame tyrime, buvo gauti iš dalyvių, pateikusių informuotą sutikimą raštu, o jų naudojimą mūsų tyrime patvirtino MSKCC institucinė apžvalgos taryba. Mūsų tyrimo metodai buvo atlikti laikantis patvirtintų gairių.

Naviko mikrodiskrecija ir RNR ekstrahavimas

Mėginiams ruošti buvo naudojama griežta mėginių kokybės kontrolė. Šviežiai surinktas audinys buvo greitai užšaldytas, kad galutinai būtų įterptas kromolidas ir RNR ekstrahavimas sekos analizei. Kriomoldai (0, 5 × 1 × 1 cm) buvo makrolizuojami prižiūrint tam skirtam minkštųjų audinių sarkomos patologui, kad būtų užtikrintas potipio vienodumas ir pašalinti nekroziniai / normalūs audiniai, kaip aprašyta 21 punkte . RNR buvo išskirta iš maždaug trisdešimt 30 mm kriosekcijų, atitinkančių maždaug 20 mg audinio, naudojant pirmąjį ir paskutinį skyrių naviko turiniui įvertinti; toliau buvo apibūdinami tik mėginiai, kuriuose naviko kiekis buvo 50% ar didesnis. Audiniai buvo homogenizuoti TRIzol (Invitrogen), naudojant Polytron instrumentą (polytron, PT, MR2100; Kinematica AG) 1 minutę, o visa RNR buvo išskirta modifikuotu TRIzol protokolu 19 . Bendras RNR derlius buvo įvertintas nanodropiniu spektrofotometru; išskirtos RNR kokybė buvo įvertinta naudojant Agilent Bioanalyzer ir 1% agarozės gelį, remiantis santykiniu ribosominės RNR 18 S ir 28 S subvienetų gausumu.

Mažos RNR sekos nustatymas ir žemėlapių sudarymas

Kiekvienas sujungtas STS mėginys buvo seka šešis kartus, naudojant nuoseklų eksperimentinį valdymą. Mes panaudojome brūkšninio kodo mažos RNR sekos metodą 22 . Surašėme rodmenis naudodami bioinformatikos vamzdyną, kaip aprašyta 23 punkte . Trumpai tariant, mes pasirinkome skaitymus su įdėklu nuo 16 iki 25 nt. Adapterio sekos buvo išgautos iš sekų skaitymo, remiantis šiais kriterijais: mažiausiai 4 ′ sutapimas su adapteriu 3 ′ arba mažiausiai 5 ≤ adapterio sutapimas su 1 neatitikimu, išskyrus įterpimus ir ištrynimus adapterio pirmajame nukleotide per brūkšninį kodą. Brūkšniniai kodai buvo priskirti neleisdami jokių neatitikimų. „MiRNA“ sekos skaičiavimo duomenys bus pateikiami paprašius pirmajam autoriui.

Statistinė analizė

Kiekvienam iš dviejų sujungtų STS genų kiekvienam genui apskaičiavome šešių techninių pakartojimų parodymų skaičių vidurkį ir dispersiją. Kiekvieno mėginio atveju mes brėžėme vidurkį plius vieną prieš dispersiją plius vieną tarp genų pagal logaritminę skalę. Norėdami įvertinti tariamo tikimybės pasiskirstymo tinkamumo įrodymus kiekvienam sujungtam mėginiui kiekvienam genui, atlikome Kolmogorovo – Smirnovo testą ir apskaičiavome p vertę, darant prielaidą apie Puasono pasiskirstymą ir darant prielaidą, kad: gama pasiskirstymas 9 . Norėdami įvertinti įrodymus, susijusius su MXF ir PMFH lygiavertės išraiškos niekine hipoteze, mes palyginome du sekso kopijų rinkinius, naudodami apibendrintą linijinį modelį, įgyvendintą R pakuotėje glm2. Tiksliau, mes panaudojome glm funkciją, kai kovariatas yra imties grupės (MXF prieš PMFH) ir tapatybės saito rodiklio funkcija; mes panaudojome Puasono šeimą Puasono paskirstymo prielaidai ir gama šeimą gama pasiskirstymo prielaidai. Be to, mes palyginome du sekso kopijų rinkinius, naudodamiesi kubinės šaknies transformacija, po kurios sekė dviejų pavyzdžių t-testas 13, 14 . Palyginimui mes taip pat palyginome du sectuplications rinkinius naudodami „edgeR 4“, „DESeq 5“ ir „voom 17“ . Tiek „edgeR“, tiek „DESeq“ prielaida yra neigiama binomija kaip ribinis pasiskirstymas, o voom skaičiavimo duomenims taiko logaritmo transformaciją ir tada naudoja normaliais metodais pagrįstus metodus su svoriais, gautais iš transformuotų duomenų santykio vidurkio-dispersijos santykio.

MiRQC 10 tyrimo (GSE49816) ir SEQC 3 tyrimo (GSE49712) duomenims buvo paimti schemų brėžiniai, kurių specifinis miRNR dispersija, palyginti su miRNR specifiniu vidutiniu rodmenų skaičiumi. Ankstesniam tyrimui apskaičiavome dviejų A pavyzdžio techninių pakartojimų, sujungtų su dviem C pavyzdžio pakartojimais, ir dviejų B mėginio pakartojimų, sujungtų su dviem D mėginio, pakartojimų vidurkį ir dispersiją., apskaičiavome keturių A mėginio pakartojimų ir keturių B mėginio pakartojimų skaičiaus vidurkį ir dispersiją.

Mes atlikome diferencinę miRNR išraišką, naudodamiesi kubinės šaknies transformacija, atlikdami t-testą, edgeR, DESeq ir voom, naudodamiesi TCGA kiaušidžių vėžio tyrimo 18 duomenimis, palyginome platinai jautrius, palyginti su platina atsparius navikus, ir krūties vėžio tyrimo duomenimis 19, palyginome. invazinė latakų karcinoma, palyginti su normaliu krūties audiniu. Ankstesnio tyrimo duomenimis, platinos būklės duomenys buvo gauti iš pirminio leidinio papildomos medžiagos ir sekos duomenų (perskaičiuota milijonui) iš TCGA duomenų portalo. Pastarojo tyrimo metu audinių tipo duomenys ir sekos nustatymo duomenys (skaičiuojami milijonui) buvo gauti iš pirminio leidinio papildomos medžiagos. Kiekvieno tyrimo metu buvo analizuojami labai nuskaityti genai (apibrėžti kaip vidurkis> 10).

Statistinė analizė buvo atlikta naudojant R 24 .

Papildoma informacija

Kaip pacituoti šį straipsnį : Qin, L.-X. et al . Empirinės įžvalgos apie mažos RNR sekos sudarymo stochastikumą. Mokslas. Atstovas 6, 24061; „doi“: 10.1038 / srep24061 (2016).

Papildoma informacija

PDF failai

  1. 1.

    Papildoma informacija

Komentarai

Pateikdami komentarą jūs sutinkate laikytis mūsų taisyklių ir bendruomenės gairių. Jei pastebite ką nors įžeidžiančio ar neatitinkančio mūsų taisyklių ar gairių, pažymėkite, kad tai netinkama.