Sekuojant pirmosios krypties cdna biblioteką, išryškėja viso ilgio transkriptomos gamtos komunikacijos

Sekuojant pirmosios krypties cdna biblioteką, išryškėja viso ilgio transkriptomos gamtos komunikacijos

Anonim

Dalykai

  • Bioinformatika
  • RNR sekos nustatymas
  • Transkriptika

Anotacija

RNR (ssRNR-seq) sekvenavimas masiškai lygiagrečiai sruogų sekai pasirodė kaip galingas įrankis sudėtingų transkriptų profiliavimui. Tačiau daugelis dabartinių ssRNR-seq metodų kenčia dėl nepakankamo tiek RNR 5 ', tiek 3' galų atstovavimo, o tai gali būti priskirta antrosios grandinės cDNR sintezei. RNR 5 ′ ir 3 ′ galai turi svarbią informaciją genų reguliavimui; būtent transkripcijos pradžios vietos (TSS) ir poliadenilinimo vietos. Pateikiame naują ssRNR-seq metodą, kuris neapima antrosios grandinės cDNR sintezės, nes mes tiesiogiai jungiame sekadavimo adapterius prie pirmosios krypties cDNR (DLAF). Šis naujas metodas, turintis mažiau fermentinių reakcijų, lemia aukštesnę bibliotekų kokybę nei įprastas. DLAF bibliotekų sekos nustatymas ir naujas analizės vamzdynas leidžia profiliuoti tiek 5 ′ galus, tiek poliadenilinimo vietas beveik bazine skiriamąja geba. Todėl DLAF siūlo pirmąjį genomikos įrankį, norint gauti „pilno ilgio“ transkriptą su viena biblioteka.

Įvadas

Masiškai lygiagreti RNR (RNR-seq) sekvenavimas pakeitė mūsų supratimą apie transkriptomas 1, 2, 3 . Pastaruoju metu buvo sukurti keli bibliotekos paruošimo metodai, skirti RNR (ssRNR-seq) specifinei sekai nustatyti: 3, 4, 5, 6, 7, 8 . Tačiau dauguma šių metodų apima antrosios grandinės cDNR sintezę po atvirkštinės transkripcijos (RT), kuri gali sukelti daugybę artefaktų, įskaitant informacijos praradimą RNR 5 'ir 3' galuose. Be to, antros grandinės sintezei reikalingi keli paskesni etapai, įskaitant ultragarsą, galų taisymą ir 5, 6, 7, 8 adapterio ligacijos dA- sakinį, kurie gali sukelti cDNR praradimą. Informacijos apie TSS ir poliadenilinimo vietas trūkumas kelia rimtų iššūkių tiriant molekulinius genų reguliavimo mechanizmus.

Antrosios grandinės sintezė gali būti inicijuota iš RNase-H fragmentų arba iš plaukų segtuko struktūros pirmosios krypties cDNR 9, 10, 11 3 ′ gale. Dvigubos cDNR kirpimo ultragarsu procesas gali lemti tiek tiesinių, tiek plaukų segtuko struktūros 5 'galų (1 pav.) Ir 3' galų, turinčių poli (A) uodegą, apipjaustymą. Escherichia coli DNR polimerazės I eksonukleazinis aktyvumas taip pat skaido pirmosios krypties cDNR 3 ′ galus. Antrosios grandinės sintezė iš plaukų segtuko struktūrų, vėlesnis ultragarsas ir galutinis taisymas naudojant T4 DNR polimerazę gali sukelti dirbtinį nukleotidų praradimą arba padidėjimą (α-γ 1 pav.) Ir sukurti dirbtines chimerines cDNR rūšis (β 1 pav.).

Image

Esant aktinomicinui D, RRNR ar poliA praturtinta RNR yra atvirkščiai transkriptuojama. DLAF dvisieniai adapteriai su iškyšuliais yra sujungti su viengrandėmis cDNR molekulėmis. USER pašalina priekines adapterių, kuriose yra dU liekanų, sruogos, o bibliotekos amplifikuojamos PGR. Taikant dUTP metodą, antrosios grandinės cDNR sintezuojama esant dUTP ir suskaidoma ultragarsu, o po to eina standartinė „Illumina“ bibliotekos paruošimo procedūra ir po to USER skaido dU turinčias antrąsias grandines. Skaitymas_1 nurodo rodmenis transkripcijos kryptimi. Skaitymas_2 rodo skaitymus, paeiliui atskirtus nuo kito cDNR molekulių galo.

Visas dydis

Genų ekspresijos (CAGE) 12 „ cap“ analizė, CAGE kartu su giliu sekos nustatymu (DeepCAGE) 13 ir nuorašo lyderių (TL-seq) 14, kurie pagrįsti RNR molekulių, turinčių 5′-dangtelio struktūrą, sodrinimu, sekos nustatymas šiuo metu yra patikimiausi transkripcijos pradžios vietų (TSS) nustatymo metodai. Tačiau CAGE žymės ir TL-seq daugiausia rodo 12, 14 nuorašų 5′-galo bazines sekas; todėl tokiose bibliotekose didžioji dalis transkripto nėra vaizduojama. Be to, CAGE ir TL-seq bibliotekų paruošimo procedūros reikalauja daug darbo ir reikalauja didesnių pradinių medžiagų kiekių. Nauji „NanoCAGE“ ir „CAGEscan“ metodai 5-gaubtais RNR galais praturtinti žymiai sumažino RNR kiekį, reikalingą sėkmingai paruošti biblioteką - 15, 16 .

Taip pat buvo sukurta nemažai metodų, skirtų poliadenilinimo vietų profiliavimui genomo mastu 17, 18, 19, 20, 21, 22, 23, 24, 25 . Šie metodai suteikia svarbių įžvalgų apie specifinių audinių ir ląstelių tipo alternatyvių poliadenilinimo vietų naudojimą. Kadangi dauguma šių metodų seka tik poli (A) uodegos proksimalinį mRNR 3 ′ sritį, informacija iš ne poliadenilintos RNR ir 5 ′ dalies poliadenilintų RNR rūšių yra ribota. Taigi iki šiol nė vienas ssRNR-seq metodas neleidžia vienu metu profiliuoti 5 ′ ir 3 ′ galų bei ekspresuoti nuorašus visame genome, o tai trukdo giliau suprasti sudėtingą transkriptą.

Pateikiame naują ssRNR-seq bibliotekos paruošimo metodą, kuriame tiesiogiai prijungiame adapterius prie pirmosios krypties cDNR (vadinamo DLAF metodu). Dėl antrosios grandinės sintezės buvo galima palyginti trumpesnę darbo eigą ir išsaugoti informaciją iš RNR 5 'ir 3' galų. Išsamus palyginimas su „dUTP metodu“, dabartiniu standartiniu ssRNR-seq metodu, atskleidė didesnį DLAF bibliotekų išeigą, sudėtingumą ir suderinamumą su žemėlapiais. Šiame tyrime mes taip pat palyginome DLAF su ScriptSeq metodu 26, 27 (Epicenter), kuris taip pat neapima antrosios grandinės cDNR sintezės. Palyginti su DLAF, „ScriptSeq“ bibliotekos parodė reikšmingą sekos paklaidą ir mažesnį RNR galų aprėptį. Taigi DLAF yra naujas ir universalus metodas transkriptų profiliavimui ir kiekybiniam įvertinimui.

Rezultatai

DLAF ssRNA-seq bibliotekos generavimas

Neseniai atlikus sistemingą ir išsamų įvairių „ssRNA-seq“ bibliotekų metodų palyginimą, 8 -asis dUTP metodas daugeliu būdų aplenkė kitus metodus, įskaitant santykinį lengvumą eksperimentuojant ir atliekant skaičiavimus bei aukštesnę duomenų kokybę 28 . Nuo tada dUTP metodas tapo standartu rengiant ssRNR-seq biblioteką. DUTP 8 metodo darbo eiga parodyta 1 pav. (Dešiniajame skydelyje). Pradiniam RT gruntuojami atsitiktiniai oligonukleotidai, esant aktinomicinui D, kad būtų slopinamas nuo DNR priklausomas polimerazės aktyvumas. Antrosios grandinės cDNR yra sintetinamas esant dUTP. Tada dvipusės cDNR yra nukirptos ultragarsu, jos galas suremontuotas, dA uodegos ir Y formos sekos adapteriai sujungti. DUTP turinti antroji grandinė skaidoma naudojant uracilui būdingą iškirpimo reagentą (USER) 29, leidžiant nustatyti genomo grandinę, iš kurios buvo gaminami nuorašai.

DLAF metodu pirmosios krypties cDNR sintezė yra panaši į dUTP metodo, po kurios RNR skaidoma nuosekliai apdorojant ribonukleazėmis (RNazėmis), gaunant viengrandines cDNR molekules (1 pav., Kairysis skydelis). Dviejų grandžių sekos sudarymo adapterių pora turi iškyšas, sudarytas iš 5 arba 6 atsitiktinių nukleotidų (1 pav.). Kiekvieno adapterio iškyša susilieja su cDNR galu tam tikru būdu, tuo tarpu kita adapterio grandinė susikaupia su pirmosios krypties cDNR galiniu nukleotidu. Adapterio oligonukleotidų 3 ′ galai yra modifikuoti heksandioliu, kad būtų apribotas konkadencija. Adapterių sujungimas su pirmosios grandinės cDNR atliekamas optimaliomis sąlygomis, kuo mažiau sumažinant GC turinio paklaidą. Adapteriu surištos cDNR atrenkamos pagal dydį, naudojant kietos fazės grįžtamuosius imobilizacijos granulės 30, apdorojamos USER, kad būtų skaidomos deoksiuridino turinčios nesusiejančios adapterių sruogos, sustiprintos PGR ir atliktos masiškai lygiagrečios sekos.

Kad būtų išvengta antrosios grandinės sintezės, taip pat gali būti naudojamas sekavimo adapterių sujungimas tiesiogiai su RNR molekulėmis (RNR jungimas) 3, 31 arba 3'-suskaidyto adapterio 32 panaudojimas RT. Mes nesinaudojome šiais variantais, nes šie būdai turi keletą apribojimų, įskaitant mažą bibliotekos išeigą (žr. 1 papildomą pastabą).

Siekiant palyginti DLAF ir dUTP metodus, pirmosios krypties cDNR mėginiai buvo padalijami po lygiai kiekvienam metodui (1 pav.). Bibliotekos buvo paruoštos naudojant laukinio tipo (WT) pelių embriono kamieno (mES) ląsteles ir Kdm1a trūkumą turinčias mES ląsteles 33 biologiniuose tiražuose. Dėl dUTP bibliotekų mes laikėmės paskelbto protokolo (1 pav.) 8, 28, atlikdami nedidelius pakeitimus, kad būtų galima tiksliai palyginti su DLAF (žr. 2 papildomą pastabą).

Padidėjęs bibliotekos išeiga

Galutinis bibliotekos paruošimo metodo išeiga yra svarbus jo naudingumo rodiklis, ypač kai RNR yra tik nedideliais kiekiais. Pirmiausia palyginome santykinį bibliotekų, paruoštų naudojant DLAF ir dUTP metodus, išeigą su vienodais pirmosios grandinės cDNR produkto kiekiais. Kiekybinę ir pusiau kiekybinę PGR mes įvertinome 2% kiekvienos bibliotekos. Vidutiniškai pagal DLAF metodą buvo gautas maždaug penkis kartus didesnis bibliotekos produktas (vidutinis ΔCt = 2, 53, P vertė ( P ) <0, 01, dvipusiai neporiniai mėginiai Studentų t- testas, papildomas 1 pav.). Padidėjęs DLAF metodo išeiga greičiausiai atsiranda dėl sumažėjusio cDNR praradimo keliose pakopose ir (arba) padidėjusio ligavimo efektyvumo naudojant optimizuotas sąlygas.

Padidėjęs žemėlapių sudarymas ir didesnis žemėlapių sudarymas pagal unikalius regionus

Multipleksuotoms bibliotekoms buvo atliekama sekos sekcija viena arba poromis naudojant „Illumina HiSeq 2000“ instrumentą. Visame šiame tyrime skaitymo taškai su transkripcijos orientacija vadinami read_1 ir priešinga orientacija, kaip read_2 (1 pav.). Po standartinio demultipleksavimo ir filtravimo, parodymai buvo suskirstyti į pelės transkriptą ir genomą, naudojant TOPHAT 34, leidžiant iki dviejų neatitikimų. Pirmiausia pastebėjome, kad skaitymų, priskiriamų genomui, procentinė dalis (1 lentelė, stulpelis: suderinimo greitis, bendras) DLAF bibliotekose buvo didesnė nei dUTP bibliotekose. Didesnis žemėlapio tinkamumas buvo pastovus WT (atitinkamai 21, 9% ir 11, 7% didesnis read_1 ir read_2) ir Kdm1a trūkumų turinčiose MES ląstelėse (27, 5% ir 16, 5% didesnis).

Pilno dydžio lentelė

Toliau mes nustatėme parodymų, priskiriamų unikaliems anotuoto genomo regionams, procentinę dalį (1 lentelė, stulpelis: suderinimo greitis, unikalus). Įdomu tai, kad tokių rodmenų procentas buvo žymiai mažesnis Kdm1a trūkumų turinčiose mES ląstelėse nei bibliotekose iš WT mES ląstelių, nepriklausomai nuo naudojamų metodų. Unikalių skaitymų procentinių procentų sumažėjimas Kdm1a deficito MES ląstelėse galėjo atsirasti dėl padidėjusio pelių endogeninio retroviruso (MuERV-L) ar kitų retrotransponuojamų elementų ekspresijos praradus Kdm1a 33 .

Svarbu tai, kad DLAF bibliotekose rodomas didesnis procentas parodymų, atvaizduojančių unikalius genomo regionus, nei dUTP bibliotekose (1 lentelė, stulpelis: DLAF / dUTP, unikalus). Didesnis tokių rodmenų procentas DLAF bibliotekose buvo dažnas WT ir Kdm1a trūkumų turinčiose MES ląstelėse. Vienas iš galimų šio skirtumo paaiškinimų yra tas, kad plaukų smeigtuko formavimas 5-osios pirmosios krypties cDNR (1 pav.) 11 galuose dUTP metodu gali būti efektyvesnis pasikartojančiai sekai. Iš tiesų, unikalaus suderinimo DLAF / dUTP santykis buvo didesnis Kdm1a trūkumą turinčiose MES ląstelėse (maždaug 55, 3%) nei WT mES ląstelėse (maždaug 32, 7%). Be to, DLAF parodė didesnį egzoninių regionų aprėptį, tuo tarpu skaitymai iš dUTP bibliotekų, dažniau priskiriamų intergeniniams regionams (papildomas 2 pav.). DLAF bibliotekos, palyginus su dUTP bibliotekomis, parodė, kad kartojamumas yra daug geresnis nei vienkartiniai genų regionai.

Didesnė aprėptis nuorašų 5 ′ galuose

Toliau palyginome aprėptį išilgai genų. Naudojant RNR-SeQC 28, 35, genai pirmiausia buvo suskirstyti į viršutinės, vidurinės ir apatinės ekspresijos grupes, remiantis jų ekspresijos lygiais. Tada buvo apskaičiuota vidutinė transkriptų nuo 5 ′ iki 3 ′ galų apimtis 5000 vidutiniškai išreikštų genų kiekvienam jų geno ilgio procentiliui. Stebėtina, kad skaitymas_1 iš DLAF bibliotekų pastebimai padidino 5'-galo aprėptį, priešingai nei staigus aprėpties sumažėjimas šalia 5'-galo DUTP bibliotekose (2 pav.). 3 ′ gale dUTP ir DLAF read_2 veikė panašiai. Jokio skirtumo nepastebėta nuorašų viduryje. Didėjančią aprėptį 3 ′ → 5 ′ kryptimi galima priskirti RT ta pačia kryptimi (žr. 3 papildomą pastabą). Taigi, DLAF bibliotekos rodo didelį ir specifinį 5 ′ galo patobulinimą, palyginti su dUTP bibliotekomis.

Image

Santykinis kiekvienos bibliotekos 5000 vidutiniškai išreikštų genų kiekvieno geno ilgio procentilio santykis. Duomenys parodyti iš WT mES ląstelių atsikartojančių (punktyrinių linijų) ir pakartotų (vientisų linijų) vidurkių. Parodyta, kad RNR-SeQC aprėptis normalizuota atsižvelgiant į bendrą parodymų, susietų su 5000 vidutiniškai išreikštų genų, skaičių. DLAF read_1 rodo aiškų praturtėjimą genų 5 ′ gale, tuo tarpu dUTP read_1 rodo išeikvojimą. Abiejuose metoduose „Read_2“ rodmenys yra panašūs visame genų ilgyje.

Visas dydis

TSS aptikimas beveik vieno nukleotido skiriamąja geba

Norėdami dar labiau apibūdinti padidėjusį 5 ′ galų aprėptį, mes nubraižėme pirmojo sekvenavimo „read_1“ nukleotidą (skaitymo-pradžios) išilgai anotuotų TSS iš 5000 vidutiniškai išreikštų genų, atlikdami konkrečią sruogą. Stebėtina, kad giluminė smailė ties tiksliai -1, 0 ir +1 nukleotidais, palyginti su anotuojamais TSS, buvo stebima read_1 iš DLAF bibliotekų (3a pav.), Kur +1 nukleotidas buvo apibrėžtas kaip pirmoji duotojo nuorašo bazė. Priešingai, „dUTP read_1“ 5 ′ gale davė minimalų signalą. DLAF read_1 atveju taip pat pastebėtas nemažas skaitymo pradžios skaičius iki 100 bazių prieš TSS. Šie skaitymo pradžios etapai greičiausiai kilę iš netiksliai pažymėtų TSS arba audinių / ląstelių tipui būdingų TSS. DLAF read_1, bet ne dUTP read_1 lengvai aptikti promotoriaus antisense nuorašai (3a pav.). Priemonės antisense nuorašai buvo užfiksuoti tik praturtinus nestabilias RNR rūšis 36, 37, 38, 39, 40, 41, 42, 43, tokias kaip besiformuojanti RNR ar maža RNR. DLAF leidžia jautriai aptikti mRNR ir retų nekoduojančių RNR rūšių TSS be jokio praturtinimo proceso.

Image

( a ) Pirmųjų sekos „read_1“ nukleotidų aprėptis nubrėžta per 5000 transkripcijos pradžios vietų (TSS) 5000 WS mES ląstelių viduryje ekspresuotų genų. Antisensinės stygos susilyginantys skaitmenys nubraižomi ant neigiamos y ašies. DLAF read_1 rodo gilų anotuotų TSS praturtėjimą. ( b - d ) Palyginimas su DeepCAGE duomenimis. Pradinės DLAF read_1 padėtys rodo maksimumus 0 ir -1 padėtyse CAGE smailių atžvilgiu. DLAF skaitymo_1 smailės šalia Jundo ( b ) ir Ywhae ( c ) TSS iš mES ląstelių (ES) ir pelių žievės neuronų (CN) sutampa su paskelbtomis CAGE smailėmis, gautomis iš smegenėlių (Cbl), embriono (Emb) ir hipokampo. (Hip) 13 . CAGE neaptinka kai kurių genų, tokių kaip Actg1 ( d ), TSS . Aprėptis normalizuojama iki visos ne rRNR, o ne mtRNR - dUTP ir DLAF bibliotekose.

Visas dydis

„CAGE 12“ ir „DeepCAGE 13“, dabartiniai standartiniai TSS profiliavimo metodai, pateikė neįkainojamą informaciją apie genų reguliavimo mechanizmus. Pavyzdžiui, vienas CAGE tyrimas 12 atskleidė skirtingas genų grupes pagal jų promotoriaus naudojimo būdus. Kai kurie genai naudoja vieną dominuojantį nukleotidą kaip TSS (SP klasė), o kita grupė apibūdinama kaip disperguotos TSS per 100 bazių DNR segmentų (BP klasė), kas rodo jų skirtingus reguliavimo mechanizmus 12 . Skaitymo pradžios pikas būtent anotuotų TSS paskatino mus palyginti DLAF duomenis su „DeepCAGE“ duomenimis. Palyginome „DeepCAGE“ etikečių grupes iš pelių embriono, smegenų ir hipokampo 13 su pirmąja sekvenavusia read_1 baze, kurios buvo paruoštos iš WT mES ląstelių arba pelių žievės neuronų. Kaip parodyta 3b pav., Skaitymo pradžios pikas DLAF bibliotekoje tiksliai atitiko TSS, aptiktas CAGE Jund ir daugeliui kitų SP klasės genų (papildomas 3 pav.). BP klasės genui, tokiam kaip Ywhae (3c pav.), Tiek DLAF , tiek CAGE bibliotekos galėtų aptikti platų TSS pasiskirstymą promotoriaus regione. DUTP bibliotekoje iš esmės nepavyko aptikti TSS nė vienoje genų klasėje. CAGE nedavė signalų kai kuriems labai išreikštam visur esančiam genui , tokiems kaip Actg1 (3d pav.), Gapdh ir Rpl18 (papildomas 3 pav.), Tuo tarpu DLAF davė atskirus signalus šalia jų anotuotų TSS. Jei kai kurių labai išreikštų visur esančių genų CAGE signalo nėra, tai rodo, kad „Charakteristika“ neturi jokio bruožo arba yra mažesnė „DeepCAGE“ aprėptis.

Be TSS, DLAF taip pat aptinka perdirbtų RNR 5 ′ galus mikroRNR (miRNR) biogenezės metu. MiRNR yra perrašomi kaip ilgi pirminiai nuorašai (pri-miRNR) 44, kuriuos vėliau apdoroja RNase, Drosha, kad būtų sukurta viena ar daugiau miRNR pirmtakų (pre-miRNR) 45 . Šios išankstinės miRNR tada eksportuojamos į citoplazmą ir perdirbamos į subrendusias miRNR 45 . Kaip parodyta 4a pav., DLAF, bet ne dUTP bibliotekose, buvo matomas aiškus skaitymo pradžios procentas, rodantis anksčiau nežinomą „Mir290 pri-miRNA“ TSS, turinčią kelias anotuotas miRNR. Papildomos DLAF smailės tiksliai sutapo su kelių miRNR, pagamintų iš pri-miRNR ir profiliuotų miRNR-seq, 3 ′ galais (4 pav.). Šios smailės greičiausiai žymi įsiterpusių RNR fragmentų, esančių tarp miRNR, 5 ′ galus, susidarančius skildant pri-miRNR. Nei DLAF, nei dUTP metodu neaptikta subrendusių miRNR 5'dalelių. Priežastis, kad subrendusios miRNR buvo prarastos parengiant bibliotekos dydį. Reikėtų paminėti, kad DLAF gali duoti signalą 0 (1 bazė prieš srovę prieš TSS), −1 arba −2 padėtyje, palyginti su RNR 5 ′ galu (1 papildoma lentelė), dėl to, kad Moloney netempliuoja nukleotidų. pelės leukemijos viruso atvirkštinė transkriptazė ar jos variantai 46 (1 papildoma lentelė). Šie rezultatai rodo, kad DLAF yra galingas metodas transkriptų, gautų reguliuojant skilimus, TSS ir 5 ′ galų profiliavimui beveik vieno nukleotido skyra.

Image

( a ) Kalifornijos universiteto Santa Kruso (UCSC) „Mir290“ klasterio WT mES ląstelėse genomo naršyklės vaizdas, rodantis pirminės miRNR (pri-miRNR) skilimo įvykius miRNR biogenezės metu. Žalia: „miRNA-Seq“ signalas. Mėlyna: pirmieji sekos, surinkti read_1 nukleotidai iš DLAF ir dUTP bibliotekų. Distalioji DLAF smailė gali reikšti anksčiau nežinomą Mir290 klasterio pre-miRNR TSS (žalia žvaigždutė). DLAF „read_1“ smailės tiksliai sutampa su pri-miRNR vidinėmis skilimo vietomis (raudona ir ruda žvaigždute). DUTP metodu tokių smailių nebuvo aptikta. ( b ) padidintas dviejų miRNR, „Mir291a“ ir „Mir292b“ (raudoni žvaigždutė) vaizdas. DLAF skaitymo pradžios smailės yra nukleotide šalia kiekvienos miRNR 3 ′ galo, tai rodo, kad DLAF leidžia tiksliai aptikti RNR fragmentų 5 ′ galus, susidarančius apdorojant pri-miRNR. Aprėptis normalizuojama iki visos ne rRNR, o ne mtRNR - dUTP ir DLAF bibliotekose.

Visas dydis

3′-pabaigos apimtis ir poliadenilinimo vietų identifikavimas

Norėdami apibūdinti aprėptį 3 ′ genų galuose, nubraižėme DLAF ir dUTP bibliotekų skaitymo aprėptį šalia anotuotų 3 000 galų iš 5000 vidutiniškai išreikštų genų WT mES ląstelėse (5a pav.). Nors „DLAF read_1“ aprėptis buvo šiek tiek didesnė, „DLAF read_2“ aprėptis buvo mažesnė nei „dUTP“ bibliotekų (5a pav.).

Image

( a ) DLAF ir dUTP bibliotekose skaitymo aprėptis rodoma šalia 5 000 viduryje ekspresuotų genų, anotuotų 3, galų. ( b ) Pakartotinis rašymas nuskaito po pagrindo apipjaustymo. Buvo parinktas nepamatuotas skaitymas_2, prasidedantis T9 ruožu; tada T9 buvo pašalintas (ΔT 9 ) ir pakartotinai sumaišytas. Kaip kontrolė, duomenys taip pat rodomi nukopijavus 9 bazes (ΔN 9 ) iš visų nepažymėtų skaitymo_2. c ) sujungti iš pradžių suderinto skaitymo_2 ir pakartotinai perskaityto_2 signalai po bazinio apipjaustymo. Aprėptis parodyta kaip vieno geno skaičius milijone neskaitytų rRNR. Atskirų pakartojimų duomenys pateikiami plonomis linijomis.

Visas dydis

RT metu, be atsitiktinių pradmenų, mes panaudojome įtvirtintą oligo (dT) pradmenį (T 9 VN, kur V gali būti A, G arba C), kad gautume poliadenilintus mRNR 3 ′ galus. Mes manėme, kad oligo (dT) pradmens panaudojimas galėjo turėti įtakos mažesniam DLAF skaitymo_2 padengimui šalia mRNR 3 ′ galo. Tipiškoje eukariotinėje mRNR poliadenilinimo vieta žymi jungtį tarp genomo užkoduotos 3 ′ neperkeltos srities (UTR) ir poli (A) uodegos; taigi skaitiniai, gauti iš šios chimerinės sekos, nepriskirtų genomui. Mes postuluojame, kad skaičiuojamasis poli (A) uodegų apipjaustymas leistų šiems neatpažintiems skaitymams suderinti genomą. Norėdami išbandyti šią galimybę, pirmiausia pasirinkome skaitymus, kuriuose yra 5′-T9 seka iš neatpažintų skaitymo_2 pradiniame suderinime. Tada mes apipjaustėme T 9 ir vėl juos priskyrėme rinkiniui. Stebėtina, kad T9 apkarpyti rodmenys (čia minimi ΔT 9 ) parodė gilų signalą tik per 50 bazių prieš srovę nuo anotuotų nuorašų 3 ′ galų (5b pav.). Kaip kontrolinę analizę mes taip pat iškirpome devynias bazes iš visų nepažymėtų skaitymo_2, neatsižvelgdami į T 9 ruožą (ΔN 9 ). DLAF bibliotekoms ΔN 9 davė palyginamą signalą su ΔT 9, o tai rodo, kad nemaža dalis neatpažintų read_2 dalelių pradiniame suderinime DLAF bibliotekose buvo gauta iš poliadenilintų 3 'nuorašų galų (5b pav.). Nuosekliai nustatėme, kad dauguma genominių regionų, kuriuos reprezentuoja DLAF arba dUTP ΔT 9, rodo žinomus poliadenilinimo vietų požymius, įskaitant kanonines poliadenilinimo sekas ir besiribojančias U turinčias sekas (žr. 4 papildomąją pastabą ir papildomą pav. 4). Kaip aprašyta anksčiau, atlikus pradinį išlyginimą, dUTP read_2 rodė šiek tiek didesnį 3 ′ galų aprėptį nei DLAF read_2 (5a pav.). Priešingai, DLAF biblioteka parodė žymiai didesnį 3 ′ galų aprėptį, kai ΔT 9 arba ΔN 9 yra įtraukiami (5c pav.).

Įdomu tai, kad DLAF, bet ne dUTP bibliotekose, citozinas kaip dažniausia bazė, esanti ΔT 9 pirmajame nukleotide, yra bazinė (papildomas 4b pav.). Šis citozinas greičiausiai reiškia −1 padėtį skilimo vietose, nes kanoninio 5′-CA-3 ′ adeninas pateks į T 9 seką ir vėliau bus pašalintas atliekant skaičiavimus T 9 . Nuosekliai, pirmoji ΔT 9 bazė skaito DLAF, bet ne dUTP bibliotekos parodė didelę smailę mRNR anotuotų 3 ′ galų –1 padėtyje (papildomas 5 pav.). Mes spėjame, kad DNR polimerazės I eksonukleazės aktyvumas nuo 5 ′ iki 3 ′ antrosios grandinės sintezės metu ir (arba) sonikavimo etape taikant dUTP metodą galėjo iš dalies arba visiškai pašalinti poli (T) uodegas ir dalį 3 ′ UTR. Tai taip pat gali paaiškinti didesnę „dUTP read_2“ apimtį pradiniame suderinime. Didesnė DLAF bibliotekų aprėptis, įtraukus ΔT 9 arba ΔN 9, rodo, kad 3 ′ UTR DLAF bibliotekose yra beveik nepažeisti, todėl jie galėtų būti naudojami poliadenilinimo vietoms profiliuoti, esant beveik bazinei skyrai, romane. analizė.

DLAF transkripto aprėptis nuo galo iki galo

Padidėjusi aprėptis abiejuose mRNR galuose (2, 3, 4, 5 ir papildomi 6 pav.) Rodo, kad DLAF gali būti gera priemonė „pilno ilgio“ transkriptomų profiliavimui. Norėdami kiekybiškai patvirtinti viso ilgio aprėptį, naudodamiesi RNR-SeQC nustatėme genų skaičių, užfiksuotą bent penkiais skaitymais per 50 bazių nuo jų anotuotų 5 ′ arba 3 ′ galų. DLAF read_1 parodė 2500 WT mES ląstelių vidutinio ekspresijos geno reikšmingą 5 ′ galų padengimo pagerėjimą (85, 0% DLAF, palyginti su 55, 9% dUTP, 6a pav.). Trijų ′ galų atžvilgiu, atsižvelgiant į 5a pav. Vidurkį, pradinis dUTP skaitymo_2 žemėlapis apėmė šiek tiek didesnį genų skaičių (66, 3%) nei DLAF (64, 0%). Tačiau, kai buvo įtraukti kartotiniai ΔT 9 arba ΔN 9, DLAF bibliotekos apėmė didesnį genų skaičių nei dUTP bibliotekos (79, 4%, palyginti su 69, 4% su ΔT 9 ir 78, 5%, palyginti su 69, 8% su ΔN 9, 6a pav.) ). Panašios tendencijos buvo stebėtos ir iš viršaus, ir iš apačios ekspresuojamų genų WT ir Kdm1a trūkumų turinčiose MES ląstelėse (papildomi 7 ir 8 pav.).

Image

a ) Genų, padengtų 5 ′ ir 3 ′ galais, procentinė dalis. RNR-SeQC duomenys parodyti 2500 vidutiniškai išreikštų genų WT mES ląstelėse. Pateikti duomenys apie 12, 5 mln. Atsitiktinai parinktų ne rRNR ir ne mtRNR. Parodytas dviejų biologinių pakartojimų vidurkis, o klaidų juostos nurodo duomenų diapazoną. b ) vaizdas iš UCSC genomo naršyklės, esančios „ Nanog“ lokuse. „DLAF read_1“ rodo aiškų anotacijos TSS (žalioji kraštinė) ir vidinio CS (rožinė kraštinė) aprėptį. DLAF perskaičiavus read2, atlikus ΔT 9 analizę, nustatyta poliadenilinimo vieta (geltonas kraštas). Signalai normalizuojami pagal bendrą ne rRNR skaičių ir ne mtRNR nuskaito iš kiekvienos bibliotekos.

Visas dydis

Padidintą viso ilgio aprėptį buvo galima atvaizduoti genomo naršyklėje daugelyje atskirų lokusų (papildomas 9 pav.), Įskaitant Nanog lokusą (6b pav.), Kur DLAF read_1, bet ne dUTP read_1 rodė Nanog TSS aprėptį. DLAF ΔT 9 rodmenys aptiko Refseq Nanog mRNR (NM_028016.3) poli (A) vietą su viena matoma smaile, kuri buvo daug silpnesnė naudojant dUTP metodą (6b pav.). Be to, gilus DLAF rodmens_1, bet ne dUTP rodmens smailės tikslumas buvo pastebėtas Nanogo anksčiau anotuotų izoformų (NM_028016.2 ir uc009dpo.1) 3 ′ galuose. Tikėtina, kad „ Nanog“ mRNR anksčiau buvo skaidoma, kad būtų sutrumpintas 3 ′ UTR, kuris iš pradžių buvo aptiktas vėžio ląstelėse 47 . Visi šie duomenys rodo, kad DLAF bibliotekos tiksliai apibūdina nuorašo 5–15 ir poliadenilinto 3 ′ galo vietas visame genome.

Aukštas bendras našumas

Išraiškos profiliavimo atkuriamumas, aprėpties tolygumas / tęstinumas, sruogų specifiškumas ir bibliotekos sudėtingumas yra svarbūs kriterijai, norint įvertinti bendrą RNR-seq bibliotekos kokybę 28 . Ankstesniame lyginamuoju tyrimu dUTP metodas pagal šiuos kriterijus pralenkė daugelį kitų metodų 28 . Naudodamiesi RNR-SeQC, mes palyginome bendrą DLAF ir dUTP bibliotekų, paruoštų iš WT arba Kdm1a trūkumų turinčių mES ląstelių, rezultatus pagal šiuos kriterijus.

Kaip parodyta papildomame 10 pav., DLAF parodė aukštą Pearsono koreliaciją su dUTP ( r > 0, 963 WT ir> 0, 949 Kdm1a deficito MES ląstelėms), parodant, kad abiejų metodų sukurti genų ekspresijos profiliai buvo labai panašūs. Tarp nepriklausomų pakartojimų DLAF ir dUTP bibliotekos parodė vienodai aukštą atkuriamumą, o tai dar kartą patvirtino mažesnis genų ekspresijos variacijos koeficientas, apskaičiuotas Cuffdiff ir CummeRbund 48 (papildomas 11 pav.). DLAF bibliotekose buvo rodomi nedideli vidutiniai aprėpties tolygumo pokyčiai, kurie buvo šiek tiek, bet reikšmingai didesni nei DUTP bibliotekose (vidutiniškai 5, 06% didesni, P <0, 01, dvipusiai poriniai mėginiai. Studentų t- testas, papildomas 12a pav.) ). Nuorašo aprėpties tęstinumas buvo apibrėžtas kaip nuorašo ilgio dalis, nepadengta jokiais raštais; būtent aprėpties spragos 28 . Tiek WT, tiek Kdm1a trūkumų turinčiose MES ląstelėse DLAF skaitymas_1 rodė mažesnį atotrūkio procentą (vidutiniškai 21, 77%, P <0, 05, dviejų krypčių suporuotų mėginių t- testas) nei dUTP skaitymas_1, nurodant nuolatinį aprėptį. Read_2 iš abiejų metodų, atliktų panašiai (papildomas 12b pav.). Kai matavome sruogų specifiškumą, DLAF parodė didesnį WT mES ląstelių mėginių skaitymo_2 (papildomas 13a pav.) Skaitymo_2 ir Kdm1a trūkumą turinčių ląstelių read_2 ir read_2 specifiškumą . Bibliotekų sudėtingumas buvo apskaičiuotas kaip natų, turinčių unikalias pradines pozicijas, 28 dalys . DLAF bibliotekos rodė žymiai didesnį sudėtingumą tiek read_1, tiek read_2 ( P <0, 05, dviejų pusių poriniai pavyzdžiai Studentų t- testas, papildomas 13b pav.). Neaiški šių krypties specifiškumo ir sudėtingumo patobulinimų šaltiniai. Apibendrinant galima pasakyti, kad ne tik šiek tiek mažesnis aprėpties lygmuo, bet ir DLAF bibliotekos pasižymėjo aukštesne bendra kokybe pagal kelis našumo rodiklius.

DLAF bibliotekų palyginimas su „ScriptSeq v2“ bibliotekomis

„Epicenter“ sukūrė paprastą „ssRNA-Seq“ metodą, pavadintą „ScriptSeq 26, 27“, kuris neapima antrosios grandinės cDNR sintezės. „ScriptSeq“ programoje pirmosios krypties cDNR sukuriama naudojant atsitiktinių imčių oligonukleotidus, konjuguotus su Iliuminos atvirkštiniu pradmeniu 5 ′ gale. Po RT, viengrandžių cDNR molekulių 3′-galai yra hibridizuojami į šabloną perjungiantį oligo, susidedantį iš „žymėjimo sekos“, panašios į Iliuminos priekinio pradmens seką 5 ′ dalyje ir atsitiktinių imties oligonukleotidų ties 3 ′ dalis. Pirmos grandinės cDNR 3 ′ galas po to praplečiamas DNR polimeraze, kad pritvirtintų Iliuminos priekinio pradmens seką 26, 27 .

Siekėme išsiaiškinti DLAF ir ScriptSeq bibliotekų panašumus ir skirtumus. Mes paruošėme bibliotekas naudodami DLAF ir ScriptSeq v2 rinkinį iš E16.5 pelės embriono žievės (mECx) biologiniuose trijose egzemplioriuose. Norėdami pašalinti skirtumus, atsirandančius dėl skirtingų PGR sąlygų, „ScriptSeq“ bibliotekų amplifikacijai priėmėme tas pačias PGR sąlygas, kurios buvo naudojamos DLAF. „ScriptSeq“ bibliotekos parodė žymiai didesnį bendrą atvaizdavimo greitį ir didesnį stygų specifiškumą (žr. 5 papildomą pastabą). Tačiau „ScriptSeq“ bibliotekose buvo mažesnis bibliotekų išeiga ir mažesnis atkuriamumas. Be to, „ScriptSeq“ bibliotekose buvo parodytas žymiai didesnis atotrūkio procentas ir mažesnis aprėpties lygumas, neatsižvelgiant į išraiškos lygį, nurodant labai nepertraukiamą nuorašų aprėptį (galimą paaiškinimą žr. 5 papildomoje pastaboje). Šie duomenys rodo, kad nors „ScriptSeq“ žemėlapių sudarymo sparta buvo didesnė nei DLAF, suplanuoti „ScriptSeq“ skaitymai rodo mažesnį atkuriamumą ir šališką nuorašų populiaciją.

Norėdami patikrinti hipotezę, kad ScriptSeq metodas gali sukurti sekos paklaidą, mes išgavome 50 genomo sekų bazių prieš skaitymą_1 ir apskaičiavome jų vidutinį bazinį kiekį. Mes nustatėme, kad šie genomo fragmentai parodė aiškų „GATCT“ sekos praturtėjimą prieš „ScriptSeq“ skaitymus (7a pav.), Bet ne „DLAF“ tekstus (papildomas 14 pav.). Stebėtina, kad „ScriptSeq“ šabloną perjungiančio oligo žymėjimo seka baigiasi GATCT sankryžoje su atsitiktiniais oligonukleotidais (Epicenter). Taigi mažesnis bibliotekos išeiga ir nepertraukiamas bei netolygus „ScriptSeq“ bibliotekų aprėptis gali būti priskirtas „ScriptSeq“ oligonukleotidų preferencinei hibridizacijai RNR rūšims, turinčioms sekas, papildančias žymėjimo seką.

Image

( a ) Pagrindinis dažnis genominėse sekose prieš skaitymą_1 „ScriptSeq“ bibliotekose. Duomenų vidurkis yra iš trijų biologinių pakartojimų. Seka rodo aiškų poslinkį link GATCT, kuris yra panašus į šabloną keičiančio oligo dalį. b ) aprėptis per visą nuorašų ilgį. RNR-SeQC aprėptis kiekvienam geno ilgio procentiliui parodyta 5000 viduryje ekspresuotų genų. Apimtis yra normalizuota, atsižvelgiant į bendrą parodymų, priskiriamų 5000 vidutiniškai išreikštų genų kiekvienoje bibliotekoje, skaičių. c ) Pirmųjų sekos nukleotidų pasiskirstymas read_1. Pirmosios bazės nubraižytos per TSS. Geltonos (DLAF) ir raudonos (ScriptSeq) linijos yra 5 bazių slenkamasis vidurkis. „DLAF read_1“, bet ne „ScriptSeq“ rodo aukščiausią tašką aplink +1, 0 ir −1 pozicijas. B ir c punktuose punktyrinės ir kietos linijos žymi pavienius ir vidutinius pakartojimus, gautus iš 5000 viduryje ekspresuotų genų. ( d - f ) Palyginimas su DeepCAGE duomenimis. „ScriptSeq“ ir „DLAF“ skaitymo pradžios pozicijos rodomos „ Actb“ ( d ), „ Malat1“ ( e ) ir „ Actg1“ ( f ) lokusams. CAGE duomenys gauti iš smegenų (Cbl), embriono (Emb) ir hipokampo (Hip) 13 . DLAF, bet ne „ScriptSeq“ smailės iš esmės sutampa su CAGE signalais. DLAF bibliotekose, gydomose Klenow, rodomi sumažėję ir platesni signalai pasroviui nuo TSS priklausomai nuo dozės. Aprėptis normalizuojama iki visos ne rRNR, o ne mtRNR - dUTP ir DLAF bibliotekose.

Visas dydis

Tada mes apskaičiavome aprėptį per kiekvieną jų ilgio procentinę dalį. „ScriptSeq“ bibliotekos rodė mažesnį aprėptį tiek 5 ′, tiek 3 ′ galuose nei DLAF bibliotekos (7b pav. Ir papildomas 15 pav.). Mažesnį 3 ′ galų aprėptį galima paaiškinti didesniu vidutiniu „ScriptSeq“ bibliotekų intarpų dydžiu („ScriptSeq“: ~ 375 bp, palyginti su DLAF: ~ 225 bp, duomenys nepateikti), nes read_1 būtų toliau nuo 3 ′ galų. nuorašai, todėl mažiau tikėtina, kad jie bus 50 bazių atstumu nuo 3 ′ galo. Priešingai nei atkuriamos DLAF skaitymo_1 smailės, prasidedančios +1, 0 ir −1 bazinėse padėtyse, palyginti su komentuotomis TSS, pirmosios „ScriptSeq read_1“ bazės rodė maksimalų vidutinį signalą ~ 20 bazių pasroviui nuo TSS, kuris lėtai mažėjo. link TSS (7c pav.). Remiantis ankstesniais stebėjimais mES ląstelėse, DLAF bibliotekų skaitymo iš_1 pradžios iš mECx smailės tiksliai sutapo su DeepCAGE smailėmis, tuo tarpu „ScriptSeq“ bibliotekos rodė daug mažesnius signalus daugelyje lokusų, įskaitant Actb ir Malat1 (7d, e pav.). Kituose lokusuose, tokiuose kaip „ Actg1“ , „ScriptSeq read_1“ startai rodė kelių bazių viršūnę nuo TSS, aptiktą DLAF arba DeepCAGE (7f pav.). Šis „ScriptSeq“ bibliotekų kelių galinių kelių bazių praradimas 5 ′ galuose gali būti priskirtas anksčiau aprašytai sekos paklaidai.

Mes iškėlėme hipotezę, kad DLAF praturtina 5 ′ galus dėl to, kad yra išsaugomi 3 ′ DNR galai, kurie gali būti suskaidyti antrosios grandinės cDNR sintezės metu E. coli DNR polimerazės I būdu (nuoroda 11). Norėdami tiesiogiai patikrinti šią galimybę, mes ištyrėme Klenovo fragmento (3 ′ → 5 ′ egzonukleazės komponento DNR polimerazėje I (nuoroda 49)) poveikį TSS aptikimui DLAF bibliotekose. Mes paruošėme DLAF bibliotekas, kuriose RT reakcijos buvo apdorotos 0, 5 arba 2 U Klenow fragmentu 30 minučių kambario temperatūroje. Gydant Klenową, DLAF bibliotekos rodė mažesnius signalus TSS ir signalus, pasiskirstančius toliau nuo TSS, priklausančius nuo Klenow dozės (7d – f pav.). Šie rezultatai rodo, kad DLAF išvengia cDNR galų praradimo, kurį gali sukelti E. coli DNR polimerazė I, turinti eksonukleazės aktyvumą antrosios grandinės sintezės metu.

„ScriptSeq“ bibliotekose 5 ′ galo aprėptis skaitant_1 sumažėjo maždaug per trečią geno ilgio procentilį (7b pav.). Šis aprėpties modelis pastebimai pagerėjo, palyginti su dUTP bibliotekomis, kurios ėmė mažėti dešimtoji procentilė (2 pav.). Šis 5 'galų padengimo, palyginti su dUTP bibliotekomis, pagerėjimas atitinka mintį, kad antrinės grandinės sintezė reiškia 5' galų praradimą.

Diskusija

RNR sekos sudarymo bibliotekos, paruoštos naudojant daugelį dabartinių metodų, įskaitant dUTP metodą, rodo, kad vienas arba abu stenogramos galai yra nepakankamai atstovaujami 28 . Šiame tyrime mes sukūrėme naują ir gana paprastą metodą - DLAF, skirtą paruošti bibliotekas ssRNR-seq, pasižyminčiai dideliu padengimu abiejuose nuorašų galuose. Mūsų rezultatai rodo įvairiapusį DLAF naudojimą genų ekspresijos analizei ir mechanistiniam genų reguliavimo tyrimui.

DLAF bibliotekos rodo praturtintą informaciją, o ne atkuria prarastą informaciją iš RNR galų (2, 3, 4, 5, 6 ir papildomi 6 pav.). Praturtėjimas nuorašo 5 ′ gale yra tikėtinas, nes RT turi pasibaigti nuorašo 5 ′ gale, kai atvirkštinė transkriptazė nukrenta nuo RNR šablono. Atvirkščiai, nuorašų viduryje RT gali inicijuoti arba baigtis bet kurioje padėtyje, nes RNR yra atsitiktinai suskaidyta (papildomas 16 pav.). Panašiai, tvirtinamas oligo (dT) gruntas (T 9 VN) atkaitinamas specialiai 3 ′ UTR ir poli (A) uodegos sankryžoje; todėl RIA poliadenilinti 3 ′ galai yra palyginti praturtinti, palyginti su kitais regionais, kurie yra atsitiktinai užkrėsti (papildomas 16 pav.).

Tiksli genomo padėtis, nuo kurios prasideda geno transkripcija, yra kritinė informacija tiriant mechanizmus, kontroliuojančius RNR polimerazių veiksmus, pavyzdžiui, įdarbinimą, pristabdymą ir inicijavimą. TSS genomo nustatymas buvo pasiektas tik naudojant DeepCAGE 13, TL-seq 14, NanoCAGE ir CAGEscan 15 metodus. Panaudodamas mažesnius RNR kiekius ir ilgesnių fragmentų sekos seką, atrodo, kad CAGEscan panaikino daugelį apribojimų, susijusių su ankstesnėmis CAGE analizėmis, nes CAGEscan gali priskirti naujai atrastus TSS prie nuorašų pasrovės regionų. 5 ′ galo informacijos praturtinimas DLAF bibliotekose papildo šiuos tyrimus, nes DLAF taip pat suteikia galimybę bibliotekoje pavaizduoti 5 ′ distalines nuorašų dalis, todėl leidžia tuo pačiu metu atlikti genų ekspresiją ir atlikti papildomą transkripto analizę, pavyzdžiui, alternatyvų sujungimą ir poliadenilinimas. Aptikus labai jautrius RNR 5 ′ galus, DLAF atrodo naudinga technika tiriant alternatyvų TSS naudojimą tam tikrų tipų ląstelėse (papildomas 17 pav.). Tačiau, priešingai nei CAGE metodai ir TL-seq, DLAF negali atskirti RNR 5'-galo galo nuo 5'-galo, kuriame nėra dangtelio struktūros; todėl DLAF mažai gali atpažinti silpnas alternatyvias TSS, kurios gali būti pateikiamos paskui stiprią TSS. Kita vertus, DLAF gali būti naudingas profiliaujant RNR 5 ′ galus, kuriems trūksta dangtelio struktūros, pavyzdžiui, prokariotinės mRNR ir RNR, kurie reguliuojamai skaidomi 47 (4 ir 6b pav.).

Tuo tarpu alternatyvių poliadenilinimo vietų naudojimas yra vyraujantis mRNR reguliavimo mechanizmas organizmuose nuo mielių iki žinduolių 50 . Norėdami surašyti poli (A) turinčius tekstus, buvo naudojamos kelios strategijos, tokios kaip sėklų sekos naudojimas arba atlaisvinant kartografavimo griežtumą 24, žemėlapių perskaitymas į nuorašų duomenų bazę 18 ir skaičiavimo būdu pašalintos poli (T) uodegos 21 . Šie metodai remiasi oligo (dT) pagrindu veikiamos cDNR sinteze RT metu; dėl to tokiose bibliotekose trūksta informacijos apie nuorašų 5 ′ dalį. Be to, šie metodai neleidžia profiliuoti ne poliadenilintų genų, tokių kaip žinduolių histonų genai, kuriuos galima lengvai aptikti DLAF bibliotekose (papildomas 18 pav.). Todėl DLAF yra pirmasis genomikos metodas, leidžiantis vienu metu aprašyti nuorašų galus, įskaitant TSS ir alternatyvias poliadenilinimo vietas, su viena biblioteka.

Vienų ląstelių RNR-seq atsirado kaip orientyras, padedantis suprasti atskirų ląstelių elgesį, o ne ištisas populiacijas 51, 52, 53, 54 . Tačiau dabartiniai vienaląsčių RNR-seq metodai negali išsaugoti informacijos apie sruogą. Pagerinti išeigą, krypties specifiškumą ir bibliotekų kokybę bus svarbus žingsnis link tikro vienos ląstelės transkripto. Didelis DLAF bibliotekos išeiga ir palyginti trumpas eksperimentinis darbo srautas gali būti tinkamas patenkinti kelis vienaląsčių bibliotekų analizės reikalavimus. Tačiau norint išsiaiškinti, ar DLAF gali būti naudojamas atskirų ląstelių profilių formavimui pagal transkriptą pagerinti, būtina atlikti papildomus tyrimus.

Metodai

Ląstelių kultūros

Audinių kultūros lėkštelės buvo padengtos 0, 1% želatina (Sigma) 30 minučių 37 ° C temperatūroje. The mES cells were cultured on the pre-coated dishes in high-glucose DMEM containing 15% ES-qualified fetal bovine serum (Chemicon), 2 mM glutamine, 1 × penicillin-streptomycin, 1 × non-essential amino acids, 10 mM HEPES, 143 μM β-mercaptoethanol (Sigma) and 1, 000 U ml −1 of LIF (Chemicon) in a humidified incubator at 37 °C with 5% CO 2 . Cortices from E16.5 male mouse embryos were collected in HHGN dissection solution (Hanks' balanced salt solution supplemented with 2.5 mM HEPES, 35 mM glucose, 4 mM sodium bicarbonate). Cortices were incubated with 0.1% trypsin in HHGN for 20 min at room temperature, quenched in Neurobasal media containing 10% fetal bovine serum and triturated under the presence of 0.01 mg ml −1 DNase I. Dissociated cells were suspended in Neurobasal media supplemented with 1 × B27 solution, 1 × penicillin-streptomycin, 0.5 mM glutamax and 25 μM β-mercaptoethanol. Cells from one cortex were plated on a 10-cm tissue culture dish pre-treated with 50 mg ml −1 poly- D -lysine hydrobromide (Sigma, MW=30, 000–70, 000). Cultures were maintained in a humidified incubator at 37 °C with 5% CO 2 . Half of culture media was replaced with new media every 5 days in vitro , and cells were harvested on 10 days in vitro . All reagents for cell culture were from Life Technologies unless mentioned otherwise.

RNA isolation and removal of rRNA

Total RNAs were isolated from approximately 10 million cells using TRIzol and 8 μg of each sample was subjected to rRNA depletion using RiboMinus Eukaryote Kit for RNA-seq (Life Technologies). RNA samples were treated with 6 U of Turbo-DNase (Life Technologies) in the presence of 80 U of Murine RNase Inhibitor from New England BioLabs (NEB) for 2 h at 37 °C. Although recommended otherwise by Life Technologies, rRNA depletion preceded DNase treatment to prevent any cation-mediated RNA hydrolysis during the DNase treatment. The DNase was removed using phenol-chloroform extraction, and RNA was precipitated and dissolved in 30 μl of water.

RT for DLAF and dUTP libraries

All oligonucleotides used in this study were procured from Integrated DNA Technologies (IDT). RT was carried out with random oligomers with a phosphate group at their 5′ end to obviate the phosphorylation step. The 30-μl RNA samples were mixed with 7 μl of the primer mix (25 μM 5′-NNNNNN-3′, 25 μM 5′-NNWNNWNN-3′ and 3 μM 5′-TTTTTTTTTVN-3′) and 7 μl of 10 × M-MuLV reverse-transcriptase reaction buffer (NEB). Partial RNA hydrolysis and annealing of random primers to RNA were achieved by heating the mixtures at 85 °C for 5 min and cooling them to 4 °C in a PCR thermal cycler at a standard ramp rate. RT was initiated by the addition of 26 μl of an ice-cold solution containing 4 μl of AffinityScript reverse transcriptase (Stratagene), 1 μl of Superase.In (Life Technologies), 3 μl of Murine RNase Inhibitor (NEB), 2 μl of 10 × T4 Polynucleotide Kinase buffer (NEB), 4.5 μl of 250 μM actinomycin D (Affymetrix) and 3 μl of 10 mM each of deoxynucleotides (dNTPs; NEB). The final RT conditions were 50 mM Tris (pH 8.3), 75 mM KCl, 6 mM Mg 2+, 16 μM actinomycin D, 0.4 mM of each dNTPs, 2.5 μM 5′-NNNNNN-3′, 2.5 μM 5′-NNWNNWNN-3′ and 0.3 μM 5′-TTTTTTTTTVN-3′ (see Supplementary Note 6 for storage and usage of actinomycin D). The temperature of the reactions was increased slowly in a stepwise manner to avoid the dissociation of random primers from RNA molecules. The reactions were incubated at 2 °C for 2 min, 16 °C for 3 min, 0.1 °C s −1 to 25 °C, 25 °C for 10 min, 0.1 °C s −1 to 37 °C, 37 °C for 10 min, 0.1 °C s −1 to 42 °C, 42 °C for 45 min, 0.1 °C s −1 to 50 °C and 50 °C for 30 min. This was followed by cooling to 4 °C. The reactions were stopped by the addition of EDTA to a final concentration of 15 mM. They were then purified through a MinElute column (Qiagen) and divided equally for library preparation using either the dUTP or the DLAF method.

DLAF library preparation

To prepare the adaptors for ligation, six oligonucleotides with the sequences shown below were designed. Phos, U and C6 denote a 5′-phosphate modification, an internal deoxyuridine and a 3′-hexanediol modification, respectively.

1. LEFT_A: 5′-/5Phos/ AGATCGGAAGAGCGTCGTGTAGGG /C6/-3′

2. LEFT_B5: 5′- CCCTACACGACGCUCTUCCGATCTNNNNN /C6/-3′

3. LEFT_B6: 5′- CCCTACACGACGCUCTUCCGATCTNNNNNN /C6/-3′

4. RIGHT_A: 5′- GGAGTTCAGACGTGTGCTCTTCCGATCCTG -3′

5. RIGHT_B5: 5′- NNNNNCAGGAUCGGAAGAGCACACGUCTGAACTCC /C6/-3′

6. RIGHT_B6: 5′- NNNNNNCAGGAUCGGAAGAGCACACGUCTGAACTCC /C6/-3′

The LEFT splint adaptor was prepared by annealing LEFT_A, LEFT_B5 and LEFT_B6 in a molar ratio of 1.95: 1:1. Similarly, the RIGHT splint adaptor was prepared by annealing RIGHT_A, RIGHT_B5 and RIGHT_B6. The LEFT and RIGHT splint adaptors ligate to the 3′ and 5′ ends of the first-strand cDNA, respectively (Fig. 1).

Purified first-strand cDNA was treated with 3 μl of RNase-H (NEB) for 2 h at 37 °C, followed by incubation with 2 μl of RNase-I f (NEB) for 2 h at 37 °C. The samples were column purified and treated with 1 μl of RNase-A (Fermentas) for 1 h at 37 °C and for an additional 1 h at 50 °C. The samples were then purified and eluted in 40 μl of IDTE buffer (10 mM Tris, 0.1 mM EDTA pH 8.0; IDT). The single-stranded cDNA samples were denatured for 3 min at 70 °C and quickly cooled on ice. The denatured cDNA samples were added to a 12-μl duplex mix containing 2.4 μl of 10 μM LEFT splint, 2.4 μl of 10 μM RIGHT splint and 1.2 μl of 10 × T4 DNA ligase buffer (NEB) at room temperature. The ligation was initiated by adding 50 μl of ligase mix containing 4 μl of 10 × T4 DNA ligase buffer (NEB), 1 μl of 10 μg/μl BSA (NEB), 2 μl of Quick T4 DNA ligase (NEB) and 33 μl of 2X Quick ligase buffer (NEB). After a 5-min incubation at room temperature, a PEG-DMSO mix containing 17.5 μl of 10 × T4 DNA ligase buffer, 17.5 μl of DMSO (NEB) and 35 μl of 50% PEG-8000 (NEB) was added. The mixtures were incubated for 2 h at 22 °C and then for 1 h at 30 °C. They were then column purified. The ligated samples were size-selected using 1.8 volumes of RNAClean XP beads (Beckman Coulter) with a 40-min incubation. The samples were incubated with 2 μl of USER (NEB) at 37 °C for 2 h to degrade the non-ligated strands of the splint adaptors and were then column purified.

dUTP library

In general, we followed the initial protocol for dUTP library preparation 8, with minor modifications. For the second-strand cDNA synthesis, 40 μl of second-strand synthesis mix containing 6 μl of 10 × M-MuLV reverse transcriptase reaction buffer (NEB), 12 μl of 10 × phi29 DNA polymerase buffer (NEB), 18 μl of dNTP/dUTP mix (Fermentas), 3 μl of DNA polymerase I (NEB) and 1 μl of RNase-H (NEB) was added to 80 μl of purified first-strand cDNA samples, and mixtures were incubated at 16 °C for 2 h. E. coli DNA ligase was omitted during the second-strand synthesis (see Supplementary Note 2). Reactions were stopped by addition of EDTA to a final concentration of 20 mM, column purified and eluted with 60 μl buffer IDTE. Double-stranded cDNA samples were sonicated in a Bioruptor (Diagenode) for a total of 45 cycles of 30-s pulse with 30-s interval at high intensity at 4 °C. For end repair, we added 40 μl of reaction mix containing 10 μl of 10X NEBNext end repair reaction buffer (NEB) and 1 μl of NEBNext end repair enzyme mix (NEB). Samples were incubated at room temperature for 55 min followed by 5 min on ice and column purified into 60 μl of IDTE. Then, dA-tailing was initiated by adding 40 μl dA-tailing mix containing 10 μl of 10 × NEBNext dA-tailing Buffer (NEB) and 2 μl of Klenow Fragment (3′→5′ exo-) (NEB). Samples were incubated at 37 °C for 30 min and column purified into 40 μl of IDTE.

An oligonucleotide dUTPLIG: 5′- GATCGGAAGAGCGTCGTGTAGGGAAAGAG U GACTGGAGTTCAGACGTGTGCTCTTCCGATC *T-3′ (where * represents a phosphorothioate bond) carrying a 5′ phosphate and an internal deoxyuridine (U) residue was synthesized, annealed and ligated to the dA-tailed double-stranded cDNA. The original oligonucleotide sequence 8 was modified to maintain the orientation of sequencing, similar to that of the DLAF libraries. To ligate the adaptors, we added 15 μl of 2 μM dUTPLIG adaptor and 84 μl of ligation mix containing 70 μl 2 × Quick Ligase Buffer, 12 μl IDTE and 2 μl Quick T4 DNA ligase to 40 μl dA-tailed libraries. After ligation for 1 h at room temperature, the cDNA libraries were column purified and size-selected using 1.6 volumes of RNAClean XP beads for 30 min, and the second strand was degraded by 2 h incubation with 2 μl of USER at 37 °C.

Yield estimation and library amplification

Two per cent of the library products were analysed by SYBR green-mediated quantitative PCR using QPCR_F1: 5′- CCCTACACGACGCTCTTCCGATCT -3′ and QPCR_R1: 5′- GGAGTTCAGACGTGTGCTCTTCC -3′. The same reactions were also amplified for 18 cycles in a conventional thermal cycler, and 10% were analysed using polyacrylamide gel electrophoresis. Based on the results, the libraries were amplified for 9 or 11 cycles of PCR for DLAF and dUTP, respectively, using MFWD: 5′- AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC -3′ and reverse primer R x : 5′- CAAGCAGAAGACGGCATACGAGAT XXXXXX GTGACTGGAGTTCAGACGTGTGCTCTTCC -3′, where XXXXXX indicates the 6-nucleotide sequence for Illumina indexing oligonucleotide x for multiplexing. Next, 250–500 bp and 280–500 bp fragments were gel purified for the dUTP and DLAF libraries, respectively, for sequencing.

Libraries preparation from mECx

The cortices were dissected out from E16.5 male embryos and were dissolved in 800 μl of TRIzol. Handling of mouse complied with a protocol reviewed and approved by the University of Michigan's University Committee on use and care of animals. After phase-separation, the supernatant was purified through Qiagen Mini Column. The rRNA was depleted from 4 μg of total RNA using RiboMinus Eukaryote Kit v2 (Life Technologies) with an average yield of approximately 320 ng RNA. The DNase I treatment and other purification steps were as described above. For the DLAF libraries, RT reactions were set up in a final volume of 25 μl containing 25 ng of rRNA-depleted RNA with the final reaction conditions as 50 mM Tris (pH 8.3), 75 mM KCl, 6 mM Mg 2+, 10 μM actinomycin D, 0.4 mM of each dNTPs, 1 μM 5′-NNNNNN-3′, 1 μM 5′-NNWNNWNN-3′ and 0.12-μM 5′-TTTTTTTTTVN-3′. Treatment with RNases and other purification steps were as described above. The total reaction volume for each DLAF ligation was reduced to 100 μl with 5 pmol of each adaptor. ScriptSeq libraries from 25 ng of RNA were prepared using the ScriptSeq v2 kit (Epicentre) according to the manufacturer's protocol. They were then column purified and size-selected using 1.8 volumes of RNAClean XP beads for 30 min. Two per cent of the library products were analysed by qPCR as described above. The same reactions were also amplified for 21 cycles in a conventional thermal cycler, and one-third volumes were analysed using polyacrylamide gel electrophoresis. Based on the results, the DLAF and ScriptSeq libraries were amplified as described above for 17 or 21 cycles of PCR, respectively. Next, 280–500 bp and 400–600 bp fragments were gel purified for the DLAF and ScriptSeq libraries, respectively, for sequencing.

Sequencing, alignment and data analysis

Libraries were sequenced for 50 bases (for mES cells and mouse cortical neurons) or 52 bases (for mECx) by an Illumina HiSeq 2000 instrument using standard oligonucleotides designed for multiplexed paired-end sequencing, except that DLAF read_2 was obtained using a specifically designed primer: 5′- GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCCTG -3′. The mES libraries were subjected to both single-read and paired-end sequencing. Over the course of the analysis, we noticed that the third base from read_1 in the paired-end sequencing of the DLAF libraries had a reduced quality, likely because of a sequencer problem. Therefore, for the analysis of the DLAF library, we used read_1 data from the single-read sequencing and the read_2 from the paired-end sequencing (see Supplementary Table 2). Raw data were demultiplexed, filtered and converted to FASTQ files using standard procedure. Reads were mapped using TOPHAT v2.0.9 (ref. 34) to the mm9 genome and transcriptome, allowing for up to two mismatches. Coverage across percentiles of gene length, coverage of intragenic and intergenic regions, coverage of gene ends, evenness of coverage and continuity of coverage were calculated using RNA-SeQC 35 . The data were normalized with total non-ribosomal and non-mitochondrial RNA reads. The coefficient of variation of gene expression was calculated using Cuffdiff v2.1.1 and CummeRbund 48 . The complexity of the libraries was estimated as the fraction of 12.5-million randomly sampled, non-ribosomal and non-mitochondrial reads with unique starting positions using the rmdup utility of SAMtools 55 . The DeepCAGE data were lifted over from mm8 to mm9 using the UCSC liftOver utility. Read coverage and read-start coverage near TSSs and 3′ ends, the calculation of strand specificity and the comparison to CAGE were performed using our own scripts, which are available upon request.

Preparation and analysis of miRNA-seq libraries

Small RNA (<200 bases) was isolated from WT mES cells using the mirVana kit (Life Technologies) and the libraries were prepared using the Illumina's small RNA Truseq kit according to the manufacturer's protocol. Multiplexed libraries were sequenced from one end for 50 bases by an Illumina Hiseq 2000 instrument. After standard filtering, reads with the presence of Illumina's reverse-PCR primer sequence were selected using the BBDuk utility of BBMap tools 56 and the adaptor sequence was removed from the reads. Only reads with shorter than 36 base inserts were mapped uniquely to mm9 assembly using bowtie v0.12.8 (ref. 57) allowing for up to one mismatch.

Papildoma informacija

How to cite this article: Agarwal, S. et al . Sequencing of first-strand cDNA library reveals full-length transcriptomes. Nat. Bendruomenė. 6:6002 doi: 10.1038/ncomms7002 (2015).

Accession codes: Raw and processed sequence data files are available on the Gene Expression Omnibus (GEO) under accession GSE63424. See Supplementary Table 2 for sample and sequencing run details.

Prisijungimai

Genų ekspresijos omnibusas

  • GSE63424

Papildoma informacija

PDF failai

  1. 1.

    Papildoma informacija

    Supplementary Figures 1-21, Supplementary Tables 1-2, Supplementary Notes 1-6, and Supplementary References

Komentarai

Pateikdami komentarą jūs sutinkate laikytis mūsų taisyklių ir bendruomenės gairių. Jei pastebite ką nors įžeidžiančio ar neatitinkančio mūsų taisyklių ar gairių, pažymėkite, kad tai netinkama.