Mutacijų identifikavimas tiesiogiai lyginant mutantų ir laukinio tipo individų viso genomo sekos duomenis, naudojant k-mers | gamtos biotechnologijos

Mutacijų identifikavimas tiesiogiai lyginant mutantų ir laukinio tipo individų viso genomo sekos duomenis, naudojant k-mers | gamtos biotechnologijos

Anonim

Dalykai

  • Kompiuterinė biologija ir bioinformatika
  • Duomenų apdorojimas
  • DNR sekos nustatymas
  • Mutacija

Anotacija

Genus, pagrindžiančius mutantų fenotipus, galima išskirti derinant žymenų atradimą, genetinį žemėlapių sudarymą ir pakartotinę sekos nustatymą, tačiau aiškesnė mutacijų žemėlapio strategija būtų tiesioginis mutantų ir laukinio tipo genomų palyginimas. Taikyti tokį požiūrį vis dėlto trukdo būtinybė gauti pamatines sekas ir mutacijos apkrovos, kurios supainioja vienareikšmį priežastinių mutacijų identifikavimą. Čia pristatome NIKS (adatą k- kamino pavidalu), be nuorodų algoritmą, pagrįstą k- merų palyginimu viso genomo sekos duomenyse, siekiant tiksliai nustatyti homozigotines mutacijas. Mes pritaikėme NIKS aštuoniems mutantams, sukeltiems nerekomenduojamų ryžių veislių, ir dviem nemodifikuotos rūšies Arabis alpina mutantams. Palyginus abiejų rūšių mutantinių fenotipų atrinktus F 2 individus, paaiškėjo nedideli mutacijų rinkiniai, įskaitant priežastinius pokyčius. Be to, palyginus dviejų alelinių mutantų M 3 daigus, vienareikšmiškai buvo nustatytas priežastinis genas. Taigi, bet kurioms rūšims, kurioms gali būti padaryta mutagenezė, NIKS leidžia perduoti genetiką, nereikalaujant atskirti populiacijų, genetinių žemėlapių ir pamatinių sekų.

Pagrindinis

Pirmieji genetiniai ekranai turėjo didelę reikšmę išaiškinant 1 pavyzdinių rūšių biologinius mechanizmus. Tačiau jų sėkmė priklausė nuo mutantų genų izoliavimo galimybių. Priežastinių mutacijų nustatymas paprastai prasideda genetiniu žemėlapių sudarymu, po to seka kandidato genų sekos ir papildymo tyrimai naudojant transformaciją. Pažanga DNR sekos nustatymo technologijose nepaprastai pagreitino genetinį žemėlapių sudarymą, derinant masinę segregantišką analizę, tai yra rekombinantinių genomų sujungimą su viso genomo sekos nustatymu, paprastai vadinamu kartografavimu sekinant 2, 3 . Šis metodas tampa standartiniu mutacijų žemėlapių sudarymu ir identifikavimu daugelyje rūšių rūšių 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 ir netgi buvo pritaikytas kiekybinių bruožų iššifravimui su sudėtinga genetine architektūra 13, 14. . Neseniai mutagenų sukelti pokyčiai buvo naudojami kaip nauji žymekliai, leidžiantys mutacijas atvaizduoti naudojant izogenines žemėlapių populiacijas 10, 15 . Nepaisant to, visi kartografavimo pagal seką metodai priklauso nuo sekos sekos nustatymo - viso genomo atstatymo metodo, pagrįsto sekų suderinimu su etalonine seka. Todėl šis reikalavimas apriboja technikos taikymą toms rūšims, kurioms yra tokia etaloninė genomo seka.

Šiuo metu vykdoma daugybė referencinių sekų surinkimo projektų, įskaitant daugumos pagrindinių rūšių augalus ir veislinius gyvūnus. Tačiau, net turint esamą pamatinę seką, išplėsti kartografavimo metodus po sekamų referencinių priedų pasirodė techniškai sudėtinga. Vien tik pakartotinio sekvenavimo duomenimis negalima identifikuoti mutantinių genų alelių, kurių nėra referencinėje seka. Visų pirma, greitai kintantys genai, tokie kaip atsparūs ligoms, ne visada gali būti pavaizduoti pamatinėje seka 16, 17 .

Siūlomi alternatyvūs rūšių, kaip sekos, žemėlapių sudarymo be sekų, be pamatinių sekų, pavyzdžiai, pavyzdžiui, kartografavimas pagal pagrįstų giminingų rūšių pamatines sekas arba išreikštas sekų žymių kolekcijas 11, 18 . Tačiau visi šie metodai labai priklauso nuo mažo sekų skirtumo ir aukšto sintezės lygio tarp mutanto genomo ir derinimo tikslo. Neseniai buvo pristatyti kelių mėginių tiesioginio palyginimo be pamatinės sekos metodai, tačiau nė vienas iš jų nebuvo pakankamai tikslus ir tikslus, kad būtų galima nustatyti mutacijas 19, 20, 21 .

NIKS yra palyginimo be genomo metodas, pagrįstas tik trumpų sekų dažniu viso genomo sekos nustatymo duomenyse. Jis yra skirtas identifikuoti mutagenų sukeltus, nedidelio masto, homozigotinius skirtumus tarp dviejų labai susijusių genomų, nepriklausomai nuo jų įgimto ar išbrinkusio fono, ir suteikia kelią mutacijų identifikavimui, nereikalaujant jokios išankstinės informacijos apie pamatines sekas ar genetinius žemėlapius.

Rezultatai

NIKS principai ir vykdymas

NIKS remiasi kmerų, kurie apibrėžiami kaip skaitomos sekos k ilgio posekionai, analize. NIKS pirmiausia įvertina kiekvieno k- metro dažnį kiekvieno mėginio sekos nustatymo duomenyse, naudodamas k -mer skaičiavimo programinę įrangą Jellyfish 22 . K sekcijos, sutampančios su sekos paklaidomis, bus žemo dažnio, nes šių klaidų nėra visuose skaitymuose iš atitinkamo regiono, todėl įmanoma jas atskirti nuo skaitymų, kuriuose nėra klaidų (1 pav.). Amplifikacijos artefaktai sekos nustatymo metu gali padidinti klaidomis pagrįstų „ k -mers“ dažnį ir turėti galimybę įdiegti klaidomis pagrįstus „ k -mers“ į be klaidų „ k -mers“ rinkinį. Taigi, filtruodami tapačius skaitymus prieš paleisdami NIKS, galite sumažinti sekos klaidų poveikį. Dėl genomų skirtumų atsiranda daug, specifinių mėginių ir persidengiančių k- merų. NIKS identifikuoja ir sujungia visus su mėginiu susijusius k- modelius į ilgesnes sekas (arba sėklas).

Image

Tiriami dviejų susijusių genomų viso genomo sekos nustatymo duomenys, atsižvelgiant į visų k- merų dažnį. K -mer dažnio histogramos suteikia galimybę atskirti vietinius k- merus (sritis pažymėta pilka spalva) nuo k- merų, sutampančius su sekos paklaidomis. Palyginus dviejų labai susijusių genų k- merų rinkinius, išryškėja konkretūs mėginiai, sutampantys k- merai, atsirandantys dėl subtilių skirtumų tarp genomų. Šie konkretūs mėginiui skirti k- gimerai tada sujungiami su sėkla, jei jie gali būti suporuoti su homologine, bet ne tapačia sėkla kitame mėginyje. Vietiniams agregatams bus naudojamos skaitymo poros, turinčios bent vieną k- merą su sėklų pora. Dėl to susidaro kontigai, kurių centre yra mutavusių vietų.

Visas dydis

Norėdami nustatyti tik tuos skirtumus, kurie buvo įvedami mutagenezės metu, NIKS laiko tik tas sėklas, kurių antriniame pavyzdyje yra homologiškos, bet ne tapačios sėklos (sėklų poravimas; papildomas 1a pav.). Tiesą sakant, dvi tokios sėklų poros sėklos atspindi atitinkamai laukinio tipo ir mutantinį alelį ir išsiskiria tik pačiomis mutagenų sukeltomis mutacijomis. Mutacijos, kurių tarpais yra mažiau nei k - 1 bp, ir maži indeliai bus sujungti į vieną pailgą sėklą (papildomas 1b, c pav.). Didesni intarpai gali nesudaryti vienos gretimos laukinio tipo alelio sėklos, tačiau gali būti per daug sudėtingi, kad būtų galima sudėti į vieną sėklą. Taigi, NIKS papildomai ekranuoja kitų rūšių sėklų poravimą. Sėklos, turinčios trynimus, gali atitikti iki dviejų sėklų kitame mėginyje. Šios dvi sėklos žymi laukinio tipo mėginio trynimo taškus. Jei iš abiejų trynimo taškų bus gaunama sėkla, NIKS nustatys dvipusę sankryžą, o jei tik vienas lūžio taškas sugeneruoja sėklą, ji sukurs vienpusę sankryžą (papildomas 1d, e pav.).

Kaip ir homozigotinės mutacijos, heterozigotinės mutacijos ir mutacijos pasikartojančiuose regionuose į mutanto pavyzdį įves naujus k- merus. Tačiau skirtingai nuo homozigotinių mutacijų, mutanto pavyzdyje bus tiek laukinio tipo, tiek naujojo mutanto alelis. Laukinio tipo alelio buvimas mutanto pavyzdyje užkirs kelią sėklų poros susidarymui . Išsamiau, NIKS registruoja visus k- merus, palaikančius laukinio tipo alelį mutantų pavyzdyje ir atvirkščiai (veidrodinis skaičiavimas). Homozigotinėmis bus laikomos tik tos mutacijos, kuriose yra mažiau nei kK-merų iš atitinkamo kito alelio.

Paskutiniame etape NIKS generuoja vietinius de novo rinkinius, kad išplėstų sekas, susijusias su mutavusia svetaine 23 . Paprastai tai sukelia kelių šimtų bazinių porų, įskaitant mutavusią vietą, kontigas. Šie kontingentai leidžia atlikti funkcinę anotaciją, kad būtų galima įvertinti numanomą mutacijų poveikį, remiantis de novo geno prognozėmis arba suderinimais su žinomais geno komentarais.

Norėdami įvertinti NIKS efektyvumą, imitavome 160 viso genomo sekos sudarymo eksperimentų, pirmiausia įvesdami ∼ 2000 atsitiktinių, homozigotinių, vienos bazės mutacijų į pelių ir kukurūzų genomo pamatines sekas, o po to seką sekuodami 17, 25, 35 ir 50 kartų genomu. aprėptis 24, 25 (papildomos pastabos). Pamatiniai genomai yra panašaus dydžio - pelės genomas yra 2, 6 Gb, o kukurūzai - 2, 0 Gb, tačiau jie drastiškai skiriasi savo pakartotiniu turiniu (papildomas 2 pav.). Norėdami atskirti mutacijas unikaliuose regionuose ir tas, kurios kartojasi, mes klasifikavome kiekvieną poziciją į vieną iš trijų klasių pagal sutampančių, pasikartojančių k- ženklų skaičių (Papildomos pastabos).

Palyginome kiekvieno mutanto imituotus sekavimo duomenis su etaloninio štamo sekvenavimo duomenimis, naudodamiesi NIKS (papildomas 3 pav.). Unikaliuose regionuose NIKS jautrumas buvo> 90% ir šiek tiek padidėjo, padidėjus aprėpties lygiui. Pažymėtina, kad eksperimentai su pelėmis ir kukurūzais buvo beveik vienodi, rodantys, kad jautrumui unikaliuose regionuose, kurie paprastai sudaro didelę genų komplemento dalį, įtakos neturi bendras genomo pakartojimas. Kaip ir tikėtasi, NIKS neidentifikavo nė vienos mutacijos pasikartojančiuose regionuose, nors ji nustatė kai kurias mutacijas regionuose, kuriuose yra pasikartojančių ir unikalių skaitymų. Nuo 25 kartų didesnio genomo ir daugiau, teisingai nustatytų mutacijų procentas tarp visų prognozių (teigiama prognozinė vertė) buvo> 98% visuose eksperimentuose ir fone.

Be mutacijų identifikavimo, žymenų vystymasis ne modeliuose esančiuose organizmuose būtų naudingas naudojant nuo referencijos nepriklausomus metodus. Taikydami NIKS viso genomo sekos duomenų rinkiniui iš dviejų natūralių Arabidopsis thaliana veislių, mes sugebėjome nustatyti beveik 300 000 vieno nukleotido polimorfizmų (1 papildoma lentelė). Tačiau dėl didelio polimorfizmų tankio tarp natūralių prisijungimų specialios priemonės, tokios kaip „Cortex 21“, gali būti tinkamesnės šiai užduočiai atlikti (papildomos pastabos).

NIKS testavimas su septyniais anksčiau išanalizuotais ryžių mutantais

Etilo metansulfonato (EMS) mutacijos buvo nustatytos iš naujo sekvencuojant septynių ryžių mutantų izogeninius junginius arba sujungtus rekombinantus 10 . Siekdami sumažinti didelę mutacijų, įvestų EMS, apkrovą, 10 tyrėjų išanalizavo atgalinių kryžminių rekombinantų, o ne vieno mutanto genomų DNR junginius. Mutacijos buvo sukeltos elitiniame Hitomebore veislės fone, kuriame nėra surinktos pamatinės sekos. Sukūrę pseudoreferencinę seką ir pakartotinai sekvogenuodami dideles segmentines populiacijas, kurių aprėpties lygis yra 12–17 ×, autoriai nustatė 3–11 numatomas EMS mutacijas šešiems iš septynių mutantų.

Visus septynis pavyzdžius mes iš naujo analizavome naudodami NIKS (papildomos pastabos ir papildomas 4 pav.). Kadangi NIKS atlieka dviejų imčių palyginimą, kiekvienas iš septynių mėginių buvo lyginamas atskirai su kitais šešiais mėginiais. Pašalinę tik vieno palyginimo metu nustatytas mutacijas ir laikydami tik kanonines EMS mutacijas, kiekviename mėginyje mes išsaugojome 7–21 mutaciją (1 lentelė ir 2 ir 3 papildomos lentelės). Norėdami palyginti abi analizes, mes atlikome mutacijų funkcinį apibūdinimą, naudodamiesi ryžių 26 nuorodomis. Keturiems mutantams NIKS atskleidė tuos pačius genus kandidatus, apie kuriuos anksčiau buvo pranešta 10 . Tarp jų buvo eksperimentiniu būdu patvirtinta mutacija pavyzdyje Hit1917-pl1. Dviejų likusių mutantų atveju mūsų analizė atskleidė aiškų priežastinių kandidatų genų rinkinį. Anksčiau nebuvo pranešta apie nė vieno kandidato mutaciją. Mūsų analizė atskleidė introno mutaciją, kuri, kaip spėjama, pasilieka pakaitomis sujungtoje izoformoje, kuri yra išreikšta įvairiomis raidos stadijomis (papildomos pastabos ir papildomas 5 pav.). Apibendrinant galima pasakyti, kad NIKS nustatė visų septynių ryžių mutantų kandidatų mutacijas, kurios, atrodo, yra bent jau tokios pat tikslios kaip ir anksčiau paskelbtas 10 metodas, o referencinę seką naudoja tik funkcinei analizei.

Pilno dydžio lentelė

Mutacijos identifikavimas be nuorodų ar genetinio žemėlapio

Norėdami atlikti NIKS neaprašytam nemodifikuotos rūšies mutantui, iš naujausio EMS mutagenezės ekrano 27 parinkome A. alpina mutantus. A. alpina yra daugiamečių Brassicaceae rūšių rūšis, kurios numatomas genomo dydis yra 375 Mb, apie kurį nėra nuorodos sekos, anotacijos ar genetinio žemėlapio. Viename iš pasirinktų mutantų, kurių defektas yra 1 ( fde1 ), atsirado gėlių homeotinių defektų (2a pav.). Antrojo neterminuoto žydėjimo 1-1 ( pep1-1 ) mutantas anksčiau buvo įrodytas, taikant homologija pagrįstą kandidato geno metodą, PEP1 geno, kuris yra atsakingas už 27 fenotipą, skeleto vietos pažeidimą (2b pav.). Palyginę du genomus naudodami NIKS, mes siekėme nustatyti nežinomą fde1 pažeidimą ir kartu patvirtinti pep1-1 mutaciją.

Image

a ) fde1 mutantinės gėlės yra deformuotos, palyginti su laukinių augalų gėlėmis. b ) Pep1-1 augalų mutantai žydi be vernalizacijos, palyginti su laukiniais augalais, kuriems privaloma patvirtinti gėlių žydėjimą. ( c ) NIKS pep1-1 kontigo sulyginimas su A. thaliana etalonine seka atskleidžia sandūros vietos mutaciją FLOWERING LOCUS C ( FLC ) A. alpina ortologe, apie kurį anksčiau buvo pranešta, kad jis yra atsakingas už pep1-1 fenotipą. Mutantinė bazė parodyta raudona spalva, eksoniniai A. thaliana regionai pavaizduoti geltonai, numanomas A. alpina egzonas - mėlynai, o visi nekoduojantys nukleotidai - pilka spalva. ( d ) NIKS fde1 kontigo sulyginimas su A. thaliana etalonine seka, atskleidžiantis numanomą aminorūgšties pokytį, kuris greičiausiai pakeis asparto rūgštį į asparaginą AP2 A. alpina ortologo 4-ajame kodavimo egzone . Rėmas, naudojamas nukleotidų sekai paversti aminorūgščių seka, buvo išvestas iš A. thaliana anotacijos. Priežastinės mutacijos parodytos raudonai. Eksoninės sekos, susijusios su mutacija, pavaizduotos mėlyna spalva, o A. thaliana egzonai - geltonai. Parodytos tik atitinkamos derinių dalys.

Visas dydis

Norėdami sumažinti didelę mutacijų apkrovą, mes palyginome sujungtų atgalinių kryžminių rekombinantų DNR, o ne vieno mutanto genomus, kaip aprašyta ryžių mutantuose 10 (papildomos pastabos). Atlikus kryžminimą su nemodifikuotu protėviu, F1 individai buvo patys apdulkinti, o atitinkamai 97 ir 86 F2 augalų pep1-1 ir fde1 DNR su mutanto fenotipu buvo sujungti viso genomo sekai nustatyti (4 papildoma lentelė). Taikydami NIKS viso genomo sekos duomenims, kai genomo raukšlės yra 67 ( pep1-1 ) ir 158 ( fde1 ), mes nustatėme 29 sėklų poras, atspindinčias homozigotinius mutagenų sukeltus pokyčius (papildomos pastabos, papildomos 6a, b pav., Papildomos 7 pav. Ir 5 papildoma lentelė). Norėdami parodyti, kad toks aukštas aprėpties lygis nebuvo būtinas norint nustatyti šias mutacijas, mes pakartotinai įkrovėme duomenis skirtingais aprėpties lygiais ir vis tiek išlaikėme vidutiniškai> 20, esant 17 × aprėptiui (papildomos pastabos ir 6 papildoma lentelė). Visi 29 pokyčiai buvo C: G ↔ T: A mutacijos, kaip tikėtasi atliekant EMS mutagenezę 28 . Remdamiesi žinoma EMS mutacijų paklaida, visus T ir A alelius apibrėžėme kaip mutantinius alelius, tokiu būdu priskirdami 16 mutacijų atitinkamai fde1 ir 13 - pep1-1 (2 lentelė). Mes iš naujo nustatėme visas 16 fde1 mutacijų, atlikdami gretimų regionų PGR amplifikaciją, po to atlikdami Sangerio seką, ir patikrinome, ar yra visi numatomi pokyčiai (7 papildoma lentelė). Galiausiai vietiniai visų skaitytų porų rinkiniai, turintys k- merus, pasidalino su sėklų poromis rekonstruotais kontigais iki 922 bp ilgio, apjuosdami visas 29 abiejų genomų mutacijas. Jie buvo naudojami vienareikšmiškai nustatyti fde1 mutaciją.

Pilno dydžio lentelė

FDE1 yra A. thaliana AP2 ortologas

Mes anotavome 29 mutacijų poveikį dviem nepriklausomais metodais. Pirmiausia, visi 29 kontūrai buvo suderinti su viešai prieinamų viso ilgio nuorodų sekų 29 rinkiniu (NCBI Genomic Reference Sequences). Keista, kad nepavyko nustatyti patikimų septynių šių kontingentų atitikčių (e-reikšmė, 1e-05), tuo tarpu visi kiti pateikė patikimus atitikmenis pagal etaloninę A. thaliana seką, taip pat pagal kitus genomus 30 . Siekdami vienodumo, mes svarstėme tik įvykius prieš A. thaliana (papildomos pastabos). Remdamiesi šiais suderinimais, mes nustatėme tariamų A. alpina genų struktūrą ir kiekvienam iš šių mutacijų priskyrėme spėjamą poveikį (2 lentelė). Šešios pep1-1 mutacijos sutapo su genų anotacija. Tarp jų mes nustatėme žinomą priežastinę mutaciją, priderintą prie PEP1 ortologo FLC 27, 31 suskaidymo donoro vietos (2c pav.). Šešios iš fde1 mutacijų suderintos su genais. Vienas iš jų pakeitė numanomą A. alpina homologo APETALA 2 ( AaAP2 ) aminorūgščių seką (2d pav.). A. thaliana ap2 mutantų aleliai sukelia žiedo deformaciją, labai panašią į stebimą fde1 (nuoroda 32) (2a pav.).

Antruoju, nepriklausomu bandymu komentuoti mutacijų poveikį, mes atlikome de novo geno prognozavimą, naudodamiesi 29 kontigais, turinčiais laukinio tipo alelį, po to sekėme atitinkamų mutacijų poveikio anotaciją (2 lentelė ir papildomos pastabos). Pabrėžtina, kad 19 iš 22 numatomų padarinių buvo identiški homologija pagrįstoje anotacijoje, įskaitant abu priežastinius pokyčius. Trys iš jų skyrėsi, nors vienas parodė homologiją perkeliamam elementui, kuris buvo pašalintas homologija paremtoje anotacijoje. Be to, vienam iš septynių kontigų, neturinčių reikšmingos homologijos, buvo numatytas geno modelis.

Norėdami patvirtinti, kad AaAP2 mutacija sukėlė fde1 mutanto gėlių fenotipą, mes toliau apibūdinome tris papildomus A. alpina mutantus, pažymėtus fde1-2 , fde1-3 ir fde1-4 , turinčius tą pačią gėlių deformaciją kaip fde1 (papildomas 1 pav. 8a – c). Surinkta contig seka, supanti AaAP2 mutaciją, buvo naudojama pradmenims projektuoti, kad amplifikuotų AP2 cDNR iš papildomų mutantų. fde1-2 buvo mutacija, sukelianti aminorūgšties pasikeitimą; fde1-3 , mutacija, sukelianti ankstyvą kodono sustojimą; ir fde1-4 , sujungimo vietos mutacija, kuri buvo artima pradinei fde1 mutacijai (papildomos pastabos). AaAP2 mutacijų buvimas keturiuose išskirtuose mutantuose patvirtino, kad mes nustatėme priežastinę mutaciją (papildomas 8d pav.).

Taigi NIKS teisingai nustatė abi priežastines mutacijas iš nedidelio kandidatų mutacijų rinkinio, kurį funkciniu požiūriu buvo galima komentuoti per viešas duomenų bazes ir nepriklausomai komentuoti de novo (2 lentelė).

NIKS nustato 169 kb trynimo pėdsakus

Priešingai nei chemiškai sukeltos mutacijos, greitosios neutronų spinduliuotės (FNR) sukeltos mutacijos gali būti sudėtingesnės, pavyzdžiui, delecijos, apimančios kelias kilobases 33 . Norėdami nustatyti NIKS galią nustatyti sudėtingus pokyčius, mes pritaikėme jį ryžių mutanto hebibos genomui , kuris buvo išskirtas iš FNR mutagenizuotos Oryza sativa ssp populiacijos. japonica cv. Nihonmasari ir rodė sutrikusią daigų fotomorfogenezę 34 . Šešiasdešimt du hebiba mutantai, nustatyti iš atskirtos populiacijos, ir 100 laukinio tipo genomų fondas buvo padalinti atitinkamai iki 80, 7 ir 99, 5 karto ir palyginami vienas su kitu (papildomos pastabos, papildomas 9 pav. Ir papildomas 4 ir 5 lentelės). Be 92 nedidelio masto pakeitimų, NIKS nustatė trijų didelių pokyčių pėdsakus, kuriuos reprezentuoja trys mutantiniame pavyzdyje surinkti kontigai (papildomos pastabos ir 8 papildoma lentelė). Dvi iš šių pakartotų vienos bazės mutacijų pasikartojančiuose regionuose. Norėdami komentuoti galimą didelio masto sutrikimą, identifikuojamą likusio kontigo, mes sulyginome kontigą su pamatiniu seka, naudodami BLAST, kuris atskleidė 169 kb deleciją, kuri vėliau buvo patvirtinta PGR (papildomos pastabos ir papildomas 10 pav.). Kartu su mūsų darbu buvo įrodyta, kad heliba fenotipą iš tikrųjų sukelia šis trynimas35.

Dėl ištrintos sekos sudėtingumo ir ilgio, NIKS negalėjo surinkti visos laukinio tipo alelio 169 kb sekos, o delecijai identifikuoti reikėjo pamatinės sekos. Tačiau NIKS teisingai surinko naujai suformuotą sankryžą trynimo vietoje į 587 bp ilgio jungtį.

Mutacijos identifikavimas analizuojant du nepriklausomus alelius

Ankstesnis kryžminimas su laukinio tipo palikuonimis buvo sėkmingai panaudotas siekiant sumažinti didelį priežastinių EMS mutacijų skaičių 10 . Tačiau tam reikia dar bent dviejų kartų ir tai nėra praktiška ilgą generaciją turinčioms rūšims. Neseniai mes pasiūlėme, kad aiškiausias mutacijų identifikavimo metodas būtų tiesioginis dviejų ar daugiau alelinių mutantų sekų nustatymas 36 . Nors kiekvieno mutanto genome būtų daug mutacijų, kandidatais turi būti laikomi tik genai, turintys visų mutantų pažeidimus (papildomas 11 pav.). Tikėtinas atsitiktinai sutrikdytų genų sutapimas tarp dviejų nepriklausomai mutagenizuotų genomų yra labai mažas ir veiksmingai išnyksta, kai atsižvelgiama į daugiau nei du alelius (papildomos pastabos ir papildomas 12 pav.).

Siekdami įrodyti koncepciją, mes palyginome pep1-1 ir pep1-2 genomus, kurie buvo išskirti tame pačiame EMS ekrane 27 ir gėlių be vernalizacijos. Abu mutantai turi pažeidimus tame pačiame gene ir sudaro komplementacijos grupę; F 1 kartos augalai, susidarę kryžminant tarp pep1-1 ir pep1-2, taip pat žydi be žydėjimo. Pep1-2 mutacija buvo patvirtinta tikslingai nustatant PEP1 seką , atskleidžiant ankstyvojo sustabdymo kodoną antrame egzone (papildomos pastabos ir 3 pav.).

Image

a ) Pep1-1 ir Pep1-2 gėlė be vernalizacijos. pep1-2 papildo ankstyvojo žydėjimo pep1-1 fenotipą. F1 ( pep1-1 / 2 ) augalai, susidarę dėl kryžminimo pep1-1 su pep1-2 , gėlė ilgos dienos sąlygomis, leidžianti manyti, kad jie turi nepriklausomus pažeidimus tame pačiame gene. b ) Žydėjimo laiko analizė, išmatuota kaip lapų skaičius žydėjimo metu. Pep1-1 , Pep1-2 ir jų F 1 hibridai žydėjo, o laukinio tipo augalai niekada nesiskleidžia ilgomis dienomis. Klaidų juostos, vidurkis ± sd, n = 12. ( c ) pep1-2 NIKS kontūro sulyginimas su A. thaliana etalonine seka identifikuoja priešlaikinį sustabdymo kodoną, įvestą antrame PEP1 egzone . Rėmas, naudojamas nukleotidų sekai komentuoti, buvo išvestas suderinant su A. thaliana . Priežastinė mutacija parodyta raudona spalva. Egzoninė seka, susijusi su mutacija, parodyta mėlyna spalva, o homologinis A. thaliana egzonas - geltonai.

Visas dydis

Iš 35 M 3 augalų, gautų iš sėklų po savidulkių originalių augalų mutantų, atitinkamai pep1-1 ir pep1-2 sėklų, mes sukūrėme 51 ir 105 kartų viso genomo aprėpties sekos duomenis. NIKS nustatė 779 sėklų poras, kurių kiekviena atskleidė vieną genominį skirtumą tarp pep1-1 ir pep1-2 (9 papildoma lentelė ir 6c, b papildoma lentelė). Iš šių 779 pakeitimų tik penkiems trūko kanoninio EMS pakeitimo. Visi kiti galėjo būti priskirti bet kuriam iš mutantų ir buvo komentuoti derinant su mutacija susijusius kontigus su referencine A. thaliana seka. Iš mutantinių pep1-1 ir pep1-2 , 165 ir 94 kontigai buvo sulyginti su genais. Tačiau tik trys iš šių genų buvo įprasti abiems mutantams (3 lentelė). Funkcinis komentaras atskleidė tik vieną geną, kurio abiejų genomų mutacijos paveikė geno vientisumą. Šis genas buvo PEP1 , A. alpina ortologas iš FLC ir priežastys, susijusios su pep1-1 ir pep1-2 fenotipu (nuoroda 27).

Pilno dydžio lentelė

Diskusija

Mes pristatėme mutagenų sukeltų homozigotinių pokyčių identifikavimo strategijas abiejų dviejų labai susijusių genomų, tokių kaip mutantas ir laukinio tipo genomai, unikaliuose regionuose, nereikalaujant referencinio genomo. Šiuo tikslu pateikiame viso genomo palyginimo metodą NIKS, kuris tiksliai numato subtilius skirtumus remiantis vien viso genomo sekos nustatymo duomenimis.

Tačiau mutantuose gali būti šimtai mutagenų sukeltų pokyčių, kurie trukdo tiesiogiai skaityti priežastines mutacijas. Vienas iš būdų sumažinti mutacijų skaičių yra kryžminimasis su laukinio tipo gyvūnais, po to seka F2 asmenų surinktų genomų seka 10, 15 . Pagal šią strategiją mes nustatėme nežinomą A. alpina mutaciją. Norėdami išsiaiškinti, ar tai būtų buvę įmanoma naudojant įprastas priemones, mes atlikome trumpojo skaitymo suderinimą su pamatiniu A. thaliana ir de novo surinkimo seka, atlikdami viso genomo palyginimus, tačiau nė vienam iš šių bandymų nepavyko vienareikšmiškai nustatyti visų mutagenų sukelti pokyčiai (papildomos pastabos).

Norėdami klasifikuoti genomo skirtumus kaip mutantų ar laukinio tipo alelį, mes panaudojome mutagenams būdingą paklaidą jų sukeliamos mutacijos tipui. Iš visų pokyčių, nustatytų mūsų A. alpina duomenyse, 98, 8% buvo kanoniniai EMS pokyčiai. Tačiau net jei mutagenas neįrodo mutacijos spektro paklaidų, analizuodami kelis mutantus ar laukinio tipo genomą, vienareikšmiškai nustatote mutantų ir laukinio tipo alelį. Dabartiniame įgyvendinime NIKS palaiko dviejų pavyzdžių palyginimą vienu metu, kurį konceptualiai būtų galima išplėsti iki neriboto pavyzdžių skaičiaus, panašiai kaip metodai, įdiegti „Cortex“ - sudėtingas spalvotų de Bruijn grafikų naudojimas 21 .

Cortex ir panašios priemonės palengvina viso genomo surinkimą ir variacijų identifikavimą 19, 20, 21 . Viso genomo surinkimo struktūros gali padėti nustatyti kompleksinius skirtumus tarp mėginių, o tai nėra trivialus uždavinys svarstant genomo struktūras, tokias kaip pakartojimai ir žemo sudėtingumo regionai. Tokie įrankiai gali papildomai integruoti atskaitos seką į surinkimo struktūrą ir taip dar labiau kompensuoti sunkumus surinkdami ilgus išbraukimus. Net neturėdamas pamatinės sekos, NIKS nustatė ryžių mutanto vieno didelio masto trynimo pėdsakus, tačiau jis teisingai surinko tik mutanto alelį. Atliekant atitinkamo laukinio tipo alelio rekonstravimą, vis tiek reikėjo pamatinės sekos.

Jei norima tiksliai nustatyti priežastinę mutaciją tarp kandidatų mutacijų rinkinio, naudinga komentuoti mutacijų poveikį genams, įtraukiant viešą geno anotaciją 10 arba de novo geno anotaciją. De novo geno prognozės pasirodė labai panašios į homologijomis pagrįstas genų prognozes, tai rodo, kad mutacijų poveikio anotacija gali būti atliekama nepriklausomai nuo išankstinių žinių.

Kitas sprendimas siekiant sumažinti mutacijų kandidatų skaičių atsiranda tiesiogiai genomų, turinčių du ar daugiau nepriklausomų alelių, seka, po to seka genų, turinčių unikalias to paties geno mutacijas keliuose genomuose, sekos. Principo įrodymu mes apžiūrėjome dviejų alelinių A. alpina mutantų M 3 genomus, ar juose nėra bendrų genų, turinčių mutacijas, ir mes sugebėjome vienareikšmiškai nustatyti priežastinį geną. Šiai analizei atlikti reikėjo iš anksto nustatyti įvairius alelius, kurie gali būti nesudėtingi visų rūšių ir fenotipų atžvilgiu, tačiau, kita vertus, apeina kartografinių populiacijų generavimą. Mūsų žiniomis, tai aprašo pirmąją sėkmingą ataskaitą apie mutacijų identifikavimą, naudojant viso komplekso grupės mutantų genomų seką, nesiremiant jokia rekombinacija.

Mūsų metodas atveria daugybę genetinės genetikos galimybių, pagrįstų viso genomo sekos nustatymu bet kurioms rūšims, kurias galima naudoti atliekant mutagenų tikrinimus. Taigi šis metodas gali palengvinti prieigą prie visų tų rūšių be referencinių sekų, kurių sudėtingi genomai paneigia dabartinius surinkimo metodus. Vis dėlto didžiausią poveikį gali turėti NIKS naudojimas klonuojant genų iš nemodifikuotų rūšių, pasižyminčių svarbiais bruožais 36 .

Atsižvelgiant į tai, kad sekvenavimo išlaidos ir toliau mažėja, mes tikimės, kad visų pirminio genetinio ekrano mutantų genomai gali būti sekuojami. Žinodami visus genominius ir fenotipinius skirtumus, tyrėjai sugebės mutantus suskirstyti į numanomas silikono alelinių grupių grupes. Turint šią informaciją, nedidelis skaičius tikslinių papildymo testų bus naudojama kaip pirmoji visų genų, kurių ekrane yra keli aleliai, mutacijos patvirtinimo eilutė. Priklausomai nuo ekrano dydžio ir genų, kurie prisideda prie dominančio fenotipo skaičiaus, tai gali būti galingas būdas identifikuoti kelis mutantus vienu metu. Pavyzdžiui, priekinių genetinių ekranų modeliavimas rodo, kad 100 mutantų genomų analizės pakaktų, kad būtų galima nustatyti daugiau kaip 27 alelinės grupes, darant prielaidą, kad ekrano dydis yra 40 000 individų ir fenotipas, kuriame yra 75 genai (papildomas 13 pav.). Taigi NIKS turi galimybę sumažinti mutantų identifikavimo darbo krūvį tik iki viso genomo sekos nustatymo ir palyginimo.

Metodai

NIKS įgyvendinimas.

NIKS yra „Java“ ir „bash“ pagrindu sukurtas vamzdynas, įgyvendinantis visus šiame tyrime atliktus analizės veiksmus, įskaitant k- merų skaičiavimą ir atranką, sėklų generavimą ir susiejimą bei į mutacijas orientuotą contig surinkimą. NIKS galima atsisiųsti iš //sourceforge.net/projects/niks/.

k -mer skaičiavimas ir pasirinkimas.

NIKS pirmiausia įvertina visų k- ammerių dažnį kiekvieno mėginio viso genomo sekos duomenyse, naudodamas efektyvią k -mer skaičiavimo programinę įrangą „Medūzos 22“ . Jei k > 31, NIKS įgyvendina paprastus skaičiavimo ir rūšiavimo algoritmus. Čia mes panaudojome k = 31, kad k būtų kuo didesnis, tuo pačiu vis dar pasinaudodami medūzų pranašumais. Apskritai, k turi būti mažesnis nei perskaityto dydžio, bet pakankamai didelis, kad būtų galima unikaliai priskirti genomą. K taškai, kurie sutampa su sekos paklaidomis, nebus naudingi, o tai reiškia, kad k reikšmė yra žymiai mažesnė už skaitymo ilgį. Taigi optimalus k pasirinkimas priklauso nuo skaitymo kokybės ir genomo sudėtingumo, todėl jo negalima apibendrinti. Tačiau praktikoje gali būti naudinga paleisti NIKS su keliomis skirtingomis k reikšmėmis.

NIKS, apibrėždamas du trečdalius pirmojo vietinio minimumo k- ų dažnių histogramoje kaip vidinę ribą, NIKS gali atskirti gimtosios ir sekos klaida pagrįstų k- mermerių reikšmes (1 pav.). Nepakankamas aprėptis apsunkins šio vietinio minimumo nustatymą ir privers NIKS teisingai įvertinti visus k- merus, kurie įvyksta bent du kartus. Tai leidžia patikimai atlikti mėginių užklausą, ar nėra ar nėra k- merų. Tada NIKS ištraukia visus k pavyzdžius, esančius viename mėginyje, bet ne kitame (konkrečiam pavyzdžiui skirtus k tipus).

Sėklų generavimas ir poravimas.

Dėl vieno taško mutacijų atsiranda k specifinių mėginių, persidengiančių k- modelių. Sujungdami k- gimerius, kurie sutampa su k -1 baze, susijungia konkrečiam mėginiui k- gimerai į sėklas . For this, NIKS selects all k -mers of a sample that share at least one m -mer with the sample-specific k -mers of the other sample, where m is smaller than k (here, k = 31 and m = 25). Thereby, NIKS can preselect seeds that will yield valid seed pairs while allowing for disruptions at each end of a seed (Supplementary Fig. 1). This set of k -mers is then screened for k -mers that do not overlap with other sample-specific k -mers on one side, in order to identify putative start or end points of seeds (end k -mers). Starting with each end k -mer, an exhaustive walk, by combining k -mers that overlap by k – 1 bases, is conducted without adding the same k -mer twice and stopping if another end k -mer is reached. To avoid repetitive regions and to reduce the computational load, seeds with the summed coverage of the combined k -mers larger than 10, 000 bases are discarded.

In the case of point mutations, optimal seeds are 2* k – 1 bp long and centered on the mutated sites, but in rare cases some seeds do not extend completely, resulting in seeds that are shorter than expected. Multiple closely linked mutations introduce ( k – 1 + s ) sample-specific k -mers, where s refers to the length of the mutated region. Long indels also give rise to sample-specific overlapping k -mers. In particular, at the breakpoint of deletions, novel sequence is introduced. If this sequence is unique in comparison to the contrasting genome it will generate unique k -mers, which will give rise to sample-specific seeds. NIKS identifies these seeds by their partial homology to the breakpoint in the other sample (Supplementary Fig. 1c–e). Seeds featuring sequence similarity to multiple other seeds' ends in the other sample are excluded.

Wrongly scored phenotypes or undetected sequencing errors can lead to the presence of k -mers, which represent the nonmutagenized allele and can mask real mutations. By default, NIKS discards seeds with support from more than kk -mers for the second allele in the other sample. This discards seeds with at least two contradicting reads covering the mutation. As seed pairing requires consistent support from both samples, it introduces high levels of specificity into NIKS.

Mutation-centric assemblies.

To extend all valid seeds, NIKS extracts all read pairs sharing at least one of the k -mers with a seed. Each such set of read pairs is assembled with Velvet, applying standard parameters, except for the sample specific insert length and automated estimation of the coverage cutoff 23 . Assembled contigs that are longer than the respective seed, but perfectly match the seed, replace the seed.

Accession code.

Short read data have been deposited in the EBI short read archive under accession number ERP002265.

Prisijungimai

Pirminės prieigos

European Nucleotide Archive

  • ERP002265

Papildoma informacija

PDF failai

  1. 1.

    Papildomas tekstas ir figūros

    Supplementary Notes, Supplementary Figures 1–13 and Supplementary Tables 1–9