De novo genomo sekos nustatymas ir lyginamoji datulių palmių (phoenix dactylifera) genomika | gamtos biotechnologijos

De novo genomo sekos nustatymas ir lyginamoji datulių palmių (phoenix dactylifera) genomika | gamtos biotechnologijos

Anonim

Dalykai

  • Lyginamoji genomika
  • DNR sekos nustatymas
  • Augalų genetika

Anotacija

Datulinė palmė yra viena ekonomiškai svarbiausių sumedėjusių augalų, auginamų Viduriniuose Rytuose ir Šiaurės Afrikoje, ir tinkama priemonė pagerinti žemės ūkio derlių sausringoje aplinkoje. Nepaisant to, ilgas kartos laikotarpis (5–8 metai) ir vyskupija (atskiri vyriški ir moteriški medžiai) apsunkino jo auginimą ir genetinę analizę. Kad išspręstume šias problemas, mes surinkome Khalas veislės moteriškojo delno genomo projektą - pirmąjį viešai prieinamą tokio tipo šaltinį ordino „Arecales“ nariui. ∼ 380 Mb seka, apimanti daugiausiai genų turinčius regionus, apima> 25 000 genų modelių ir, kaip prognozuojama, apims ∼ 90% genų ir ∼ 60% genomo. Aštuonios kitos aštuonios veislės, įskaitant „Deglet Noor“ ir „Medjool“ veislių pateles ir jų perbrauktus patinus, nustatė> 3, 5 milijono polimorfinių vietų, įskaitant> 10 000 genų kopijų skaičių. Mažas šių polimorfizmų pogrupis gali atskirti kelias veisles. Mes nustatėme genomo regioną, susietą su lytimi, ir radome įrodymų, kad toje datulėje yra XY lyčių paveldėjimo sistema.

Pagrindinis

Datulinė palmė yra vienas seniausių pasaulyje auginamų medžių, kurio prijaukinimo įrodymai siekia daugiau nei 5000 metų 1 . Dainų radimas faraonų kapuose ir neolitinėse vietose, datuotose prieš 7000–8000 metų 2, rodo istorinę rūšies reikšmę žmonių mitybai. Datulinės palmės yra labai svarbios žemės ūkiui daugelyje karštų ir sausringų regionų, o datulės yra svarbiausias daugelio Arabijos įlankos šalių žemės ūkio produktas. Bendra 2007 m. Datų gamyba pasaulyje buvo 6, 9 mln. Tonų (//faostat.fao.org/).

Tačiau datulinių palmių biotechnologijos susiduria su daugeliu iššūkių, įskaitant ilgą generavimo laiką, nesugebėjimą tiesiog atskirti daugelio datulinių palmių veislių ir nesugebėjimą atskirti patelių nuo vyriškų medžių ankstyvoje stadijoje. Yra> 2 000 datos veislių, kurių spalva, skonis, forma, dydis ir nokinimo laikas skiriasi 3, o genetinis lyties nustatymo komponentas nėra gerai suprantamas 4 . Tiksliau, datulinės palmės užtrunka 5–8 metus nuo pasodinimo iki žydėjimo - ankstyviausio momento, kai galima atskirti vyriškus ir moteriškus medžius. Ypač todėl, kad datulių palmių sodai, kuriuose daugiausia auginami vaisiniai moteriški medžiai, gali greitai pakenkti ligai, didelė nauda būtų galimybė greitai atsodinti vaismedžių sodus iš sėklų ar sodinukų, kurie, kaip žinoma, moteriški. Nepaisant kai kurių citologinių įrodymų, kad jos egzistuoja, datulių delne nėra lengvai atskiriamos lytinės chromosomos 5 . Kadangi biocheminiai tyrimai nedaug sužinojo, kaip nustatyti nesubrendusių augalų lytis 6, nustatant lytį apibūdinančias DNR sekas ar polimorfizmus, yra daug žadanti alternatyva, kaip efektyviai nustatyti datos palmių lytį.

Didele dalimi dėl ilgo generavimo laiko datulinės palmės genetiniai ištekliai yra mažai. Plačiausia yra praėjusio amžiaus ketvirtajame dešimtmetyje Kalifornijoje inicijuota atgalinės perėjimo programa 7, kuriai sukurti reikėjo> 30 metų. Mūsų žiniomis, nėra jokio viešai prieinamo fizinio ar genetinio žemėlapio, kuriame būtų nurodytas kurios nors datos delno genomas, o šio projekto pradžioje „GenBank“ buvo rasta tik kb 100 kbp branduolinių datų palmių DNR sekų (//www.ncbi.nlm .nih.gov /, 2009 m. kovo 1 d.) (1 pav.). Norėdami suteikti datos palmių tyrinėtojams papildomus išteklius, reikalingus visapusiškoms pastangoms ištirti ir patobulinti šį svarbų derlių, mes panaudojome masiškai lygiagrečią seką, kad surinktume datos delno genomo sekos juodraštį. Mūsų atlikta devynių veislių analizė atskleidė polimorfizmus, kurie turėtų suteikti neįkainojamą šaltinį datulių palmių bendruomenei, kad būtų galima nustatyti augalų lyties numatymo būdus, išlaikyti genetinę įvairovę ir pagerinti tokias savybes kaip vaisių kokybė ir nokinimo laikas.

Image

Datos delnas yra pirmasis Arecales ir Arecaceae šeimos narys, kuriam yra parengta genomo sekos juodraštis. Kiti vienaląsčiai augalai (Liliopsida klasė), kuriems yra genomo seka, daugiausia yra žolės (eilės tvarka „Poales“). Medis buvo pastatytas interaktyviame gyvenimo medyje (//itol.embl.de/) iš taksonomijos numerių NCBI (//www.ncbi.nlm.nih.gov/Taxonomy/).

Visas dydis

Rezultatai

Mes sekame ir surinkome moteriško medžio genomą, nes, kaip vaismedžiai, moteriški augalai turi didesnę žemės ūkio reikšmę nei vyriški medžiai. Khalas veislė, su kuria pasirinkome dirbti, tradiciškai laikoma esmine datos įvairove, pasižyminčia labai aukšta vaisių kokybe.

Genomo sekos nustatymas ir surinkimas

Datos delno genome yra 18 porų 5 chromosomų, ir mūsų analizė rodo, kad genomo dydis yra 658 Mb (papildomos pastabos). Mes atlikome naujos kartos datulės palmių genomo sekvenavimą tikėdamiesi, kad intrageniniai regionai turės nedaug didelių pakartojimų, kaip tai daroma panašiai mažuose kitų vienaląsčių augalų, pavyzdžiui, ryžių 8 ir sorgo 9, genomuose. Jei taip yra datos delne, mes pagrįstai nusprendėme, kad dauguma genų regionų turėtų susiburti nepertraukiamai kartodami, taip sudarydami galimybę palyginti nešališką genų erdvės vaizdą. Šiuo tikslu mes panaudojome „Genome Analyzer IIx“, kad gautume 36–84 bp ilgio sekas iš genomo fragmentų, kurių of 170 bp arba ∼ 370 bp. Genomą surinkome naudodamiesi SOAPdenovo genomo surinkėju 10, kuris gali naudoti suporuotų galų informaciją pakartojimams išspręsti ir buvo naudojamas kitiems dideliems genomams 11 . Mes panaudojome SOAP taisymo įrankį, kad pataisytume sekos skaitymus prieš surinkimą ir, jei įmanoma, uždarytume spragas naudodami „SOAP GapCloser“.

Surinkimo etape kaip įvestis panaudotos 526 443 374 sekos (papildomas 1 pav.). Tai davė N50 gretimą seką (besiribojančią), kurios trumpiausias kontigų, sudarančių daugiau nei pusę surinktos sekos, ilgis yra 6 441 bp, o pastolių N50 dydis - 9 339 bp, kai buvo atmesti pastoliai <500 bp. Toliau sujungėme „SOAPdenovo“ pastolius į didesnius pastolius, kurių fizinis aprėptis buvo 28, 6 × iš III tipo restrikcijos fermentų bibliotekų (2 000–5 000 bp) 12, naudodamiesi „BAMBUS“ programine įranga 13 ; norint sujungti pastolius prie kontūrų, reikėjo bent trijų ilgesnių porų-porų. Dėl to atsirado 57 277 pastoliai, kurių N50 dydis buvo 30 480 bp, apimantis 381 Mb seką. Po surinktų sekų suderinimo paaiškėjo, kad sekų dubliavimas yra 53, 4 × iš skaitymų, kurių vidutinis ilgis yra 64 bp. Ši aprėptis yra didesnė už teoriškai nustatytą minimumą aukštos kokybės agregatui, kurio ilgis yra 10 . Turint heterozigotinį genomą, montuotojui įmanoma suskaidyti alelius ir surinkti juos atskirai. Dėl to susidarytų kontingentai su puse genomo vidurkio sekų. Tačiau aprėpties pasiskirstymas agregate neparodė jokio antrinio smailio perpus nuo vidutinio aprėpties (papildomos pastabos, papildomi 2 ir 3 pav.), Rodantis, kad atskirų haplotipų surinkimas greičiausiai lokalizuotas trumpuose regionuose. Taikant šią trumpai perskaitytą strategiją, kontūrai, suskaidyti trumpais pakartojimais, yra sujungti su pastoliais, pateikiant suporuotos informacijos. Tikimasi, kad dideli pasikartojantys regionai negalės pasiekti šio požiūrio ir nėra įtraukti į asamblėją.

Norėdami ištirti visiško genomo rinkinio tikslumą ir išsamumą, mes vėliau palyginome visiškai sukomponuotus genomo DNR regionus iš „Deglet Noor“ veislės ir kitų „Khalas“ veislių (1 papildoma lentelė ir papildomas 4 pav.). Mes panaudojome „Sanger“ technologiją, norėdami visiškai sekti šešis fosidus, kuriuose yra „Deglet Noor“ intarpų. Pastolių rinkiniai išlyginti iki 60% visos genetiškai turtingos fosmidų sekos, nurodant grimzlės genomo sekos užbaigtumą. Analizuojant fosidų seką, neužfiksuotą visame genomo rinkinyje, paaiškėjo, kad dauguma šių regionų yra labai pasikartojantys (papildomos pastabos ir 2 papildoma lentelė). Šis tyrimas rodo, kad genais turtingi regionai buvo rekonstruoti efektyviau nei regionai, kuriuose gausu transponuojamų elementų, o genai buvo atgaunami daug didesniu dažniu nei pakartotinės sekos.

Toliau palyginome genomo rinkinį su 109 244 surinktų datos palmių išreikštų sekų etikečių (EST) (nepaskelbtų duomenų) 109 244 tęsiniais. Naudojant BLAT 14, 72% EST kontigų atitiko bent 90% jų ilgio, tuo tarpu 86% aukštos kokybės EST bazių galėjo būti suderintos su pamatiniu seka, turinčia mažiausiai 98% sekos identiškumo. Be to, naudojant CEGMA dujotiekį 15, kuriuo tikrinami viso ilgio branduolių genų modeliai, surinkime buvo rasta 94% pagrindinių eukariotinių genų, o 71% jų buvo atkurti kaip pilno ilgio genų modeliai. Visi šie duomenys leidžia manyti, kad mūsų rinkinyje aprašyta 90% datos palmių genų ir 60% visos datos palmių genomo sekos. Tikėtina, kad neužfiksuoti genomo regionai bus labai pasikartojantys ir todėl nesuvokiami naudojamo surinkimo metodo.

Genomo anotacija

Pakartotinai užmaskuoti pastoliai buvo perduoti į „Fgenesh ++“ dujotiekį tiek de novo, tiek homologija pagrįsto geno prognozavimui 16 . Iš viso buvo prognozuojami 28 890 genų modeliai. Iš jų 25 059 numatomi baltymus koduojantys genai turėjo reikšmingą BLAST panašumą su kitų organizmų baltymais neredaguojamojoje (NR) duomenų bazėje, esančioje Nacionaliniame biotechnologijų informacijos centre (NCBI). Informacija apie genų ontologiją buvo paskirta naudojant BLAST2GO 17 . GC kiekis koduojančioje DNR sekoje buvo 47, 6%, tuo tarpu viso surinkto genomo GC kiekis buvo 38, 5%.

Populiariausi BLAST įvertinimai, susiję su 9 022 numatytais datulinės palmės baltymais, atitiko prognozuojamus baltymus iš Vitis vinifera , ūgtelėjusį vienaragį pasėlį, ir po 5 094 geriausius atitikmenis, prognozuojamus vienaląsčių augalų Oryza sativa baltymų. Šį didesnį baltymų sekos panašumą tarp dviejų mažiau filogenetiškai susijusių augalų (vienaląsčių datulinių palmių ir žiedlapių, turinčių vienaląsčių vynuogių vynuogių), kiti žmonės pastebėjo genų šeimose iš aliejinių palmių 18 ir aliejinių palmių EST 19 . Pirminiai pasiūlymai yra tai, kad žolės yra labiau išsiskleidusi vienaląsčių grupių nei datulinė palmė; tačiau norint paaiškinti šį pastebėjimą, reikės papildomų tyrimų.

Mes iš viso aptikome 2 949 genų modelius (10% numatytų), turinčių aukštą homologiją su genais, koduojančiais perkeliamus elementus. Tarp jų 2 097 modelių baltymus koduojantys regionai atitiko transponuojamųjų elementų baltymus (BLASTP, E vertė <10 –5 ). Kiti 852 modeliai atitiko numatomus perkeliamų elementų genus jų intronų regionuose. Šie genų perkeliamieji elementai greičiausiai bus rasti mažai genome, arba jie nebūtų surinkti. Iš viso 55 855 sekos, identifikuotos visame genomo rinkinyje, turėjo perkeliamų elementų savybes. Kai kurie iš jų, įskaitant keletą ilgo galinio pakartojimo (LTR) retrotransposonų (45 šeimos) ir mažyčiai perkeliami elementai, vadinami MITE (35 šeimos), buvo identifikuoti naudojant struktūrinius kriterijus 20, 21, 22 . Šių MITE ir LTR šeimų tipinės sekos pateiktos papildomose pastabose. Tačiau dauguma jų buvo rasta homologija žinomiems perkeliamų elementų baltymams. Perkeliami elementai, rasti visame genomo rinkinyje, buvo palyginti su neapdorotais genomo sekos duomenimis. Kaip ir tikėtasi, dėl trumpo skaitymo nesugebėjimo išspręsti ilgų pakartojimų, neapdorotų šautuvų duomenyse buvo nustatyta daugiau su perkeliamais elementais susijusių sekų nei rinkiniuose (3 papildoma lentelė). Gauti gausiausi perkeliami elementai, nustatyti datulių delnuose, LTR retrospektyviose kopijų (∼ 3, 1 proc. Skaitymų) ir čigonų (∼ 1, 4 proc. Skaitymų) superfamilijose, kurie buvo 50 kartų (0, 062 proc.) Ir 25 kartų (0, 056). %) rečiau sukomplektuotuose šautuvuose nei atitinkamai su šautuvuose. Gausiausi DNR perkeliami elementai yra CACTA elementai (0, 03% nuskaitytų ginklų) (3 papildoma lentelė). Kadangi perimamiems elementams identifikuoti buvo naudojamos tik numatytos baltymų homologijos ir kadangi visuose perkeliamuose elementuose yra plati nekoduojanti DNR, mes tikimės, kad didžioji dalis su perkeltinais elementais susijusios DNR datos delno genomo rinkinyje buvo praleista šiuo metodu (papildomos pastabos).

Polimorfizmas ir lyginamoji genomika

Naudodami masiškai lygiagrečią sekos sudarymą ant datulinės palmės veislės be dokumentais pagrįsto įveisimo, mes galime aptikti daugybę tėvų alelinių skirtumų (papildomas 1 pav.). Naudodami „BWA 23“ ir „SAMTOOLS 24“ programinę įrangą, mes pavadinome 1 748 109 vieno nukleotido polimorfizmus (SNP) 381 Mb seka, gaudami 0, 46% heterozigotinį koeficientą arba 1 SNP / 217 bp. Tačiau pasiskirstymas buvo labai neryškus - 49% SNP buvo rasta per 50 bp nuo kito SNP (2a pav.). Šie rezultatai buvo stebimi, net jei į analizę neįtraukti įtariami pasikartojantys regionai, įskaitant gretimų galų ir didelės sekos aprėpties regionus. Šie rezultatai rodo, kad genome yra salų, kuriose yra didesnis polimorfizmas, ir šis pastebėjimas yra svarbus atliekant didelę polimorfizmo analizę. Iš viso 100 019 tėvų SNP įvyko numatytoje geną koduojančioje sekoje, o 53 890 iš jų sukelia aminorūgšties pokyčius. Taip gaunamas nesinoniminių ir sinonimų SNP santykis 1, 17; santykis panašus į 1, 2, nurodyto ryžiuose, 25 .

Image

SNP buvo palyginti tarp Khalas pamatinio genomo tėvų alelių ir skirtingų veislių. a ) Atstumas tarp tėvų alelio SNP Khalas mieste paprastai nėra paskirstomas. Netolygus gretimų SNP atstumų pasiskirstymas rodo aukšto ir žemo polimorfizmo salų atsiradimą genome. Apie 49% SNP atsiranda per 50 bp kito SNP. Ši tendencija išliko net pašalinus SNP, kurie gali būti pasikartojančiuose regionuose (KhlsFilter). b ) Vidutinės datos palmių veislės, perbrauktos, pasižymi dideliu panašumu į jų pasikartojančią tėvą, o kartų perbraukimas (nuo 1 iki 5 kartų) turi mažai įtakos panašumo lygiui (klaidų juostos yra gana mažos). Tarp veislių palyginimai rodo žymiai daugiau vietų su skirtingais genotipais. c ) Sekvenuotų genomų, susijusių su 3, 5 milijono polimorfinių vietų, pagrindinio komponento analizė (PCA). Khalas ir perbraukti variantai iš esmės yra vienas ant kito. DN, „Deglet Noor“; Mdjl, Medjool, BC, backcross; AlrF, AlrijalF; Khls, Khalas; Khlt, Khalt. ( d ) Sekvenuotų genomų PCA, remiantis 32 sprendimų medžio pasirinktomis polimorfinėmis vietomis, rodo nedidelį diskriminacijos kokybės praradimą, o genotipui nustatyti reikia daug mažiau. „KhFx“, „Khalas x x Khalas F1“.

Visas dydis

Norėdami geriau apibūdinti datulių delno polimorfizmą iš biotechnologijų perspektyvos, mes sekome įvairaus lygio vyriškų ir moteriškų augalų genomus iš populiariausių komercinių veislių „Deglet Noor“ ir „Medjool“ bei patelės, priklausančios nekomercinei „AlrijalF“ veislei, genomus. (1 lentelė). Be to, norėdami apibūdinti galimus lyčių skirtumus, mes atlikome sekos genomo DNR sukūrimą iš dviejų vyrų, atgal perbrauktų, dviejų patelių, kurių nugara kryžminta, ir vieno vyro, neturinčio kryžminimo, (1 lentelė). Mes nustatėme 3 518 029 SNP iš 381 Mb, kurie buvo polimorfiniai bent viename iš sekvenuotų genomų. Šiose vietose buvo užfiksuoti visų sekvenuotų genomų genotipai. Kaip ir tikėtasi, genotipai buvo daug labiau konservuoti tarp atskirtų genomų ir jų pasikartojančių (motina išliko kiekviename perėjime su savo palikuonimis) tėvų nei tarp skirtingų veislių (2b pav.). Iš tikrųjų genomų grupavimas pagal genotipus 3, 5 milijono vietų atskleidė artimą medžių, kuriuos kertam, ir jų pasikartojančių tėvų ryšį (2c pav.). Be to, Katare surinktos Khalas veislės individo genomas buvo sulipęs labai arti medžių, atsuktų į Kalifornijos Khalas augalą, kuris, kaip manoma, buvo importuotas iš Arabijos beveik prieš 100 metų 26 . Mes panaudojome sprendimo medžio algoritmą 27, norėdami identifikuoti mažiausiai penkis SNP, galinčius atskirti devynias veisles, kurių genomo sekos nustatymo duomenys buvo gauti (4 papildoma lentelė). Iš viso 32 SNiP (4 papildoma lentelė) buvo labai informatyvūs diskriminuojant veisles ir gali būti naudingi diskriminuojant kitas datulinių palmių veisles. Naudojant tik šiuos 32 SNP veislėms atskirti, mažas diskriminacijos galios praradimas, o pagrindiniai trys pagrindiniai komponentai sumažėjo nuo 74% iki 71%, palyginus rezultatus su 3, 5 milijono, palyginti su pagrindiniais 32 SNP (2d pav.). Šiems 32 SNP buvo atlikti genotipai papildomiems keturiems genomams ir klasterinė analizė parodė jų gebėjimą atskirti veisles (papildomas 5 pav.). Šis SNP rinkinys yra atskaitos taškas kuriant DNR žymenis, galinčius atskirti> 2000 veislių datulių palmių.

Pilno dydžio lentelė

Didelio masto polimorfizmai, įskaitant kopijų skaičiaus variacijas (CNV), gali būti nustatomi pagal sekų duomenis, nustatant sritis, kuriose stebimas genomo atitikmenų sekų skaičius žymiai skiriasi (aukštyn arba žemyn) nuo numatomo skaičiaus (papildomas 1 pav.) . Derinant kiekvieno genomo sekas pagal Khalas etaloną, naudojant CNV-SEQ programinę įrangą 28, buvo aptikti geno dydžio regionai, kuriuose sekų skaičius buvo labai nesubalansuotas. Mes apibūdiname šiuos „nesubalansuotų sekų skaičiavimo regionus“ (ISCR), kad būtų galima atskirti juos nuo griežčiau patikrintų CNV. Kaip ir SNP duomenimis, buvo pastebėtas platus ISCR išsaugojimas tarp genomų, persikryžminusių iš genų, ir pasikartojančio tėvo (duomenys nepateikti). Vėlesnė analizė apsiribojo neperžengiamais genomais, kad būtų išvengta dubliavimosi dėl įveisimo rezultatų. Iš viso aptikta 10 388 ISCR, kurie abu persidengia numatomame geną koduojančiame regione ir yra bent dviejuose genomuose (5 papildoma lentelė). Daugiausia 10% ISCR buvo unikalūs tam tikram genomui (3 pav.).

Image

Parodomi unikalių ISCR, likusių kiekviename genome, palyginimas su kitais genomais. Buvo laikomi tik neperžengti genomai, siekiant išvengti įbrėžimų. Maždaug 7% ISCR buvo unikalūs bet kuriam atskiram genomui, tuo tarpu dauguma buvo stebimi bent viename kitame genoma.

Visas dydis

Kadangi netolygus polimorfizmų pasiskirstymas genų regionuose, kurių išsaugojimas yra didelis, 29, 30, gali sukelti klaidingą ISCR aptikimą, modeliavimas (papildomos pastabos) rodo, kad dauguma šių ISCR yra tikri. Be to, penkių ISCR keturių tiriamųjų genomų kiekybinė PGR (qPCR) (20 skirtingų testų) davė 16 rezultatų, kurie atitiko lūkesčius (amplifikuoti ar pašalinti). Vizualus sekos suderinimo keturiuose ISCR regionuose patikrinimas, kurio nepavyko patvirtinti, parodė, kad kai kuriais atvejais sekos aprėpties kintamumas yra susijęs su labai dideliu sekos polimorfizmu, o ne su absoliučiu sekos praradimu.

Genai, turintys ISCR mažiausiai dviejuose genuose, buvo tiriami, siekiant praturtinti genų ontologijos kategorijas, naudojant „GOSSIP“ paketą BLAST2GO 17, ir praturtėjimas nustatytas tam tikrose funkcinėse kategorijose (4 pav.). Įdomu tai, kad lCRino, lakazės ir fenilpropanoido metabolizmo kategorijos buvo per daug atstovaujamos ISCR regionuose. Šių procesų genai yra svarbūs vaisių skoniui ir nokinimui 31 - tai du ryškiausi skirtumai tarp datulinių palmių veislių, todėl jie gali turėti reikšmės suprantant komerciškai svarbių datulinių palmių vaisių genetinį reguliavimą. Didelis ISCR skaičius tarp čia analizuotų genomų nėra visiškai netikėtas. Įrodyta, kad nemažas genomų kitimas yra susijęs su įterpimais ir delecijomis 32, 33, o kai kuriuose augaluose tai sudaro 10–20% genomo variacijų tarp 34, 35 veislių.

Image

Buvo tiriamos genų ontologijos kategorijos iš genų, kuriems priskiriami ISCR mažiausiai dviejuose genuose. Kiekvienos kategorijos genų skaičius buvo normalizuotas iki bendro genų skaičiaus arba genome, arba ISCR. Buvo taikomas 0, 2 melagingo radimo dažnis (FDR) ir pranešama tik apie tas kategorijas, kurių ISCR yra bent dvigubai praturtintos.

Visas dydis

Nebuvo nustatyta, kad ISCRS galėtų atskirti lytį. Pripažindami, kad palyginus visus genomus su Khalas moters genomu, buvo galima nustatyti tik moterims būdingas sekas, mes pabandėme surinkti vyrams būdingas sekas. Surinkome skaitymus iš vyriškojo „Deglet Noor BC5“ genomo. Buvo tikimasi labai trumpų tęsinių, nes sekų perteklius (20x) buvo mažas, tačiau tai buvo pirmasis vyrui būdingų sekų patikrinimas. Moterų genomų sekos buvo suderintos su „Deglet Noor BC5“ vyrų kontigais. Buvo nustatyta, kad visi gretutiniai požymiai turi didelę seką bent iš šešių moterų genomų. Anotuojant trumpus kontigus, išryškėjo dideli LTR retrotransposonų dažniai, tačiau neišskiriami vyrams būdingi genai.

Su lytimi susijusių pastolių identifikavimas

Mes ištyrėme 3, 5 milijono SNP genotipų vyrų ir moterų genomuose, kad nustatytume polimorfizmus, išsiskiriančius pagal lytį (papildomas 1 pav.). Stebimi rezultatai geriausiai atitinka XY lyties nustatymo modelį, kai vyrai yra heterogametinės lyties atstovai. Taikydami heterogamete vyrišką modelį, mes pastebėjome 1605 SNP, kurie atsiskyrė pagal lytį. Iš jų 923 (58%) lokalizuoti į 344 kb per 24 pastolius, kurių plotas 602 kb (6 papildoma lentelė). Visų vyrų genomai turėjo tuos pačius heterozigotinius genotipus, tuo tarpu moterų genomai turėjo tuos pačius homozigotinius genotipus šiuose pastoliuose (5 pav.). Pastoliai suskaidomi spragomis, kuriose tikriausiai yra didelis kiekis pasikartojančios DNR.

Image

Daugelio žinomų genealoginių dalelių genotipai buvo nustatyti keliuose lyčių diskriminacijos regionuose. a ) visos genealogijos dalis, naudojama ryšiams analizuoti, parodant sudėtingus medžių ryšius. DN, „Deglet Noor“; Dieve, Dayri; Mj, Medjool; Prieš Kristų; DnPr, pradiniai donorai tėvai. Pilkos spalvos dėžutės nurodo nežinomą, bet teoriškai nustatytą genotipą. Kiekvieno žmogaus genotipas yra genotipas, nustatytas pirmojo genotipo metu nustatant SNP. Aiškus heterozigotumo atsiskyrimas su vyrišku fenotipu. b ) Genotipai iš keturių pastolių (svarstyklės su egzonais, pažymėtais mėlynosiomis erkėmis ir pasikartojančiais kaip raudoni stačiakampiai), turinčių daugiausiai vyrams būdingų SNP (MS-SNP). Genotipai iš pasirinktų regionų (įdegę stačiakampiai) pateikiami su jų pastolių bazių porų vieta virš kiekvieno genotipo. F ir R nurodo, kurios grandinės (pirmyn arba atgal) pradmenys buvo sukurti sustiprinti pasirinktą sritį. Įtrauktas kiekvienos genotipo kiekvienos lyties atstovų (tiek empiriškai, tiek teoriškai) skaičius. Fem, moteris; herm., hermafroditas. Heterozigotiniai SNP skambučiai yra pilkos spalvos, tuo tarpu homozigotiniai skambučiai yra užtemdyti mėlyna spalva.

Visas dydis

Analizuodami du pastolius, kuriuose SNP buvo išskirstyti pagal lytį, mes pastebėjome apytikslį tris kartus didesnį skirtumą nuo pamatinės sekos tarp vyrų ir moterų haplotipų. Be to, šiuose regionuose vyrų ir moterų heterozigotinių SNP skaičius buvo stebimas beveik 30 kartų. Visų šių regionų genomams buvo užregistruoti 867 polimorfinių vietų genotipai. Palyginus „Deglet Noor“ ir „Medjool“ moteris su Khalas moterimis, paaiškėjo, kad 253 ir 271 vietos skyrėsi nuo Khalas etalonų ir tik 24 (9%) ir 19 (7%) vietos buvo heterozigotinės. Tose pačiose padėtyse jų vyrai, kuriems buvo kryžminimas, rodė 736 ir 770 vietas, besiskiriančias nuo Khalaso nuorodos, ir atitinkamai 584 (79%) ir 578 (75%) buvo heterozigotinės. Žymiai aukštesni vyrų heterozigotiniai lygiai (atitinkamai = 2 = 893, 6 ir 767, 7, atitinkamai 1 df, P <0, 0001) reiškia maždaug tris kartus didesnį heterozigotiškumą šiuose regionuose, palyginti su likusiu genomu. Patelių heterozigotumas šiuose regionuose yra žymiai mažesnis likusio genomo atžvilgiu (χ 2 = 435, 9 ir 410, 2, 1 df, P <0, 0001), todėl šiuose regionuose heterozigotumas ity 14 kartų mažesnis, palyginti su likusia genomo dalimi. sekvenuotas genomas. Šis vyrų ir moterų haplotipų sekos išsigimimo požymis gali rodyti sumažintą vyrų ir moterų haplotipų rekombinaciją, o tai yra žingsnis, kuris gali būti lemiamas vystant lytims būdingus regionus 36, 37 . Šiuose dviejuose pastoliuose mes pastebėjome septynis egzonus trijuose iš keturių anotuotų genų (5b pav.), Kuriuose yra neįprastai ilgi intronai, svyruojantys nuo 4 kb iki 13, 1 kb (palyginti su daugiausiai žydinčių augalų intronų vidurkiu <200 bp). Ilgesni intronai dažniau būna Drosophila melanogaster 38 rekombinacijos regionuose.

Norėdami nustatyti, ar pastebėti heterozigotumo skirtumai iš tikrųjų yra susiję su lytimi, iš keturių pastolių, kuriuose yra daugiausiai SNP, genotipui nustatyti, pasirinkome trumpus regionus, turinčius šešių datos palmių patelių veisles ir jų 28 palikuonis (7 papildoma lentelė). Genotipo rezultatai rodo, kad šie keturi pastoliai yra sujungti vienas su kitu, o ne rekombinacija tarp jų (5b pav.), Rodo, kad jie greičiausiai lokalizuojasi tame pačiame genomo regione. Naudojant tik empiriškai nustatytus vyrų ir moterų genotipus (išskyrus retus hermafroditus), genotipiniai pastoliai reikšmingai susieja su lytimi, kai log 10 šansų (LOD) balas yra 5, 3 (rekombinacijos dažnis 0, 07), o tik du vyrai rodo rekombinaciją. Be to, kadangi genealogijoje buvo naudojami kryžminami augalai, galima įtraukti teoriškai nustatytus donorų tėvų genotipus (papildomus metodus), pagerinant LOD rezultatą iki 8, 9 (rekombinacijos dažnis 0, 05) (5a pav.). Datuminių delnų genotipas, nepatenkantis į kilmės vietą, atitiko vyrų heterozigotiškumo ir moterų homozigotiškumo tendencijas. Iš 63 vyrų ir moterų, kuriems empiriškai ir teoriškai buvo nustatytas genotipas, tik 5 nesuteikė numatyto genotipo (5b pav.). Be to, buvo pastebėta, kad vienas patinas yra homozigotas vyrui specifinio alelio atžvilgiu (7 papildoma lentelė). Prognozuojami genai šiame regione (6 papildoma lentelė) apima vieną, koduojantį rcd-1, „reikalingą ląstelių diferenciacijos homologui“, Myb šeimos narį ir geną, kuris, kaip numatoma, koduos rab geranilgeranilo transferazių šeimos prentiltransferazę. Įdomu tai, kad rcd-1 genas yra svarbus lytinių organų vystymuisi mielėse 39 ir sąveikauja su c-Myb 40 . Be to, buvo parodyta, kad ląstelių diferenciacijos kontrolė datos palmių gėlių vystymuisi yra kritinė lyties organų vystymuisi 41 ir kad yra MADS dėžutės genų rinkinių, kurie kontroliuoja gėlių vystymąsi ir reikalauja teisingo jų veikimo 42 . Šiuose genuose stebėjome daugybę nesinoniminių polimorfizmų tarp vyrų ir moterų haplotipų, nors nė vienas iš jų neturėjo neigiamos įtakos baltymų funkcijai.

Diskusija

Mes pristatome, mūsų žiniomis, pirmąjį viešai prieinamą palmių šeimos (Arecaceae) nario branduolinio genomo projektą ir iš tikrųjų visą Arecales kategoriją. Datulė, aliejus ir kokoso palmės yra svarbūs pasėliai keliose besivystančiose šalyse, ir ši seka suteikia išteklių, kurie gali būti gyvybiškai svarbūs jiems tobulinant. Pvz., Būtų buvę nepaprastai sunku nustatyti lyčių specifinius SNP žymenis, apie kuriuos pranešame, jei nėra genomo sekos juodraščio. Nepaisant trumpo skaitymo rinkimo apribojimų tvarkant heterozigotinius ir pasikartojančius regionus, naudodamiesi skirtingo dydžio porinių galų bibliotekomis, gavome genų regionus, kurių gretimybės yra panašios į kitas juodraščio genomo sekas 43, 44 . Remiantis pastebėjimu, kad daugumoje augalų genų pasikartojančios sekos yra mažesnės nei ekstrageniniuose regionuose, dėmesys buvo sutelktas į datulių delno sričių, kuriose yra genai, surinkimą. Kalbant apie sistemą, naudojamą augalų genomo rinkinių kokybei klasifikuoti 45, mes tai vertiname kaip aukštos kokybės juodraščio genomą su jo numanoma nauda ir įspėjimais. Kitas šios sekos tobulinimo žingsnis turėtų būti jos įtvirtinimas fiziniuose ir genetiniuose žemėlapiuose. Tačiau dabartinės asamblėjos naudingumą geriausiai parodo pažadas pradėti atsakyti į neatidėliotinus poreikius tobulinant delnus.

Galimybė naudoti genetiką atskirti veisles ir numatyti nesubrendusių medžių lytį yra bene du artimiausi iššūkiai taikant biotechnologijas iki šiol auginant ir tobulinant palmes. Dabartinio rinkinio komentaras žymiai pagerino mūsų žinias apie geno kiekį ir alelinius datulių delno variantus. Daugelio genomų sekų duomenys pateikė didžiausią iki šiol polimorfinių žymenų išteklius. Nedidelis šių naujų žymeklių pogrupis gali būti atskaitos taškas rinkiniui, galinčiam atskirti> 2000 datulinių palmių veislių.

Mes suklasifikavome tris populiariausių datulių palmių veisles, kurios yra svarbios trijuose datulinių palmių auginimo regionuose: Khalas, mėgstamas Arabijoje; „Deglet Noor“, mėgstamas Šiaurės Afrikoje; ir Medjool, vis labiau vertinamų Kalifornijoje 26 . Šie ištekliai leis ateityje palyginti bruožus, tokius kaip vaisių kokybė ir nokinimo laikas, kurie skiriasi tarp šių palankių veislių. Patinų, perbrauktų atgal, sekos, nepakartojamas šaltinis bet kuriame ilgos kartos augale, leido mums išskaidyti genominius skirtumus tarp vyriškų ir moteriškų damų. Pastoliai, kuriuos mes nustatėme kaip glaudžiai susijusius su lytimi, gali būti DNR žymekliais pagrįsto lyties tyrimo, skirto naudoti sėklos ir (arba) sodinuko stadijose, pagrindas. Šie regionai turėtų būti toliau tiriami siekiant nustatyti galimą specifinę mutaciją, mutacijas ar kitą genų turinio skirtumą, lemiantį augalų lytį.

Tūkstantmečius palankios moteriškos veislės buvo auginamos palmių pavidalu. Pastaruoju metu somatinė embriogenezė buvo naudojama palankių veislių dauginimui. Iš sėklos iš esmės neįmanoma išauginti konkrečios moteriško datulinės palmės veislės, nes daigais užaugintų vaisių kokybė per daug skiriasi nuo motinos, kad būtų ekonomiškai naudinga. Derindami čia pateiktus duomenis su perbrauktais genetiniais ištekliais, kurie buvo generuojami dešimtmečius 7, netrukus galime turėti prieigą prie kryžminių augalų, kurie prieš daigumą buvo identifikuoti kaip moteriškos lyties ir kurių genotipai nustatyti pagal bruožų lokusus, kad būtų panašūs į pirminę motiną. Pateikdami pirmąjį genomo rinkinį, pirmąjį įvairaus veislės polimorfizmo rinkinį ir pirmuosius su lytimi susietus regionus, mūsų rezultatai padėjo pamatus būsimiems delnų tyrimams genomo lygmeniu.

Metodai

Genominės bibliotekos ir sekos nustatymas.

Data palmių genomo DNR buvo išgauta iš lapų, gautų iš išaugintų medžių Dohoje, Katare, rajone arba JAV žemės ūkio departamento kolekcijoje Riverside, Kalifornijoje. Khalas patelė buvo užauginta iš gerai patvirtintos augalų audinių kultūros. Alrijal patelė ir Khalt patinai buvo užauginti sėklomis, tačiau iš jų kilmė nežinoma. Iš šviežių datulinių palmių lapų DNR buvo išgauta naudojant „Wizard Genomic“ DNR paruošimo rinkinį (Promega). Lapai, naudojami DNR paruošimui, naudojami kuriant „Deglet Noor“ fosmidų biblioteką, buvo gauti iš vienos daigintos sėklos.

Trumpai suporuotų bibliotekų bibliotekos buvo statomos pagal gamintojo protokolą (Iliumina). Buvo naudojamos dvi suporuotos bibliotekos, kurių vidutinis intarpas buvo 172 bp ir 370 bp. Ilgesnės mate-porų bibliotekos buvo sukonstruotos naudojant linkerio seka modifikuotą III tipo restrikcijos fermento „ Eco P15I“ bibliotekos metodo variantą, kaip aprašyta 12 punkte, iš kurio kiekviena DNR molekulės gauta 25–27 bp. Fosmidų bibliotekos konstravimas vektoriuje pCC1FOS (Epicenter) buvo atliktas, kaip aprašyta anksčiau 46 .

Genomas buvo surinktas ir surištas pastoliais naudojant SOAPdenovo v1.4 (nuoroda 10), kurio k-mer lygus 31. Pastoliai, naudojant III tipo restrikcijos bibliotekas, buvo atlikti BAMBUS 13, naudojant 60 Ns, kad būtų pažymėtas pastolių tarpas.

Anotacija.

Genų prognozavimui buvo naudojama pakartotinė užmaskuota genomo versija. Buvo surinkta dešimt milijonų atsitiktinių trumpų skaitymų, kad būtų sukurta pradinė pasikartojančių regionų duomenų bazė, kad būtų galima patikrinti sekos duomenis naudojant REPEATMASKER (//www.repeatmasker.org/). Anksčiau apmokyti viengunčių geno numatymo parametrai buvo naudojami su „Fgenesh ++“ dujotiekiu, o visas augalų skyrius REFSEQ buvo naudojamas kaip įvadas atliekant homologines paieškas. Genai konkretaus lyties regione buvo kuruojami rankiniu būdu. Funkcinis komentaras buvo atliktas naudojant lokalią BLAST2GO 17 programinės įrangos versiją. Visų numatytų genų buvo ieškoma naudojant BLASTP (e-vertės sumažėjimas 10–5 ), palyginti su NR duomenų baze NCBI, taip pat ieškota naudojant INTERPRO duomenų bazę Europos bioinformatikos institute. Kai tik įmanoma, buvo priskiriami funkcijų priskyrimai, genų ontologijos ir fermentų komisijos numeriai.

Dėl fosidų sekų numatytų ORF buvo ieškoma remiantis „GenBank NR nt“ ir EST duomenų bazėmis, naudojant BLASTN, ir prieš NR duomenų bazę, naudojant BLASTX. Kaip reikšmingumo panašumo slenkstis palyginimui buvo naudojama ribinė vertė e –10 .

Perkeliamo elemento identifikacija.

Perkeliamas elementas buvo identifikuojamas ir kiekybiškai įvertinamas daugybe papildomų metodų. Mažus nekoduojamus perkeliamus elementus, tokius kaip MITE, rado „MITE-Hunter 22“ ir „RepeatModeler“ (//www.repeatmasker.org/RepeatModeler.html). Baltymus koduojantys perkeliami elementai daugiausia buvo atpažįstami pagal homologiją su transponuojamais elementais, užkoduotais baltymais, naudojant BLASTX ir reikalaujama e – 10–5 vertė tarp numatytų peptidų. Nepažeisti LTR retrotransposonai buvo rasti naudojant LTR_FINDER 20 ir LTR_STRUC 21 . Identifikavus perkeliamus elementus, visos jų kopijos buvo rasta homologiškai visame genomo rinkinyje ir šaudymo pistoleto tekste.

Polimorfizmo nustatymas.

SNP buvo iškviečiami, suderinant originalias šaudymo pistoleto sekas su de novo surinkimo atskaitos seka, naudojant BWA 23 ir dokumentuojančius regionus, naudojant SAMTOOLS 24, kur buvo akivaizdu, kad užrašai atspindi du alelius (1 pav.). SNP skambučiams Khalasuose buvo naudojamos tik ilgiausios suporuotų galų sekos, gaunančios 29, 3 × (iš viso 53, 4 × panaudotos surinkimui) 84 bp sekų aprėptį. Norint, kad SNP neskambėtų dėl žemos kokybės sekos ar sugriuvusios pasikartojančios sekos, SNP reikėjo aprėpti bent penkis kartus ir ne daugiau kaip 70 kartų. Filtruotai SNP analizei atlikti, atsižvelgiant į atstumą tarp SNP (2a pav.), Buvo pašalinta 500 bp iš abiejų kontigo galų ir regionų, kurių> 38 x arba <20 x (1, 3 x ir 0, 7 x vidutinis sekos aprėptis).

ISCR buvo aptikti naudojant CNV-SEQ 28 . Aptiktino ISCR, kurio absoliutinė log 2 vertė ≥0, 6, lango dydis svyravo nuo 800 bp iki 1000 bp, priklausomai nuo tiriamojo genomo sekos aprėpties gylio. Kad būtų konservatyvus, ISCR iškvietimui buvo nustatytas 1 600 bp universalus langas. Tai buvo> 1, 5 × didesnis nei lango dydis, reikalingas statistiškai reikšmingam ISCR iškvietimui. Prieš anotuojant regioną kaip ISCR, reikėjo bent trijų gretimų langų. Visuotinis normalizavimas buvo naudojamas atsižvelgiant į chromosomos dydžio kontigų trūkumą.

ISCR buvo komentuojami dokumentuojant visas ISCR vietas kiekviename sekvensuotame genome. Jei regionai tarp bet kurio dviejų genomų sutapdavo, tai būtų žlugęs ir laikomas vienu ISCR regionu. Tada buvo užfiksuotas visų genomų sekos kitimo lygis šiuose ISCR regionuose. Dokumentuoti tik tie ISCR, kurie sutapo su kodavimo sritimi.

Su lytimi susiję polimorfizmai buvo aptikti nuskenavus visų genomų genotipus 3, 5 milijono dokumentais patvirtintų polimorfinių vietų. Buvo nustatyti pastoliai, turintys daugiau nei dešimt lyčių segmentų SNP.

Statistinė analizė.

LOD balai buvo apskaičiuojami kaip aprašyta 47 . Genų ontologijos praturtėjimas buvo apskaičiuotas naudojant GOSSIP algoritmą BLAST2GO 17 pakete, kuris pateikia klaidingų atradimų rodiklius. analysis Atlikta 2 analizė, naudojant numatomą heterozigotinių SNP skaičių, remiantis visu genomu, nenumatytų atvejų lentelėje su dviem kategorijomis heterozigotinėmis arba homozigotinėmis. Iš visų užfiksuotų genomo genotipo padėčių vyrai buvo vidutiniškai heterozigotiniai 25%, tuo tarpu moterys buvo heterozigotinės 36% pozicijų. Įtariamuose su lytimi susijusiuose pastoliuose buvo užfiksuota visų genotipinių polimorfinių vietų „Deglet Noor“ ir „Medjool“ patelėse ir jų nugaros kryžmintuose vyruose homozigotiniai ar heterozigotiniai pokyčiai ir jie buvo naudojami stebimiems skaičiams.

Pagrindinė kultivarų genotipų komponentų analizė buvo atlikta naudojant „Partek Genomics Suite“ („Partek“). Genotipai buvo transformuoti į skaitinius genotipus: 1 atstovavo homozigotinius, atitinkančius Khalas nuorodą, 2 - heterozigotinius, o 3 - homozigotinius, palyginti su Khalas referencija. „Willow“ pakete 27 esantis sprendimų medžio algoritmas buvo naudojamas norint rasti geriausius veislę išskiriančius SNP. The top 1, 000 most informative SNPs were selected based on a showing of all three possible alleles (AA, AB, BB) in the nine sequenced genomes. From this set, the decision tree algorithm was used to select the fewest number of SNPs that could distinguish the nine sequenced varieties. Though only five SNPs were enough to separate all nine genomes, the backcrossed genomes did not always cluster with their recurrent parents accurately. SNPs with the most distinguishing power in the decision tree (32 SNPs) were chosen to provide a set from which a future subset can be selected once testing in a much larger and more diverse population is completed.

Prisijungimo kodai.

Data from this Whole Genome Shotgun project have been deposited at DDBJ/EMBL/GenBank (//www.ncbi.nlm.nih.gov/) under the accession no. ACYX00000000. The version described in this paper is the second version, ACYX02000000. Date Palm fosmid sequences have been submitted to DDBJ/EMBL/GenBank as follows: 9A12F7 under accession no. JF313259, 9B12 under accession no. JF313260, 9H12 under accession no. JF313261, E2 under accession no. GU183367, R1 under accession no. GU183365 and D6 under accession no. GU183366. Short-read sequence data have been deposited in the NCBI Sequence Read Archive (//www.ncbi.nlm.nih.gov/sra) under accession no. SRA029799, study accession no. SRP005625. SNPs have been submitted to dbSNP (//www.ncbi.nlm.nih.gov/projects/SNP/) under the handle 'WCMCQ-GENOMICS', submitter batch id 'palmqatar1'. Assembly, polymorphism and annotation data are available at //qatar-weill.cornell.edu/research/datepalmGenome/download.html.

Prisijungimai

„GenBank“ / EMBL / DDBJ

  • 9A12F7
  • ACYX00000000
  • GU183365
  • GU183366
  • GU183367
  • JF313259
  • JF313260
  • JF313261
  • SRA029799
  • SRP005625

Papildoma informacija

PDF failai

  1. 1.

    Papildomas tekstas ir figūros

    Supplementary Tables 1–4, 6, 7, Supplementary Methods, Supplementary Notes and Supplementary Figs. 1–5

„Excel“ failai

  1. 1.

    5 papildoma lentelė

    ISCRs overlapping genes in 4 genomes compared to Khalas