Perlinių sorų genomo seka suteikia šaltinį agronominiams požymiams gerinti sausringoje aplinkoje gamtos biotechnologijos

Perlinių sorų genomo seka suteikia šaltinį agronominiams požymiams gerinti sausringoje aplinkoje gamtos biotechnologijos

Anonim

Dalykai

  • Žemės ūkio genetika
  • Naujos kartos sekos
  • Šio straipsnio „Erratum“ buvo paskelbtas 2018 m. Balandžio 5 d

Šis straipsnis buvo atnaujintas

Anotacija

Perlinės soros [ Cenchrus americanus (L.) Morrone] yra pagrindinis maistas daugiau nei 90 milijonų ūkininkų sausringuose ir pusiau sausuose Afrikos į pietus nuo Sacharos, Indijos ir Pietų Azijos regionuose. Pateikiame 79 1, 79 Gb juodosios visos genomo sekos etaloninio genotipo „Tift 23D 2 B 1 -P1-P5“, kuriame yra apskaičiuoti 38 579 genai. Mes pabrėžiame didelį vaško biosintezės genų praturtėjimą, kuris gali prisidėti prie šio derliaus toleravimo šilumai ir sausrai. Mes iš naujo nustatėme ir išanalizavome 994 perlinių sorų linijas, leidžiančias sužinoti apie populiacijos struktūrą, genetinę įvairovę ir prijaukinimą. Šiuos sekos sekos duomenis naudojame norėdami nustatyti žymenų bruožų asociacijas genomo atrankai, apibrėžti heterotinius rezervus ir numatyti hibridinį efektyvumą. Mes tikime, kad šie ištekliai turėtų suteikti tyrėjams ir selekcininkams daugiau galimybių pagerinti šį svarbų derlių.

Pagrindinis

Manoma, kad iki 2100 m. Pasaulinė temperatūra padidės nuo 1 iki 6 ° C, o tai turės rimtų padarinių žemės ūkiui 1 . Tai reiškia, kad prioritetas yra klimato kaitai tinkamos aprūpinimo maistu užtikrinimo priemonės, ypač atsižvelgiant į tai, kad prognozuojama, jog žmonių populiacija 2050 m. Pasieks 9, 1 milijardo 2 . Kaip vienas sprendimas buvo pasiūlyti pasėliams, pritaikytiems numatomiems aplinkos pokyčiams 3 . Net dabar pasėlių, galinčių atlaikyti klimato pokyčius, prieinamumas ir tolesnis gerinimas galėtų sumažinti 805 milijonų žmonių, kurie nepakankamai maitinasi, alkį, daugiausia gyvenantį besivystančiose šalyse, badą 4 .

Perlinės soros ( Pennisetum glaucum (L.) R. Br., Sin . Cenchrus americanus (L.) Morrone), C4 žolė, yra labai kryžmai apdulkėjęs diploidas (2 n = 2 x = 14), pasižymintis puikiu fotosintezės efektyvumu ir biomasės gamybos potencialas. Jis auginamas kaip pagrindiniai maisto grūdai ir šiaudų šaltinis pašarams ir degalams Afrikos į pietus nuo Sacharos, Indijos ir Pietų Azijos sausringuose ir pusiau sausuose regionuose. Klimato požiūriu vegetatyvinės, reprodukcinės ir fiziologinės perlinių sorų savybės daro šį augalą gerai tinkamu augti atšiauriomis sąlygomis, įskaitant žemą dirvožemio derlingumą, aukštą dirvožemio pH, aukštą dirvožemio Al 3+ prisotinimą, žemą dirvožemio drėgmę, aukštą temperatūrą, didelį druskingumą ir ribotas kritulių kiekis. Perlų soros patikimai augina grūdus regionuose, kuriuose vidutinis metinis kritulių kiekis siekia tik 250 mm. Tomis pačiomis sausros sąlygomis kukurūzai ( Zea mays ), ryžiai ( Oryza sativa ), sorgas ( Sorghum bicolor ), duonos kviečiai ( Triticum aestivum ) ir kietieji kviečiai ( Triticum durum ) greičiausiai žlugs 5 .

Perlų soros auginamos 27 mln. Hektarų visame pasaulyje ir yra pagrindinis maistas daugiau nei 90 mln. Skurdo turinčių ūkininkų. Miltiniai grūdai yra labai maistingi, juose yra 8–19% baltymų, mažai krakmolo, daug skaidulų (1, 2 g / 100 g) 6 ir didesnė mikroelementų (geležies ir cinko) koncentracija nei ryžiuose, kviečiuose, kukurūzuose ir sorguose 7 . Svarbu tai, kad šios kultūros reprodukcijos metu gali toleruoti> 42 ° C oro temperatūrą, reiškia, kad ją galima auginti drėkinant labai karštomis šiaurės vakarų Indijos vasaromis 8 .

Nepaisant aiškios perlinių sorų svarbos žemės ūkyje, šių kuokštelinių augalų derlingumas ir našumas yra labai žemas - vidutinis grūdų derlius siekia tik 900 kg / ha. Taip yra todėl, kad perliniai soros daugiausia auginamos sausomis sąlygomis, kurios yra ribotos gamybos aplinkoje, ir kuo mažiau naudojama komercinių žaliavų, tokių kaip tinkamas drėkinimas, trąšos ir pesticidai. Genetinis pelnas, derlingumo padidėjimas per tam tikrą laikotarpį, per 1996–2013 metus perliniuose sorose buvo vidutiniškai apie 24 kg grūdų / ha per metus Indijoje, kur didžiausias sorų produktyvumas ir pagrindinės perlų soros produkcija. šalys 9 . Perlinės kruopos yra pažeidžiamos keleto lapų ligų, įskaitant pelėsinį pelėsį (kurį sukelia Sclerospora graminicola ), Pyricularia lapų dėmę ar sprogimą ( Pyricularia grisea ) ir rūdis ( Puccinia substriata var. Indica ). Iš tiesų, dėl šių patogeninių infekcijų gali sumažėti derlius ir pablogėti pašarų kokybė. Iki šiol ribotas perlų soros genomikos priemonių pasirinkimas tyrinėtojams ir selekcininkams kliudė naudoti tobulinimo metodus.

Norėdami pagreitinti perlinių sorų pasėlių gerinimą, mes suklasifikavome visą pamatinio genotipo Tift 23D 2 B 1 -P1-P5 genomą. Mes taip pat iš naujo nustatėme 994 perlinių sorų genotipus, įskaitant 963 inbredų linijas ir pavienius augalus iš kiekvieno iš 31 laukinių prieigų, kad suprastume šio kuokštelinių augalų populiacijos struktūrą, genetinę įvairovę ir prijaukinimą. Mes atlikome viso genomo asociacijos tyrimą (GWAS), kad numatytume derliui būdingus bruožus tiek drėkinamomis, tiek sausros sąlygomis. Taip pat mes naudojome genomo numatymą hibridinio našumo numatymui. Šios programos pabrėžia mūsų sekos sekos duomenų rinkinio naudingumą spartinant veisimąsi ir gerinant genetinį perlų soros augimą.

Rezultatai

Genomo surinkimas

Norėdami surinkti perlinių sorų genomą, mes panaudojome viso genomo karabino (WGS) ir bakterijų dirbtinės chromosomos (BAC) seką. Dešimt mažų įdėklų (∼ 170, 250, 500 ir 800 bp) ir 13 didelių įdėklų (∼ 2, 5, 10, 20 ir 40 kb) WGS bibliotekų buvo sukonstruotos naudojant Tift 23D 2 B 1 -P1-P5 10 genotipą. . Šios bibliotekos buvo surikiuotos pagal „Illumina HiSeq 2000“ ir buvo sukurti 520 Gb sekos duomenys, atspindintys 296 x genomo aprėptį (1 papildoma lentelė). Iš Tift 23D2B1-P1-P5 buvo pagamintos dvi BAC bibliotekos, kurių vidutinis intarpas buvo ∼ 120 kb, naudojant EcoRI ir HindIII. Iš 100 608 BAC klonų, gavusių × 80 × genomo aprėptį, buvo sugeneruoti 972 Gb sekos duomenys (2 papildoma lentelė ir papildomas 1 pav.). Trumpai tariant, 1, 49 Tb sekos duomenų, atlikus griežtus filtravimo ir korekcijos veiksmus, buvo surinkti į 1, 58 Gb kontingento (sekos be tarpų ar Ns) ir 1, 82 Gb pastolių (kontigai sujungti su įvertintomis spragomis, užpildytomis).

Remiantis „k-mer“ statistika, perlų soros genomo dydis buvo apskaičiuotas 1, 76 Gb (papildomas 2 pav.), Rodantis, kad surinkti ∼ 90% genomo. Pastoliai, ilgesni nei 1 kb, iš viso sudarė 1, 79 Gb, 50% pastolių (N50) buvo ilgesni nei 884, 95 kb (N50 contig = 18 180 bp), o didžiausių pastolių, apimančių 4, 82 Mb (3 papildoma lentelė). Norėdami įvertinti surinkimą, „PacBio“ platformoje sukūrėme papildomus visos genomo sekos duomenis, 1x aprėptį. Daugiau nei 90% šių ilgų skaitinių buvo sugrąžinti į pastolius, kurių panašumas ir 90% suderinto ilgio santykis buvo didesnis (3 pav.).

Genominių pastolių surišimas į pseudomoleules buvo panaudotas trijų biparentinių žemėlapių populiacijų sujungimo informacija ir kolinariškumas su lapinės uodegos soros ( Setaria italica ) 11 genomu. Mes surinkome 1, 56 Gb į septynias pseudomoleules (Pg1 - Pg7, 1 pav. Ir 4 papildoma lentelė). Perlinių sorų (47, 9%) vidutinis GC kiekis yra didesnis nei lapinių sorų (46, 1%), sorgo (44, 5%), miežių ( Hordeum vulgare , 44, 4%) ir ryžių (43, 5%) (papildomas 4 pav.). . Įvertinome GC kiekio kintamumą 10 kb apimties nepersidengiančiuose stumdomuose languose (papildomas 5 pav.), Norėdami parodyti, kad stebimas GC kiekis neatsirado dėl sekos nustatymo pagrįstais GC poslinkiais. Taip pat ištirtas GC kiekis viso genomo koduojančioje seka (CDS; 54, 76%) ir 384 išplėstose genų šeimose (53, 14%); jis buvo panašioje proporcijoje kaip bendras genomas, suteikdamas pasitikėjimo šiuo rezultatu (5 papildoma lentelė ir papildoma 6 pav.). Išsamumo analizė buvo atlikta naudojant pagrindinį eukariotinių genų žemėlapių sudarymo metodą (CEGMA), kuris atskleidė, kad surinkime buvo> 97% genų (6 papildoma lentelė).

Image

Genomo ypatybės 1 Mb intervalu per septynias pseudomoleules. Apskritimo vienetai yra pseudomolekulių megabazių vertės. (1) Pakartokite tankį, (2) Pakartokite tankį, (3) Genų tankį, (4) GC kiekį ir (5) SNP, identifikuotus pakartotinai sekvencizuojant PMiGAP linijas 1 Mb talpyklose. Genomo rinkinyje vidutinis GC kiekis buvo 47, 9% ir jame buvo 38 579 genų modeliai, kurių vidutinis kodavimo sekos ilgis buvo 1 014, 71 bp.

Visas dydis

Pasikartojančios sekos

Iš viso 1, 58 Gb genomo rinkinyje buvo identifikuota 1, 22 Gb pasikartojančių elementų, tai rodo, kad 77, 2% surinktų genomų yra pasikartojantys. Be to, kadangi pasikartojančios genomo dalys visada yra nepakankamai atstovaujamos genomo rinkinyje, greičiausiai taip pat pasikartos didžioji dalis nesujungtos DNR (0, 18 Gb). Tai nestebina, nes keli pakartojimai dažnai susikaupia į vieną pakartojimą mazge ir taip pat todėl, kad „pakartoti maskavimą“ dažnai atliekamas prieš kai kuriuos surinkimo veiksmus 11, 12, 13 . Mes tikimės, kad tikrasis pasikartojančios DNR procentas bus mažiausiai 80%. Tai yra panaši į pasikartojančių DNR dalį, aptinkamą 2, 3 Gb kukurūzų genome (> 85%), ir žymiai daugiau nei 730 Mb sorge 14 (∼ 61%), ∼ 400 Mb pėdučių soros 11 (∼ 46%). ) arba 466 Mb ryžių 15 (∼ 42%) genomų. Kaip ir daugelio kitų augalų genomų struktūroje, ilgalaikio pakartotinio (LTR) retrotransposonai buvo gausiausia pasikartojančių DNR klasė ir sudaro> 50% perlinių sorų branduolio genomo (7 papildoma lentelė). Naudodamiesi „RepeatMasker“, mes nustatėme, kad ilgų susikertančių branduolinių elementų sekų nukrypimo procentai buvo aukšti (didžiausia - 28%) (papildomas 7 pav.).

Genai ir anotacija

Iš viso 69 398 transkriptometru surinkti kontigai (TAC), kurie iš viso sudarė 43 Mb, buvo nustatyti naudojant dviejų skirtingų tyrimų perlinių sorų transkriptų sekas 16, 17 ir šiam tyrimui sugeneruotą naują perlinių sorų transkriptų rinkinį (8 papildoma lentelė). Ab initio homologija paremtas geno numatymas buvo derinamas su nuorašo surinkimu, kad būtų galima daryti išvadą apie nereikalingą 38 579 genų modelių rinkinį, kurio vidutinis nuorašo dydis yra 2420 bp ir vidutinė kodavimo seka 1, 014 bp (1 lentelė; 9 papildoma lentelė). Vidutinis mRNR, CDS, introno ir egzono ilgis perliniame soroje buvo panašus į nurodytą kitų javų genomuose (papildomas 8 pav.). Tarp 458 konservatyviausių genų CEGMA, 437 (95, 4%) genai buvo išbaigti, tačiau 8 (1, 7%) genų nerasta genomo sekoje, 8 (1, 7%) genai nebuvo įtraukti į genų rinkinį, o 5 ( 1, 1%) genų turėjo daugiau nei vieną egzempliorių (galbūt suskaidyti genai). Be to, atlikdami 956 genų palyginimą su universaliųjų vienos kopijos ortologų (BUSCO) analize, mes pažymėjome 96, 7% genų, ir 95, 4% jų yra baigti. Ryžių ir Arabidopsis thaliana genų modeliai buvo komentuojami ir kruopščiai patvirtinami. Norėdami ištirti perlinių sorų genų išsamumą, nusprendėme naudoti ryžių, kurie labiau susiję su perliniu soru nei A. thaliana , genų modelius. 90, 86% iš 4202 ryžių ryžių genų turi homologus perliniuose sorose, o 86% šių perlinių sorų genų buvo visiškai, palyginti su ryžių genų modeliais (perlinių sorų ilgio ir ryžių ilgio santykis 0, 8), atspindintys išsamumą. vienos kopijos genai. Genų tankis padidėjo link pseudomolekulių galų (1 pav.), Tai atitinka visų kitų javų genomų, paskelbtų iki šiol 11, 14, 15, duomenis . Dauguma anotuotų genų koduoja baltymus, homologiškus baltymams, naudojant „SwissProt 18“ (55, 61%) ir „InterPro“ (nuoroda 19) (65, 53%). Funkcijos buvo priskirtos 27 893 (72, 30%) genams, paliekant 10 686 (27, 70%) genus be komentuoto (10 papildoma lentelė).

Pilno dydžio lentelė

Prognozuojami perlinių sorų baltymai buvo palyginti su tais, kurie jau buvo pažymėti dešimtyje augalų rūšių ( Arabidopsis 20, Brachypodium ( Brachypodium distachyon ) 21, bananas ( Musa acuminata ) 22, miežiai 23, lapinių sorų soros 11, kukurūzai 24, ryžiai 15, sorgo 14, sojos pupelės). Daugiausiai ortologų nustatyta, atsižvelgiant į evoliucinį panašumą, didžiausias ortologų skaičius buvo lapinių sorų soruose (74, 16%), mažiausias - Arabidopsis (61, 88%; 11 papildoma lentelė). Abipusis prognozuotų baltymų palyginimas 38 579 perlinių sorų genų modeliuose su 385 891 genų modeliais iš tų pačių dešimties augalų rūšių (kaip aprašyta aukščiau) nustatė 17 949 ortologines grupes (12 papildoma lentelė), iš kurių 5232 turėjo tik vieną perlinių sorų geną, o tai rodo. paprastos ortologijos (13 papildoma lentelė; papildoma 9 pav.). Be baltymus koduojančių genų, mūsų surinkime numatėme 909 tRNR, 235 rRNR, 183 mikroRNR (miRNR) ir 752 mažus branduolinius RNR (snRNR) genus (papildoma 14 lentelė).

Genų šeimos

Naudodami OrthoMCL (Ortho Markov klasterio algoritmas //orthomcl.org/orthomcl/) 27, žolių porūšiuose Panicoideae, Pooideae ir Ehrhartoideae nustatėme unikalias ir bendras genų šeimas iš skirtingų rūšių. Perlų soros ir plekšnės soros turi 15 887 genų šeimas (iš jų 14 398 taip pat randamos sorge), o perlų sorose ir miežiuose - 13 607 genų šeimos (2a pav.). Iš viso 15 869 genų šeimos yra bent vienoje rūšyje kiekvienoje iš trijų analizuotų porūšių (ty Panicoideae, Ehrhartoideae ir Pooideae) (2a pav.). 354 genų šeimos buvo iš esmės išplėstos perlų soroje ir sudarytos 1692 genų šeimos (2b pav.). Palyginome vidutinį 384 išplėstų genų šeimų genų ilgį tarp visų dešimties rūšių ir panaudojome „Quantile“ statistikos koncepciją, norėdami įvertinti trumpą CDS. Šioje sąvokoje Q1 yra „25 procentilis“, Q 3 yra „75 procentilis“, o tarpląstelinis intervalas (IQR) įvertinamas kaip Q 3 –Q 1 . Mes manome, kad ilgis, mažesnis nei 1–3 (IQR), yra kraštutinė išimtis. Taikydami šį metodą, mes nustatėme, kad tik 24 (6, 25%) genai turėjo žymiai trumpesnį CDS perlinių sorų genuose, palyginti su kitomis rūšimis. Taigi tik nedidelė dalis išplėstų genų šeimų gali būti neteisingai identifikuotos dėl galimų dalinių genų (papildomas 10 pav.).

Image

a ) Venno diagramos rodo genų skaičių, pasidalijamą tarp skirtingų žolių rūšių ir tarp žolių šeimų; perlų soros dalijasi 14 398 genais su sorgais ir lapinės soros soromis; 13 027 genai su kukurūzais ir ryžiais; 11 369 genai su miežiais ir kviečiais. b ) 384 genų šeimos yra labai išplėstos, o 1 692 genų šeimos yra susmulkintos perliniuose sorose, palyginti su kitais augalų genomais.

Visas dydis

Genų šeimų išplėtimas ir susitraukimas tarp rūšių taip pat gali paryškinti skirtingų genomų bioinformatikos analizės skirtumus. Dėl skirtingų tyrimų dėl genų modelio identifikavimo paklaidų gali būti sudėtinga palyginti išplėtimą ar susitraukimą. Vienas galimas šališkumo šaltinis yra, jei genas yra suskaidytas, tai yra, visas genas yra anotuojamas kaip du atskiri genai. Remdamiesi eukariotinių ortologinių genų sekomis, mes manome, kad 2, 3% mūsų genų tokiu būdu galėjo būti netinkamai pažymėti (6 papildoma lentelė). Nors mes nustatėme, kad 1692 šeimos buvo sudarytos pagal sutartis su perliniu soru, 5, 4 karto labiau tikėtina, kad susitraukia nei plėtėsi. Vienas paaiškinimas gali būti tas, kad kitų rūšių, kurias mes naudojame palyginimui, referenciniuose genomuose buvo daug didesnė skaldytų genų dalis nei mūsų perlų sorų rinkinyje. Tai padidintų mūsų genų šeimos susitraukimų skaičių.

Labiausiai išsiplėtusios genų šeimos yra tos, kurios koduoja cutin, suberino, vaško biosintetinius genus ( P <10 –6 ) ir antrinių metabolitų transmembraninius pernešėjus (ABC pernešėjai, P <10 –24 ) (15 papildoma lentelė). Triterpenoidai yra vaško komponentas, be to, mes pastebėjome reikšmingą genų šeimų, susijusių su terpenoidinio stuburo biosinteze, ir monoterpenoidų ( P <0, 05) bei di-terpenoidų biosintezė ( P <0, 005) išsiplėtimą. Pažymėtina, kad padidėjusi kutikulinio vaško sintezė pagerina Arabidopsis rūšių 28 atsparumą sausrai, o sumažėjusi vaško gamyba buvo susijusi su ryžių jautrumu sausrai 29 . Praturtintas genų, skirtų lipidų sintezei ir makromolekulių eksportui iš perlinių sorų, repertuaras gali prisidėti prie jo tolerancijos šilumai ir sausrai.

Atsparumas patogenams yra lemiamas pasėlių derliaus veiksnys. Daugelyje augalų atsparumo genų yra nukleotidų surišimo vieta (NBS). NBS turinčių genų identifikavimas perlų soroje padės nustatyti galimus atsparumo genus. Po pirminės paieškos rankiniu būdu buvo patikrinti 378 NBS koduojantys genai, turintys ∼ 1% viso genų rinkinio, panašiai kaip ir kituose grūdų genomuose (16 papildoma lentelė). NBS leucino turtingų pakartojimų (NBS-LRR) genai sudarė ∼ 43% NBS genų, tik NBS genai sudarė ∼ 41%. Iš 378 NBS koduojančių genų 360 buvo susieti su vienu iš septynių pseudomolekulių, reikšmingai (Chi kvadrato bandymo P vertė - <10 –10 ) pasiskirstę tarp pseudomolekulių; ∼ 26, 2% ir ∼ 25, 7% buvo atitinkamai Pg4 ir Pg1 (17 papildoma lentelė). Tai taip pat yra tos pačios dvi pseudomolekulės, kurioms buvo priskirtas pelėsinio pelėsio atsparumo kiekybinis bruožo lokusas (QTL) 30 . Mes stebėjome didelius tandeminius NBS genų masyvus netoli Pg1 telomerų srities (dvi 4 genų grupės, keturios 5 genų grupės ir viena 6 genų grupės), po kurių seka Pg4 (trys 2 genų grupės ir dvi 4 genų grupės) ( Papildomas 11 pav. Ir 18 papildoma lentelė), suderinamas su šališku šių lokusų pasiskirstymu ir leidžia manyti, kad tandemo dubliavimasis gali būti svarbus vietinio geno amplifikacijos šaltinis.

Gyventojų struktūra, įvairovė ir prijaukinimas

Norėdami geriau išaiškinti populiacijos struktūrą, įvertinti genetinę įvairovę ir suprasti perlinių sorų prijaukinimą, mes iš naujo nustatėme 994 linijas. Iš naujo išrinktas linijas sudarė 260 inbreduotų vyrų sterilumo palaikytojų (B-) ir 320 vyrų vaisingumo atstatymo (R-) linijų, 345 Pearl Millet inbred germplasm Association Association (PMiGAP) linijos (įskaitant auginamus gemalus iš Afrikos ir Azijos, elito patobulintas atviro apdulkinimo kultūras)., hibridiniai tėvų inbredų ir inbredinių kartografinių populiacijų tėvai), 38, 38 inbredinių tėvų kartografijos populiacijos ir 31 laukinių prisijungimų tėvai. Iš viso sugeneravome 1, 16 Tb viso genomo pakartotinio sekvenavimo (WGRS) duomenis, turinčius 1, 68 × aprėptį (∼ 3, 05 Gb vienai linijai) PMiGAP linijose, ir iš viso 116 Gb WGRS duomenis su 1, 86 × aprėptimi (∼ 3, 38 Gb kiekvienoje eilutėje) iš tėvų populiacijų žemėlapių sudarymo linijos (19 ir 20 papildomos lentelės). Be to, naudojant „PMiGAP“ linijas, naudojant genotipizavimą sekos 32 būdu buvo sugeneruota 78, 9 Gb duomenų, kurių vidutinis aprėptis 0, 12 ×, o B ir R linijoms - 614, 45 Gb duomenų, esant 0, 59 × aprėpties, vidutiniškai 1, 06 Gb / mėginys buvo sugeneruotas naudojant RAD seką 33 (papildoma 21 lentelė). Pavieniai augalai iš kiekvieno iš 31 laukinių prieigų, kurių mėginiai ėmėsi Sahelio nuo Senegalo iki Sudano, buvo pakartotinai sekvoduoti, naudojant vidutiniškai 2x aprėptį, naudojant WGRS metodą (22 papildoma lentelė).

Mes nustatėme 88 256 paprasto sekos pakartojimo (SSR) motyvus, naudodami MI cro SA pasakito programą 34 perlinių sorų genomo sekoje ir sukūrėme pradmenis 74 891 SSR turinčioms sekoms (papildomos lentelės 23 ir 24), kurias gali naudoti perlų soros bendruomenė. genetikai ir veisimui. Remdamiesi sekoskopijos duomenimis, PMiGAP eilutėse nustatėme 29 542 173 vieno nukleotido polimorfizmus (SNP) (25 papildoma lentelė ir išsami informacija apie kartografijos populiacijų tėvus ir hibridines tėvų linijas. Papildomos lentelės 26, 27, 28), 3 844 446 intarpai ir delecijos, mažesnės nei 50 bp (Papildomos lentelės 29, 30, 31) ir 423, 118 genomo masto struktūriniai variantai, didesni nei 50 bp, pvz., Delecijos, dubliavimosi ir intarpai (32 papildomoji lentelė ir papildomi 12–15 pav.). Mes atlikome pagrindinio komponento analizę (PCA) ir sukūrėme kaimynų sujungimo medį, pagrįstą 450 000 aukštos kokybės SNP. PCA analizė ir filogenetinis medis parodė keturis pagrindinius klasterius, iš kurių trys sudarė laukinius prisijungimus, o vienas - sugrupuotą išaugintą daigą (3a, b pav.). Trys laukinės stojimo grupės buvo atskirtos pagal geografinę kilmę į Rytų, Centrinės ir Vakarų Afrikos grupes (3a, b pav.).

Image

a ) 376 perlinių sorų linijų (345 PMiGAP linijos ir 31 laukinių priedų) pagrindinio komponento analizė naudojant 450 000 aukštos kokybės SNP. Buvo nustatytos keturios skirtingos grupės: kultivuojamos linijos (raudonos) ir laukinės linijos iš rytų (mėlynos), vakarų (oranžinės) ir Centrinės Afrikos (rožinės). b ) Kaimynų sujungimo (NJ) medis, paremtas 450 000 aukštos kokybės SNP. Ši analizė taip pat nustatė atskiras kultivuojamų ir laukinių linijų grupes iš rytinės, vakarinės ir centrinės Afrikos dalių. c ) Laukinių (i, ii) ir kultivuotų prieigų (iii, iv) morfologiniai skirtumai. Laukinėse prieigose yra daugybė žvynuotų žiedyno smaigalių ir mažas sėklų tankis (i), taip pat augalų architektūra, kuriai būdingi daugybė bazinių ir oro šakų (ii), kai augalų aukštis yra apie 1 m. Dirbant su priestatu, sėklos buvo atviros ir didelis sėklų tankis viename smaigelyje (iii), su keliomis bazinėmis šakomis ir be oro šakų (iv).

Visas dydis

Arčiausiai laukinių grupių auginamiems mėginiams yra iš centrinės Vakarų Afrikos dalies (3b pav.), Tai rodo, kad šiame regione atsirado perlinės soros, remiantis ankstesniais tyrimais 35 . Remiantis mūsų genetinėmis analizėmis 36, seniausi archeologiniai liekanos, datuojamos prieš 4500 metų, buvo rastos šiaurės centriniame Sahelyje 36 . Archeologinių liekanų tyrimais nustatyta, kad prieš 3500 metų perlų soros buvo auginamos Sahelio Afrikoje 37, 38, 39 . Perlų sorų žemės ūkio plitimas Azijoje, o ypač Indijoje, taip pat paplitęs prieš 3500 metų 40 . Vidutinė porų nukleotidų įvairovė populiacijose (θ π ) ir Wattersono segregacinių vietų vertintojas (θ indicated) parodė didelę laukinių prisijungimų įvairovę (vidutinė θ π = 0, 00366 ir θ ω = 0, 00342), palyginti su PMiGAP (vidutinė θ π = 0, 00238 ir θ). ω = 0, 00289) ant visų septynių pseudomolekulių (33 papildoma lentelė). Susitarę su PCA analize ir kaimynus jungiančiu medžiu, mes pastebėjome stiprią populiacijos struktūrą laukinėse prieigose ir silpną populiacijos struktūrą PMiGAP linijose (papildomi 16 ir 17 pav.). Silpna auginamų perlinių sorų struktūra rodo vienalytę genetinę įvairovę dideliu geografiniu mastu. Šis modelis neabejotinai yra susijęs su spartiu perlinių sorų žemės ūkio plitimu Afrikoje ir Indijoje be didelių kliūčių difuzijos metu. Tikimasi, kad šio modelio bus kilę iš labai alogamiškų rūšių veislių. Dėl stipraus laukinės įvairovės struktūros ir kultivuojamo mėginio pagrindinės geografinės kilmės matyti, kad Rytų Afrikoje (Sudanas, Čadas) ir Vakaruose (Senegalas, Mauritanija) randamų laukinių populiacijų įvairovė yra nepanaudota ir unikali.

Patalpinimas perliniuose sorose, kaip kad stebimas 24 kukurūzuose, buvo susijęs su esminiais smaigalio morfologijos ir augalų architektūros pakeitimais (3c pav.). Mes nustatėme kelis genominius regionus, kuriuose buvo sumažinta auginamų (bet ne laukinių) rūšių, kurios gali turėti genus, atrinktus prijaukinimo metu, įvairovė. Naudojant neigiamą kultūrinių (raudonųjų) ir laukinių (mėlynųjų) mėginių įvairovės loginį santykį, vertės, artimos 1, rodo dešimtkartinį įvairovės sumažėjimą, o vertės, artimos 0, rodo, kad kultūriniuose mėginiuose išliko įvairovė. Taip pat mes nustatėme regionus, kuriuose diferenciacija yra didesnė, remiantis fiksacijos indekso (F ST ) matavimu (papildomas 18 pav.). Šios analizės pateikė stačiakampius ir nuoseklius rezultatus ir nustatė 140 genomo regionų, kurių vertės buvo didesnės nei 95% slenksčio tiek įvairovės praradimui, tiek diferenciacijai. Taikant griežtą 99, 5% ribą ir atsižvelgiant tik į abiejų statistinių duomenų nustatytas vertes, 24 genomo regionai sumažino kultūrinio daigumo įvairovę, iš kurių aštuoni buvo Pg7, šeši Pg6 ir penki Pg1 (papildomos lentelės 34 ir 35). . Anksčiau buvo nustatyta, kad 6 ir 7 jungčių grupės turi QTL, kurios paaiškina daugumą fenotipinių skirtumų tarp laukinių ir auginamų perlinių sorų gemalų 41, 42 . Daugelyje nustatytų regionų Tajimos D vertės yra neigiamos (<–2, 0), kas rodo teigiamo atrankos pasirašymą (34 papildoma lentelė). Vienas ryškus daugiau nei dešimtkart didesnės įvairovės praradimo atvejis buvo susijęs su auksino sukelto geno PINOID reguliavimu Pg6. Šis genas yra žinomas kaip nevaisingas žiedynas2 (nuoroda 43) kukurūzuose, o šio geno kitimas buvo susijęs su fenotipiniu žiedyno kitimu 44 . Mūsų analizėje taip pat buvo nustatyti genai, užkoduojantys baltymus, kurie gali būti susiję su morfogeneze (LIM2 ir PINOID Pg6, Myosin 11 Pg7) arba genų reguliavimu (Pagrindinė spiralės – kilpos – spiralė, bHLH110 Pg3, Cinko pirštas Pg6). Norint patvirtinti kiekvieno iš šių genų vaidmenį (-us) prijaukinant, reikės atlikti funkcinę analizę ir atlikti papildomą fenotipo ir genotipo asociacijos analizę, naudojant smulkaus masto QTL metodus.

GWAS

Visų genomo SNP duomenys buvo naudojami apskaičiuojant jungčių pusiausvyros irimą (LDD) visuose trijuose gemalų plazmos rinkiniuose. Mes nustatėme r 2 slenkstį kaip 0, 2 ir stebėjome greitą mažesnį kaip 0, 5 kb LDD B ir R linijose (48 bp), taip pat PMiGAP linijose (84–444 bp) (papildomas 19 pav.). Perlinių sorų LDD yra panašus į kukurūzų ir pažymime, kad abu šie augalai yra milžiniški 45 . Tikėtini santykinai greiti LDD eilutėse, atspindinčiose labai algeniškos pandemijos populiacijos pokyčius. Grūdų ir kukurūzų derlius bei jo komponentai yra nepaprastai svarbūs perlinėse sorose ir buvo parinkti prijaukinimo metu. Mes atlikome GWAS per 288 bandomųjų kryžminių palikuonių PMiGAP linijas, kad gautų 20 bruožų, ir nustatėme 1 054 labai reikšmingų žymenų bruožų asociacijas (MTA) 15 požymių (papildoma 36 lentelė): grūdų skaičius kameroje (91 MTA), grūdai kvadratiniame metre (75 MTAs), džiovintuvo sausosios medžiagos išeiga (kg ha -1 ; 5 MTAs), šviežio krosnies derlius (t ha -1 ; 38 MTAs), kultivatoriai augalams (147 MTAs), kameros skersmuo (cm; 1 MTAs), panicle derliaus indeksas (%; 1 MTAs), kameros ilgis (cm, EL; 3 MTAs), kameros derlius (kg / ha; 9 MTAs), kameros skaičius (ha -1 ; 246 MTAs), augalų populiacija (ha -1 ; 68 MTAs), grūdų derlius (kg / ha; 11 MTAs), grūdų derliaus indeksas (%; 5 MTAs), augalų aukštis (cm; 344) ir 1000 grūdų masė (g; 10 MTAs). MTA paaiškino 9–27% fenotipų kitimo (36 papildoma lentelė). Nustatyta, kad atrinkti žymenys, būdingi stresui ir metams, yra svarbūs požymiai, tokie kaip grūdų skaičius kameroje Pg1 ir Pg5 (papildomas 20 pav.). Šie žymekliai gali būti svarbūs perlinių sorų veisimui.

Genominis hibridinio efektyvumo numatymas

Mes panaudojome sekoskopijos duomenis, norėdami atlikti genomo atranką, kad nuspėtume grūdų derlių bandomiesiems kryžiams. Ištirti keturi prognozavimo scenarijai, būtent grūdų derlingumas kiekvienoje iš trijų aplinkų (kontrolinis, ankstyvasis ir vėlyvasis stresas) ir skirtingose ​​aplinkose. Mes stebime aukštą numatymo tikslumą, išmatuotą kaip Pearsono koreliacijos koeficientas tarp numatytų ir stebimų verčių, standartizuotas pagal paveldimumo kvadratinę šaknį ( h = 0, 78), kuris yra 0, 6 už efektyvumą įvairiose aplinkose. Tokios rūšies grūdų derlingumo analizė atlikta naudojant kitų genų pasėlių genomo atranką 46 . Neseniai atliktas modeliavimo tyrimas nustatė, kad esant tokiam numatymo tikslumui, genomo atranka galėtų iš esmės pagerinti atrankos prieaugį per metus 47 .

Mes taip pat numatėme hibridinį našumą, naudodamiesi genomo atrankos strategija, kurioje atsižvelgiama į priedų ir dominavimo efektus. Kraigo regresijos geriausias tiesinis nešališkas prognozavimo metodas 46 buvo mokomas naudojant fenotipinius grūdų derlingumo duomenis iš 64 perlinių sorų hibridų, užaugintų penkiose Indijos aplinkose, pakartotiniuose tyrimuose 2004–2013 m. Grūdų derlingumo duomenys buvo analizuojami naudojant 302 110 SNP, kurių trūkstamos vertės buvo mažesnės nei 5%, o mažesnis alelių dažnis virš 5% - 580 B ir R linijoms (4a pav.). Mes radome 170 perspektyvių hibridinių derinių (papildoma 37 lentelė ir 4a pav.). Iš jų 11 derinių jau buvo panaudoti hibridų, gaunančių geresnį našumą, gamybai (38 papildoma lentelė). Tačiau hibridiniame veisime niekada nebuvo naudojami 159 deriniai (4b pav.), Todėl jie yra tinkami kandidatai auginant didelius derlius hibridus.

Image

2004–2013 m. Penkiose vietose (Jamnagare, Anandoje, SK Nagare, Mahuvoje, Kotharoje Indijoje) buvo įvertintas 64 skirtingų perlinių sorų hibridų, pagamintų sukryžminus 20 vyriškų ir 23 moteriškų linijų, grūdų derlius. Fenotipų duomenys (1 papildomas duomenų rinkinys) kartu su 302 110 aukštos kokybės SNP žymenų duomenimis, gautais iš 580 B ir R linijų (27 papildoma lentelė), buvo naudojami hibridinių charakteristikų numatymui. Ridžo regresija-BLUP, kurioje atsižvelgiama į priedų ir dominavimo efektus, buvo naudojama hibridiniam našumui numatyti. a ) Prognozavimo tikslumas buvo tiriamas naudojant 500 kryžminio patvirtinimo testų. Kiekviename kryžminiame patikrinime atsitiktinai buvo pasirinkti 48 hibridai kaip treniruočių rinkinys, o likę 16 hibridų buvo naudojami kaip testų rinkinys. b ) Pažadėti hibridiniai deriniai, į kuriuos įeina tėvų linijos, kurie anksčiau nebuvo naudojami veisiant, buvo nustatyti kaip bandymai ir išleidžiami kaip geresni hibridai. c ) Šilumos žemėlapis, kuriame pateikiamos spėjamos heterotinės grupės.

Visas dydis

Mes apžiūrėjome visų galimų 167 910 vieno kryžiaus derinių numatomą hibridinį efektyvumą, taikydami hierarchinį grupavimą kartu su šilumos grafiku, ir ištyrėme šio požiūrio galimybes nustatyti perspektyvias heterotines grupes. Analizės atskleidė dvi linijų grupes, kurių, kaip prognozuojama, hibridų našumas bus vidutiniškai 8% didesnis, kai kertama tarpusavyje, nei bendras 167 910 vieno kryžminio derinio rinkinys (4c pav. Ir papildomas 21 pav.). Šie numatomi didelio derlingumo hibridai galėtų būti naudojami kaip branduolys, norint sudaryti didelio derlingumo heterotines grupes hibridinių perlinių sorų veisimui 48 (papildomos lentelės 37 ir 38).

Diskusija

Perlų soros yra pagrindinis maistas daugiau nei 90 milijonų žmonių Afrikoje ir Azijoje. Žmonės, gyvenantys sausringuose ir pusiau sausruosiuose regionuose, ypač pasikliauja perlinėmis soromis, kurios gali pasėti atšiauriomis sąlygomis. Mes sekvenavome perlinių sorų geno tipą Tift 23D 2 B 1 -P1-P5 (galima rasti adresu //www.ncbi.nlm.nih.gov/assembly/GCA_002174835.1/). Projekto genomo rinkinyje 90% perlinių sorų genomo yra N50 pastolių kaip 884, 95 kb, o 87, 2% genomo surinktas į septynias pseudomoleules. Grūdų rūšių, tokių kaip perlinės soros, turinčios daug pasikartojančių DNR, genomo rinkinys visada yra sudėtingas. Todėl, be WGS metodo, BAC sekų duomenys buvo naudojami kuriant juodraščio genomo rinkinį, o surinkti PacBio duomenys buvo sugeneruoti. Norint pasiekti chromosomos lygio surinkimą, galima naudoti naujus sekos nustatymo metodus, tokius kaip optinis Bionano Genomics žemėlapis ir „Dovetail Genomics“ chromosomų patvirtinimo gavimo duomenys skirtinguose deriniuose 49 .

Mūsų analizė nustatė 38 579 baltymus koduojančius genus, iš kurių 27 893 (72, 30%) buvo komentuoti. CEGMA ir BUSCO analizė bei palyginimas su ryžių genų modeliais parodė, kad perlų soroje numatyti genai yra išsamūs. Genenų šeimų, susijusių su terpenoidinio stuburo biosinteze ir monoterpenoidų bei diterpenoidų biosinteze genome, išplėtimas gali paaiškinti aukštą perlų soros šilumos ir sausros tolerancijos lygį, palyginti su kitais javais.

Genomo seka gali suteikti informacijos apie specifinius genominius regionus arba specifinius genus, susijusius su agronomiškai svarbiais bruožais, įskaitant grūdų ir pašarų derlių. Perlinių sorų pašarai yra pagrindinės atrajotojų (ir kitų) gyvulių žaliavos, o veisimas siekiant pagerinti pašarų kokybę ir derlingumą yra nepaprastai svarbus mėsos ir pieno pramonei. Norėdami nustatyti lokusus ar variantus, susijusius su agronominėmis ypatybėmis, mes ėmėmės didelio masto pakartotinio sekos nustatymo pastangų. Atnaujinus PMiGAP rinkinį, paaiškėjo, kad perlų soros evoliucijos metu įvyko nedideli struktūriniai pertvarkymai, tokie kaip įterpimai ir trynimai genome. Tai panašu į stebimus kukurūzus: trečdalis ar daugiau kukurūzų genų atrodo neprivalomi. Dažnas įdėjimas ir pašalinimas kelia rimtų iššūkių pakartotinio sekos nustatymo pastangoms, nes savarankiškai apdulkinančias ir mažo genomo rūšis, tokias kaip ryžiai, lengviau sekti ir analizuoti, palyginti su kryžmai apdulkintomis ir didelio genomo rūšimis, tokiomis kaip kukurūzai, dėl padidėjusio jų genomo struktūrinio kintamumo50. Siekiant sutaupyti išlaidų, tačiau neprarandant informacijos, PMiGAP linijose buvo sugeneruoti 1, 68 × aprėpties WGRS duomenys ir 0, 12 × GBS duomenys, o B ir R linijose - 0, 59 × aprėpties RAD sekos duomenys.

Genetiškai įvairesnės PMiGAP inbredinės grupės seka bus plačiau naudojama genomo asociacijų žemėlapiams ir alelių gavybai. Visas šias sekas galima rasti //www.ncbi.nlm.nih.gov//sra/?term=SRP063925. Beveik 1 000 perlinių sorų linijų (963 išaugintų perlinių sorų inbredų ir 31 heterozigotinių laukinių individų, pateiktų //www.ncbi.nlm.nih.gov//sra/?term=SRP063925) sekvidacijos duomenys suteikia tyrėjams ir selekcininkams didžiulį genomo masto variacijų, įskaitant SNP, indelius, SSR ir struktūrinius variantus, šaltinis (papildomos lentelės 23, 24, 25, 26, 27, 28, 29, 30, 31, 32) genų, turinčių reikšmingų MTAs, alelių kasymui ir perlų vystymuisi sorų hibridai su padidėjusia heterozė. Mūsų atlikta PMiGAP linijų sekos sekos duomenų analizė kartu su 20 požymių fenotipų nustatymo duomenimis GWAS ir genomo atrankai rodo, kad perlų soroje gali būti įmanoma tuo pačiu pagerinti grūdų ir virimo derlių. Iš tiesų per pastaruosius 50 metų buvo pastebėta geresnių hibridų grūdų ir krosnių derlingumo rodiklių Indijoje, o tai pabrėžia tolesnių patobulinimų potencialą, apie kurį būtų galima sužinoti atlikus mūsų analizę.

Taip pat parodome genomo sekos ir sekos sekos informacijos naudojimą, kad būtų galima numatyti hibridinio bandymo rezultatus. Ištyrę numatomą 167 910 vieno kryžminio derinio hibridinį efektyvumą, nustatėme 159 linijų poras, kurios iki šiol nebuvo naudojamos hibridiniam veisimui, tačiau gali parodyti aukštą hibridinį efektyvumą. Ši analizės rūšis turi didelį potencialą paspartinti atrankos pelno augimą ateityje. Mūsų prognozavimo modeliai taip pat buvo naudojami apibrėžti perlų sorų heterotinius baseinus Pietų Azijoje, kurie gali būti labai svarbūs didinant hibridinių veisimo programų efektyvumą tame pačiame regione.

Kartu genomo projektas ir sekos sekos nustatymo duomenys suteikia mokslinių tyrimų bendruomenei išteklių, kurie turėtų padėti geriau suprasti bruožo kitimą ir paspartinti genetinį perlinių sorų gerinimą. Pavyzdžiui, mes nustatėme 1 054 MTA 15 agronominių bruožų, kurie bus naudingi veisiant perlinius sorus. Mūsų išvados taip pat prisidės prie geresnio supratimo apie perlinių sorų išskirtinio sausros ir šilumos tolerancijos genetinius pagrindus, nes nustatėme genų šeimų, susijusių su sausra ir šilumos tolerancija, plėtimąsi. Išsamus supratimas apie perlinių sorų pasėlių naudingumą karštuose, sausringuose ir pusiau sausruosiuose regionuose gali sudaryti sąlygas ne tik perlinių sorų, bet ir kitų javų pasėlių, tokių kaip ryžiai, kukurūzai ir kviečiai, kurie šiuo metu gali parduoti tik ribotą derlių sausosiose vietose, inžinerijai. arba pusiau sausringuose regionuose. Tai ypač svarbu dėl neatidėliotino karščiams ir sausrai atsparių grūdinių kultūrų poreikio ateinančiais metais.

Metodai

Augalinė medžiaga.

Perlų soros genotipas Tift23D 2 B 1 -P1-P5 buvo veisiamas Pakrantės lygumų eksperimento stotyje (Tiftonas, Džordžija, JAV), įvedant d2 nykimo geną į elito sėklų tėvų palaikomosios linijos Tift 23B1 genetinį foną ir buvo pasirinktas sugeneruoti genomo sekos juodraštį.

Norint sudaryti genetinį žemėlapį, skirtą pastoliams suskirstyti į pseudomoleules, buvo naudojamos trys dviejų tėvų kartografijos populiacijos. Šios populiacijos buvo: (i) ICRISAT, Patancheru, sukurta nedidelė rekombinantinių inbredinių linijų (RIL) populiacija, paremta kryžminiu ICMB 841-P3 × ICMB 863B-P2 (MAPPOP1); ii) RIL populiacija, sukurta Coastal Plain Experiment Station, Tifton, Gerogia (JAV), remiantis Tift 99B × Tift 454 (MAPPOP2); ir iii) F 2 populiacija, gauta iš laukinio × naminio kryžiaus (MAPPOP3) iš Prancūzijos Institut de Recherche pour le Developpement (IRD). 580 B ir R linijose buvo 200 B ir 200 R linijų iš ICRISAT ir 60 B ir 120 R linijų iš 5 organizacijų iš Indijos, būtent Haryana žemės ūkio universiteto, Hisar, Haryana; Junagadh žemės ūkio universitetas, Jamnagaras, Gujaratas; Mahatma Phule Krishi Vidyapeeth, Dhule, Maharaštra; Šri Karano Narendros žemės ūkio universitetas, Durgapura, Radžastanas; ir JK Agri Genetics Ltd., Hyderabad, Telangana, buvo pakartotinai sekvenkuoti, naudojant su restrikcijos vieta susietos DNR (RAD) seką (39 papildoma lentelė). PMiGAP linijas sudaro 345 eilutės: 263 sausumos / tradicinės veislės, 46 veisimo linijos, 25 pažengusių / patobulintų veislių ir 11 priestatų, kurių biologinė būklė nežinoma, ir žymi daigumą iš 27 šalių dviejuose žemynuose (40 papildoma lentelė). Šiems 345 prisijungimams buvo taikoma WGRS. Taip pat, naudojant WGRS, buvo pakartotinai nustatyti 38 įbrėžę tėvai, kurie kartografuoja populiacijas, atsiskiriančias nuo sausros, pelėsio ir miltligės (41 papildoma lentelė), ir 31 laukinis stojimas, atstovaujantis septynias šalis (Malis, Mauritanija, Senegalas, Sudanas, Čadas, Malis ir Nigeris). požiūris (42 papildoma lentelė).

Viso genomo kulkosvaidžių sekos nustatymas ir surinkimas.

Sukūrėme 10 mažų įdėklų bibliotekų, iš jų 4 su 170 bp įdėklu, 2 su 250 bp įdėklu, 2 su 500 bp įdėklais ir 2 su 800 bp įdėklu ir 13 mate-pair bibliotekų, iš jų 4 su 2 kb įdėklu, 4 su 5 kb įdėklu, 2 su 10 kb įdėklu ir 2 su 20 kb įdėklu ir 1 su 40 kb įdėklu iš perlinių sorų genotipo Tift 23D2B1-P1-P5. Norėdami sudaryti bibliotekas su nuo 170 iki 800 800 bp intarpų, buvo nukirpti aukštos kokybės DNR mėginiai, pataisyti galai ir į 3 'DNR fragmentų galą įpilta' A 'bazių, kad būtų lengviau jungtis prie adapterių. Tinkamo dydžio diapazono fragmentai buvo atrinkti po atskyrimo agarozės gelyje ir amplifikuoti naudojant PGR. Po porų bibliotekų atlikus suskaidymą ir pataisymą buvo atlikta biotinizacijos reakcija. Tada buvo atrinkti reikiamo dydžio DNR fragmentai ir išpjaustyti. Žiedinės DNR buvo susmulkintos į maždaug 400–600 bp fragmentus, o biotinilinti fragmentai buvo paimti, kad būtų galima modifikuoti galą ir adaptuoti ligatūrą, kad būtų sudarytos bibliotekos. Kiekvienai bibliotekai „Illumina HiSeq 2000“ platformoje buvo sugeneruoti suporuoti galiniai skaitymai.

Norint sukurti BAC biblioteką, DNR iš perlinių sorų Tift 23D2B1-P1-P5 buvo suskaidyta naudojant HindIII ir EcoRI, o po to liguojama į vektorių pCC1BAC. Ligacijos buvo transformuotos į E. coli DH10b šeimininko ląsteles. Po DNR išskyrimo iš BAC klonų, Covaris LE220 sistema buvo panaudota DNR nukirpimui iki 500 bp. Konfigūruoti BAC sekos nustatymui buvo naudojamos „Agilent Bravo“ automatizuota skysčių tvarkymo platforma ir „Agilent BenchCel“ mikroplokštelių tvarkyklė. Tuomet 96-microTUBE plokštelės (Covaris) buvo naudojamos kaip mėginių indai automatizuotam partijos apdorojimui, po to indeksuojant adapterio jungtį ir parinkus dydį 51 . Paprastai BAC dydžiai svyravo nuo 80–180 kb, o sekos fragmentai buvo apie 500 bp. Iš viso buvo sukonstruoti 100 608 BAC klonai, o „HiSeq 2000“ buvo panaudoti kiekvieno BAC klono suporuotų galinių eilių sekai sekti.

Kiekvienoje bibliotekoje mes filtravome skaitymus, kurie sudarė daugiau kaip 5 procentus „Ns“ arba poliA struktūros, ir taip pat pašalinome skaitymus, kuriuose buvo 20 ar daugiau bazių, kurių kokybės balas buvo mažesnis ar lygus 7. Skaitymas, kai> 10 bp suderintas su adapterio seka (leidžianti ≤ 3 bp nesutapti) buvo laikoma adapterio teršalais ir pašalinta. Be to, buvo pašalintos poros, kurių bendras ilgis buvo mažesnis už bibliotekos įdėklo dydį, leidžiantį 30 bp langą. Mes taip pat apipjaustėme skaitytuvus, jei pagrindų kokybė skaitymo gale ar uodegoje buvo žema.

k-mer analizė.

Mes atlikome k-mer analizę 52, norėdami įvertinti perlinių sorų genotipo Tift 23D 2 B 1 -P1-P5 genomo dydį. Genomo dydis buvo apskaičiuotas pagal formulę: Genomo dydis = k-mer_num / Peak_depth, kur k-mer_num buvo bendras k-merų skaičius, o Peak_depth - laukiama k-mer gylio vertė, gauta iš paskirstymo kreivės. K-merų skaičius (paprastai K = 17) buvo apskaičiuotas pagal trumpo fragmento dydį, pateiktą vienos bp skaidrės, ir tada buvo nustatytas kiekvieno k-mer dažnis. Buvo nubraižyta gylio ir dažnio pasiskirstymo kreivė, kurioje x ašis žymi gylį, o y ašis - proporcinį dažnį tame gylyje, padalytą iš bendro visų gylių dažnio.

Genomo montažo tobulinimas ir tobulinimas.

WGS surinkimui švarios skaitymo priemonės buvo surinktos naudojant SOAP de novo 53 (2.04 versija) (parametrai: pregraph -s assembly.lib -K 63 -R -d 1 -o pm; contig -g pm pm-R; map-s assembly. lib -g pm -k 45; scaff -g pm). „K-mer“ dažnis seka Puasono pasiskirstymu, kai skaitomas ilgis << genomo dydis 54 . Trumpos intarpų bibliotekos buvo surenkamos į kontigus. Kad būtų galima įvertinti kontūrų persidengimą, parodymai buvo užfiksuoti ant kontigų. „Gapcloser 53“ (versija 1.1, parametras: -a pm.scafSeq.fill -b reads.lib -o pm.scafSeq.fillGap -t 24), esantis SOAP „ de novo“ pakete, buvo naudojamas užpildyti pastolių spragas suporuotų galinių skaitinių pagalba. . Siekiant pagerinti genomo surinkimo kokybę, buvo atlikta 100 608 BAC klonų seka BAC pagal BAC. Kiekvieną sekventuotą BAC surinko atskirai SOAP de novo . Pirmiausia buvo atmestos sekos, trumpesnės nei 2000 bp arba turinčios daugiau nei 30% nežinomų bazių BAC klonuose. Likusios sekos buvo sujungtos su WGS pastoliais kartu, kad būtų pratęstos ir sutrauktos nereikalingos sekos.

Norint patobulinti WGS pagrįstą surinkimą, BAC sekos duomenys buvo įtraukti į analizę, naudojant 55 triušio paketą. Šį paketą sudaro trys moduliai: „Santykių ieškiklis“, „Persidengimas“ ir „Redundancy Remover“. Pirmajame etape kiekvienos sekos pabaigoje buvo apkirpti 40 bp, nes jie pasirodė esą prastesnės kokybės. Tuomet BLAT 56 aptiko sekų sutapimą, kai minimalus sutapimo ilgis buvo 3000 bp. Antrame pratęsimo modulyje sutapimas, kurio tapatumas didesnis nei 90%, buvo sujungtas ir sekos buvo pratęstos. Siekiant išvengti dubliavimosi galutiniame rinkinyje, segmentiniai dubliavimai ir skirtingi haplotipai buvo identifikuoti ir filtruojami remiantis Puasono pagrindu sukurtu k-mer modeliu, remiantis metodais, aprašytais Liu et al . 52 . Norėdami įvertinti perlinių sorų genomo surinkimą, pirmiausia apskaičiavome BAC sekų ilgį ir N50 pasiskirstymą. BAC ilgis svyravo nuo 80 iki 140 000, o jų N50 buvo nuo 10 iki 40 000 (papildomas 22 pav.). Suskaidytuose BAC agregatuose gali atsirasti spragų, nes poros galo įdėklo dydis yra 500 bp. PacBio rodmenys buvo apdorojami naudojant „Blasr“ (apdorojamą su „PBJelly“ vamzdynu), kad būtų galima įvertinti surinktą seką.

GBS ir SNP ragina kartoti populiacijas.

GBS bibliotekos buvo paruoštos naudojant restrikcijos fermentą Ape KI, kaip aprašė Elshire ir kt . 32 . MAPPOP1 ir MAPPOP2 populiacijos buvo seka ties 384 plex (tai yra 384 mėginiai vienoje srautinių ląstelių juostoje) „Illumina HiSeq 2000“, o MAPPOP3 populiacija buvo seka 96 plex (96 mėginiai kiekvienoje tėkmės juostoje). SNP buvo iškviesti naudojant TASSEL-GBS dujotiekį TASSEL v4.1.32 57 . „TASSEL-GBS“ vamzdynas uždirba pridėtinę vertę už kiekvieną atskirai apdorotą pseudomolekulę, todėl tūkstančius atskirų pastolių sujungėme į me 20 megasaflių, kad būtų lengviau skaičiuoti. Skaitymai buvo perdirbti į švarias 64 bp „etiketes“ ir sugretinti su etaloniniais pastoliais naudojant „Bowtie 2“ (nuoroda 58). SNP buvo iškviesti naudojant „DiscoverySNPCallerPlugin“ TASSEL, su minimaliais filtrais, kad būtų sumažintas melagingų teigiamų padarinių dėl sekos klaidų skaičius (mažas alelių dažnis ≥ 0, 01, mažas alelių skaičius ≥ 10, genotipo skambučiai mažiausiai 10% mėginių) (papildomas kodas 1) ).

RAD seka.

Kiekvieno B ir R individo genomo DNR buvo suardyta EcoRI. Po elektroforezės norimo ilgio DNR fragmentai buvo išgryninti geliu. Atliktas adapterio ligavimas ir DNR klasterio paruošimas, o fragmentai buvo sekvenuojami „Illumina HiSeq 2000“ platformoje. Panašiai buvo sukonstruotos 29 DNR bibliotekos B ir R linijoms (580 pavyzdžių) ir paeiliui sudarytos naudojant RAD-Seq metodą 33 .

Genetinio žemėlapio sudarymas.

SNP, surinkti iš GBS duomenų apie tris populiacijas (MAPPOP1, MAPPOP2 ir MAPPOP3), pirmiausia buvo filtruojami atsižvelgiant į nedidelį alelių dažnį, trūkumą ir heterozigotiškumą (papildomas kodas 2). Ryšio grupės buvo apibrėžtos remiantis hierarchiniu SNP grupavimu ir užsakytos naudojant MSTMap. Kiekvienai populiacijai mes sukūrėme tris žemėlapius: vieną iš griežtai filtruojamų SNP, vieną iš vidutiniškai pateiktų SNP ir vieną, kuriame pateikiamos GBS sekos žymės atgal į griežtai filtruojamą žemėlapį (2 papildomas kodas). Didžiausioje RIL populiacijoje (Tift 99B × Tift 454) sugeneruotas karkaso žemėlapis sudarė pradinį perlinės soros ir plekšnės soros kolineariškumo tyrimą, o gautos palyginamosios žinios buvo panaudotos įtraukiant papildomus pastolius, kuriems ortologija prilygsta pėdų pienių soros genomui. buvo sukurtos naudojant BLASTP (siekiant nustatyti tariamus ortologinių perlinių sorų ir lapių durpių sorų genus, esant E vertės slenksčiui 1e-5) ir MCScanX 59 (mažiausiai penkių sintetinių genų kolineariniams segmentams tarp perlinės soros ir lapinės soros identifikuoti) karkaso žemėlapis. Kiekvieno kryžiaus sugeneruoti genetiniai žemėlapiai ir žemėlapis, kurį mes sukūrėme remdamiesi kolineariškumo informacija tarp perlinės soros ir lapinės soros soros, buvo sujungti naudojant ALLMAPS 60 su didžiausiu svoriu, priskiriamu sintezės žemėlapiui, o po to - griežtiems SNP žemėlapiams, saikingai. filtruoti SNP žemėlapiai ir galiausiai GBS sekos žymės (papildomas kodas 3). Ryšių grupių numeracija buvo priimta pagal esamą konsensuso žemėlapį 17, pagrįstą SSR sekų atvaizdavimu surinktam genomui (3 papildomas kodas).

Pakartokite anotaciją, genų prognozavimą ir genomo anotaciją.

Tandemo kartojimų genome ieškojome „Tandem Repeats Finder 61“ (4.04 versija) (parametrai: 2 7 7 80 10 50 2000 -d-h). Perkeliami elementai (TE) buvo identifikuoti genome derinant homologiją ir de novo 62 . For homology-based predictions, we used the repeat database Repbase16.10 63 to identify known repeats in the genome assembly with the program RepeatMasker 64 (Version 3.3.0) (parameter: -nolow -no_is -norna -parallel 1 -lib RepeatMaskerLib.embl.lib). At the protein level, RepeatProteinMask, a software in the RepeatMasker package, was used to perform RMBlast against the TE protein database (parameter: -noLowSimple -pvalue 0.0001). For de novo prediction, the programs RepeatModeler 65 (Version 1.0.5) and LTR_FINDER 66 (Version 1.0.5) were used on the entire genome to generate a pearl millet repeat database, which was subsequently used as input library with RepeatMasker (Version 3.3.0) to identify TEs.

For predicting genes, we applied several approaches: (i) Homology-based prediction: Proteins previously annotated in other species (Supplementary Table 9) were mapped to the genome using BLAT 56 (Version 34) with default parameters. Alignments in which the coverage of the query protein was less than 0.3 were removed. In addition, if there were multiple BLAT hits (BLAT output was set to the five best hits), secondary hits were removed if their aligned length was less than 0.3 of the aligned length of the top BLAT hit to filter paralogs with lower sequence identity. GeneWise 67 (with parameter -trev -sum -genesf) was used to predict spliced alignments. (ii) De novo gene prediction: AUGUSTUS 68 (Version 2.5.5, –species = maize–uniqueGeneId = true–noInFrameStop = true–gff3 = on–strand = both) and Fgenesh 69 (Version 1.3) were used to detect gene models in the repeat masked genome. (iii) Prediction based on transcript sequences: The assembled transcriptome sequences were aligned to the genome assembly using BLAT (Version 34) using the parameters identity ≥ 0.98 and coverage ≥ 0.98 to generate spliced alignments. (iv) Integration evidence: Source evidence generated from the three approaches mentioned above were integrated using GLEAN 70 to produce a consensus gene set.

To annotate the function of the final gene models, protein sequences were aligned against KEGG 71 (release 58) and SwissProt 18 (release 20156) with BLASTP (E-value ≤ 1.0e-05) to find the best matches. InterProScan 19 (Version4.8, performed with profilescan, blastprodom, hmmsmart, hmmpanther, hmmpfam, fprintscan and patternScan analysis) was used to identify motifs and domains in the proteins encoded by the gene models along with gene ontology annotations 72 . For ncRNA annotation, tRNA genes in the assembly were identified by tRNAscan-SE 73 (Version 1.23). rRNA genes were aligned with plant query sequences (rRNA from Arabidopsis and rice species) using BLASTN with an E-value threshold of 1.0e-05. Other non-coding RNAs, such as miRNAs and snRNAs were predicted by homology searches against the Rfam database 74 using the INFERNAL 75 (Version 0.81) software.

RNA seq data generation and development of transcriptome assembly.

The transcriptome sequence data were generated from individuals “9-8” and “3-9” accessions at IRD. Library preparation and sequencing (PE 100 bp) on an Illumina Hi-Seq 2000 platform was performed by Fasteris (Plan-les-Ouates, Switzerland). A total of 81, 207, 232 and 74, 187, 066 sequence reads were obtained for “3-9” and “9-8”, respectively. Adaptor sequences were trimmed and reads were processed for de novo assembly using Velvet 1.0.18 76 and then Oases 0.1.18 77 . Several values of hash length were tested to optimize the assembly: 39, 51, 63, 65, 69 and 73. The obtained assemblies were compared for their ability to map raw reads using BWA 78 . We consequently decided for a hash length of 73. The transcript assembly was then searched for redundancy. Contigs sharing identity over ≥95% of the length of the shortest sequence in a set of putative homologous sequences were clustered. The final transcript assembly contained 50, 313 contigs, with a total of 36, 479, 993 nucleotides. Three transcriptomes (Zeng et al . 16, Rajaram et al . 17, and the transcriptome data generated at IRD, France, available under BioProject ID PRJNA391885) were combined and clustered using CDHIT-EST 79 with default parameters to eliminate redundancy at the sequence level. Then, CAP3 80 was used to assemble the contigs. Ns on either end of the resultant contigs were trimmed. Finally, contigs of at least 200 bp in length were used in gene annotation.

Gene family and phylogenetic analysis.

For gene family analysis, BLASTP with an E-value cutoff of ≤ 1.0e-05 was used to compare all annotated pearl millet protein sequences against a protein data set of 10 sequenced plant species ( Arabidopsis 20, Brachypodium 21, banana 22, barley 23, foxtail millet 11, maize 24, rice 15, sorghum 14, soybean 25 and T. urartu 26 ). The proteins were clustered using OrthoMCL 27 (–mode 3) to define gene families which included both paralogs and orthologs. The number of gene families in each species and genus was calculated based on the composition of the OrthoMCL clusters. Genes that were single copy in an OrthoMCL cluster for all species analyzed were selected to construct a phylogenetic tree using the PhyML (parameters: -d nt -b -4 -m HKY85 -ae -c 4 -te) program 81 (Version 3.0). Divergence times between pearl millet and other species were estimated using MCMCTREE 82 with default parameter. First, the gene family size for each species was calculated based on the output of OrthoMCL, and rooted tree in newick format. CAFE 83 (-p 0.05 -t 4 -r 10000 -filter) was used to predict the expansion and contraction of gene family numbers based on the phylogenetic tree and gene family statistics.

Population analysis.

Population genetic analyses of the PMiGAP lines, including PCA and diversity detection were conducted essentially as described for rice by Xu and colleagues 84 . We used a subset of 450, 000 SNPs, with a missing rate <10% across PMiGAP lines and wild accessions. Briefly, for PCA, eigenvector decomposition of the SNP genotype data was calculated using the R function eigen 85 . A Tracey-Wisdom test with default parameter settings was performed to determine the significance of axes using the twstats program. To build a phylogenetic tree, the percentage of pairwise nucleotide differences between individuals (p-distance) was calculated 85 . The program fneighbor (PHYLIPNEW v3.69.650 within the package EMBOSS v6.6.0.0; parameter: -matrixtype s -treetype n) was used to construct a neighbor joining tree. The resulting tree was edited and visualized using MEGA5 86 by choosing Radiation style. Population structure was assessed using the program Snmf (–k K –c) 87 . Five runs were performed and the values with the smallest Cross-Entropy for K from 2 to 7 were selected to generate the structure graphs. To better assess the structure, we performed the analysis in a geographical context, using TESS3 88 that takes geographical coordinates of the sample into account. Furthermore, parameters of population genetic diversity π, θ ω and differentiation (F ST ) were calculated based on the SNP data as described earlier 85 . To analyze diversity across the genome, we used a window of 100 kb and calculated the diversity π, θ ω and differentiation F ST for each window for PMiGAP lines and wild accessions using BioPerl modules (Bio::PopGen::Statistics and Bio::PopGen::PopStats) on a sliding window of 100 kb using genotype data. The effective sequence length (without Ns) in each window was used as the denominator to calculate per-bp values. We then calculated a minus log of the ratio of diversity between cultivated and wild samples: –log (π cultivated/ π wild). For this log ratio of diversity and differentiation, we retained the most extreme values using a classical threshold of 95% for a unilateral test and a more stringent threshold of 99.5%. This later stronger stringent threshold was used to identify the most likely gene candidates selected during domestication. Loci with higher levels of differentiation (most extreme F ST ) and stronger loss of diversity in the cultivated compared to the wild accessions were considered to be provisionally involved in the domestication process.

Identification of NBS domain, TIR domain, LRR motif and CC motif.

All pearl millet proteins were assessed for the presence of NBS domains (PF00931, NB-ARC) using the Hidden Markov Model based method implemented in hmmsearch (version 3.0) 89 with an e-value cutoff = 1. To filter false positive hits, all identified NBS containing proteins were screened against the Pfam-A database. NBS domains that overlapped with other domains identified at lower e-values were filtered out. Likewise, the TIR domain (PF01582) was used as query against all pearl millet proteins with hmmsearch and further checked by looking at the overlapping domains. To detect LRR motifs, predicted NBS encoding proteins were searched against 10 LRR families in LRR clan (CL0022) with an e-value cutoff = 1. All regions predicted as LRR motifs and not overlapping with other domains identified with lower e-values were considered real LRR motifs.

SNP calling, structural variation and linkage disequilibrium (LD) decay.

Sequence reads generated for the B- and R- lines, PMiGAP lines, and parental lines and wild lines were mapped separately to the pearl millet genome assembly using BWA (v0.6) (parameter: aln -n 0.04 -o 1 -e 30 -i 15 -d 10 -l 35 -k 2 -m 2000000 -t 4 -M 3 -O 11 -E 4 -R 30 -q 0 -I; sampe -a 500 -o 100000 -n 3 -N 10 -c 1.0e-05). The BAM files generated by BWA were sorted and provided as input to the GATK software package 90 (Version 3.1-1). The UnifiedGenotyper module within GATK was used to detect SNP variants. The variants were filtered using VariantFiltration, a module from GATK (parameters: QD60.0 || MQ13.0; parameters for indel: QD200.0), and the number of variants distribution in intergenic/coding regions were calculated. The data used in the downstream analysis were controlled with MAF 0.05 and missing rate 0.5. SNPs with a mean depth > 100 and missing rate > 0.5 were removed. The remaining SNPs were used in further analyses. Variants for wild lines that used in population structure and domestication analysis were detected together with PMiGAP accessions and processed with the same strategy (BAM and VCF files available at //ceg.icrisat.org/ipmgsc/).

The BAM files from each resequenced accession was analyzed by Breakdancer (version 1.1.2) 91 with default parameters to detect structural variation namely, deletions, insertions, inversions, and intra-chromosomal translocations. Breakdancer results of accessions that come from a same line (see Supplementary Table 32) were combined to remove redundancy and to calculate the number and length of the rearrangements.

Using SNP data sets from PMiGAP lines, Haploview software 92 (-maxdistance 250 –minMAF 0.05 -dprime -memory 5096) was used to calculate correlation coefficient ( r 2 ) values for LD. The average ( r 2 ) values between pairwise distances (bp) were calculated and figures were plotted using R.

Statistinė analizė.

Phenotyping data and GWAS analysis. For establishing marker trait associations, 288 test cross hybrids were generated by crossing of PMiGAP lines as pollen parents with a common seed parent ICMA 843-22. These hybrids were grouped by maturity (early, medium early, medium and late) and phenotyped for 20 morphological traits under two drought stress conditions (early and late stress) along with controls (or no stress) for two years (2011, 2012). Experiments were conducted in an alpha-lattice designs with two replications in three test environments during Summer 2011 and 2012 (January to May) in the red precision (RP) experimental fields at the ICRISAT, Patancheru, Telengana, India (545 m above mean sea level, 17.53° N latitude and 78.27° E longitude). The early maturity group consisted of lines which had days to 50% flowering (DFF) from 42-52 days; the medium-early maturity group consisted of lines with DFF from 53-57 days; the medium maturity group consisted of entries with DFF from 58-62 days; the late maturity group consisted of lines which recorded more than 62 days for DFF. Early drought stress is a more severe stress imposed by withholding irrigation from about one week before flowering until maturity. Late stress is a less severe drought stress initiated during early grain-filling by withholding irrigation from 50% flowering time till maturity.

The three test environments consisted of early-onset of stress, late-onset stress, and a common, fully-irrigated non-stress treatment. Drought stress was imposed by withholding irrigation from about one week before flowering in early-onset treatment, while drought stress in the late-onset treatment was imposed by withholding irrigation from 50% flowering. Data were recorded for a total of 20 traits namely, grain yield (GYHA), panicle yield (HYHA), panicle harvest index (PHI), time to 75% flowering (TB), plant height (PH), panicle length (EL), panicle diameter (ED), panicle number (HCHA), number of tillers per plant (Till), biomass yield (BM), grain harvest index (HI), thousand grain weight (TGW), grain number per panicle (GNP), grain number per m 2 (GNM2), agronomic score (AgS), stover dry matter fraction (DMF) and vegetative growth index (GI). PH, EL, and ED were measured on the main stems of five representative plants of each entry in a plot at maturity. At harvest, data were recorded from the harvested area on plant population (PCHA), panicle numbers (HCHA) and fresh stover yield (FSWTHA). Effective tiller number (Till) was calculated as the ratio HCHA/PCHA. HYHA, GYHA and TGW were recorded after oven drying for about 24 h. Stover dry matter yield (DMY) was estimated from plot FSWTHA using the fresh and dry weights of a chopped subsample of stover from each plot. BM was calculated as HYHA + DMY on a plot basis. Grain number per panicle (GNP) was derived from primary data as [(GYHA/HCHA)/ (TGW/1000)]. Grain harvest index was calculated as the ratio between grain yield and biomass yield at harvest, and panicle harvest index as the ratio between grain weight and panicle weight. Flowering time was recorded as days from seedling emergence to stigma emergence for 75% of the main shoots in a plot. The traits measured include grain yield (kg/ha), panicle yield (kg/ha), panicle harvest index (%), time to 50% flowering (number of days), plant height (cm), panicle length (cm), panicle diameter (cm), panicle number, tillers per plant, biomass yield (kg/ha), vegetative growth index (kg/ha/day), grain harvest index (%), fresh stover yield (t/ha), stover dry matter yield (kg/ha), stover dry matter fraction, 1000-grain mass (g), grain number per panicle, and grain number per m 2 (Supplementary Data set 2). Analysis of variance for all traits was performed using the PROC MIXED procedure in SAS 9.3 (SAS Institute Inc 2013) with Kenward-Roger degree of freedom approximation method considering replicates and accessions as fixed effects, whereas incomplete blocks within each replication were considered as random effects for combined intra and inter block analysis. Best linear unbiased estimates (BLUEs) were calculated for all accessions.

For GWAS analysis, a total of 3, 117, 056 SNPs retained after filtering the minor alleles (MAF<0.05) and 20% missing data were used. Marker-trait associations were established using AOV model with a bloc effect for maturity group in R (Phenotype ∼ Bloc+SNP). We tested the suitability of the model by plotting the observed P-values from the association test against an expected (cumulative) probability distribution. These quantile-quantile (qq) plots clearly indicated that we corrected properly for population stratification (Supplementary Fig. 23). Significance of associations between loci and traits were determined adjusting for multiple testing by using FDR at a 0.001 threshold level and considering p value lower than 10 −10 .

Genomic prediction analysis for testcross performance.

Grain yield performance of 259 PMiGAP lines was used for hybrid prediction analysis. In our analysis, flowering time was considered as a cofactor. For genomic prediction analysis, we performed a one-stage phenotypic data analysis on 259 PMiGAP lines as test cross hybrid trials using a linear mixed model that included genotype, flowering time, year, stress, interaction among genotype, stress and year, replication, incomplete block and residual effects. The effect of flowering time was always assumed to be fixed. When estimating variance components, all other effects were assumed to be random. To get the BLUE of each line, we set the genotype effect as fixed.

The heritability on the line mean basis was estimated as

Image

kur

Image
ir
Image
are variance components arising from genotype, genotype × year interaction, genotype × stress interaction, the three-way interaction and the residual, respectively. y , s and r are the number of different years, stresses, and replications. In addition, we calculated the BLUE for each genotype in each environment (stress versus control) across years. That is, for each environment we fitted a linear mixed model including genotype, flowering time, year, genotype × year interaction, replication, incomplete block and residual effects. The assumptions of the parameters were similar to above. The heritability in this case was estimated as
Image
All phenotypic data analyses were done using the ASreml- R 3 software 93 .

A total of 2, 235, 060 SNPs with <20% missing rates were used with above mentioned phenotyping data for genomic prediction analysis. We used the genomic best linear unbiased prediction (G-BLUP) model for genomic selection:

Image
, where y refers to n -dimensional vector of phenotypic records, 1 n is an n -dimensional vector of ones,
Image
is the mean, g is an n -dimensional vector of additive genotypic values and e is an n -dimensional vector of residual terms.

In the model

Image
we assume that
Image
is a fixed parameter, and g , e are random parameters with
Image
ir
Image
, where G denotes the n × n genomic relationship matrix. G was calculated as follows: Let X = ( x ij ) be the n × p matrix of SNP markers, where x ij equals the number of a chosen allele at the j th locus for the i th genotype. Let p j be the allele frequency of the j th marker. W = ( w ij ) is an n × p matrix with w ij = x ij − 2 p j .

Tada mes turime

Image
Note that when calculating the kinship coefficient for two genotypes, only those markers without missing values in both genotypes were considered.

The accuracy of genomic prediction was evaluated by fivefold cross-validation with a total of 100 cross-validation runs. The cross-validated prediction accuracy was calculated as the Pearson product-moment correlation between predicted and observed genotypic values of the lines in the test set. The GBLUP model was implemented using the R software 94 .

Hybrid prediction analysis.

Grain yield of 64 pearl millet hybrids grown at five locations in India (Jamnagar, Anand, SK Nagar, Mahuva, Kothara) during the time period 2004-2013 was measured. Trials were conducted during 2004, 2005, 2006, 2008, 2011 and 2012 in Kharif, Summer and pre rabi season. However, during 2007, 2009, 2010 and 2013 trials were conducted in only Kharif and Summer. We adopted randomized block design with a spacing of 60 cm between the rows and 10-15 cm between the plants and adopted standard agronomic practices. The 64 hybrids were generated by crossing 20 male and 23 female lines.

By using the grain yield phenotyping data for 64 hybrids as mentioned above, we used the following linear mixed model to estimate the variance components as well as BLUEs:

Yield ∼ Genotype + Replication.

To estimate variance components, all effects were treated as random. The BLUEs for each environment were calculated by the same mixed model but modelling genotype as fixed effect. Repeatability was estimated as

Image
, where N R refers number of replications,
Image
refers to genetic variance, and
Image
refers to residual variance. Four environments with repeatability lower than 0.5 were removed from further analysis. The BLUEs of the 64 hybrids of each environment were used for an analysis across environments by fitting following model:

Yield ∼ Genotype + Environment.

The genotype effects were treated as fixed and the environment effects as random. The distribution of the BLUEs across environments approximated a normal distribution. The variance components of genotypes

Image
, genotype x environment interactions
Image
and of the residuals
Image
were estimated using a one-step model. Broad-sense heritability was then calculated as the ratio of genotypic to phenotypic variance:

Image

where l refers to the number of environments and r is the average number of replications per environment. The hybrid prediction was based on 302, 110 high-quality SNP markers obtained from 580 B- and R- lines. We used ridge regression-BLUP considering additive and dominance effects to predict the hybrid performance. Details of the implementation of the models have been described earlier 95 . Briefly, the general form of the model is defined as the following:

Image

where 1 n is a vector of ones and n is the number of hybrids, μ refers to the overall mean across all four locations. Z A and Z D are n × m design matrices for the additive and dominance effects of the markers, where m refers to the number of markers. The elements of Z A are -1, 0, 1, and elements of Z D is 0, 1. While a = ( a 1, a 2, …, a m ) T and d = ( d 1, d 2, …, d m ) T are the vectors of length m, and a i d i denote the additive and dominance effects for the i th marker, respectively. e = ( e 1, e 2, …, e n ) T is a vector of length n and e j is the residual for the j th hybrid.

Prediction accuracy was studied using cross validations. In each cross validation, 48 hybrids were randomly selected as training set and the remaining 16 hybrids were used as test set. The cross validation was run 500 times and accuracy was estimated as the Pearson correlation coefficient between predicted and observed values standardized with the square root of the heritability (h = 0.76). Next, we used all 64 hybrids as a training set and predicted the hybrid performance of 167, 910 possible single-cross combinations among the 580 inbred lines (260 B-lines and 320 R-lines). Based on the predicted values, we selected 0.1% hybrids that had the highest predicted yields (170/167, 910 hybrids). Of those 170 hybrids, 11 have been bred so far and are thus a subset of the 64 phenotyped hybrids. The remaining 159 hybrids are based on parental inbred lines that have never been used for hybrid breeding and could be tested in the field. All analyses were done using the ASreml-R 3 software 93 .

Duomenų prieinamumas.

Genome sequence assembly and annotation data: BioProject ID PRJNA294988; BioSample ID SAMN04124419. Resequencing data: SRA SRP063925. Transcriptome data: BioProject ID PRJNA391885. BAM and SNP files are available at //ceg.icrisat.org/ipmgsc. GigaScience Database record: //dx.doi.org/10.5524/100192 Scripts used in the MS are available at //github.com/ICRISAT-CEG/PM-Scripts.git

A Life Sciences Reporting Summary is available.

Pokyčių istorija

Prisijungimai

Pirminės prieigos

BioProjektas

  • PRJNA294988
  • PRJNA391885

Eilių skaitymo archyvas

  • SRP063925

Papildoma informacija

PDF failai

  1. 1.

    Papildomas tekstas ir figūros

    Supplementary Figures 1–23.

  2. 2.

    Life Sciences Reporting Summary

    Life Sciences Reporting Summary.

  3. 3.

    Papildomos lentelės

    Supplementary Tables 1–14, 16–18, 22, 24, 28, 32–33, 42.

„Excel“ failai

  1. 1.

    Supplementary Table 15

    Summary of genes expanded during pearl millet evolution.

  2. 2.

    19 papildoma lentelė

    Summary of data generated on the PMiGAP lines using whole genome sequencing.

  3. 3.

    Supplementary Table 20

    Data generated on 38 inbred parents of different mapping populations using whole genome resequencing.

  4. 4.

    Supplementary Table 21

    Data generated for B- and R-lines of pearl millet using RAD-Seq approach.

  5. 5.

    Supplementary Table 23

    Summary of SSR motifs identified, primers designed and their genome coordinates.

  6. 6.

    Supplementary Table 25

    Distribution of SNPs in intra-genic and inter-genic regions across PMiGAP lines.

  7. 7

    Supplementary Table 26

    Distribution of SNPs in intra-genic and inter-genic regions across parental lines of mapping populations.

  8. 8.

    Supplementary Table 27

    Distribution of SNPs in intra-genic and inter-genic regions across B- and R- lines.

  9. 9.

    Supplementary Table 29

    Insertions and deletions identified in the PMiGAP lines.

  10. 10.

    Supplementary Table 30

    Insertions and deletions identified in the parental lines of mapping populations.

  11. 11.

    Supplementary Table 31

    Insertions and deletions identified in B- and R- lines.

  12. 12.

    Supplementary Table 34

    Regions with loss of diversity and strong differentiation between wild and cultivated pearl millet.

  13. 13.

    Supplementary Table 35

    List of the genes found in the regions showing strong differentiation between wild and cultivated germplasm and diversity loss in cultigen.

  14. 14

    Supplementary Table 36

    Genome-wide marker-trait associations for grain and stover yield.

  15. 15.

    Supplementary Table 37

    Best 170 predicted hybrid combinations.

  16. 16.

    Supplementary Table 38

    Best 11 tested hybrid combinations.

  17. 17.

    Supplementary Table 39

    Pedigree details of B- and R- used in the study.

  18. 18.

    Supplementary Table 40

    Details of 345 Pearl Millet Inbred Germplasm Association Panel (PMiGAP) lines used in the study.

  19. 19.

    Supplementary Table 41

    Details of 38 parental lines of mapping populations of pearl millet used in the study.

  20. 20.

    1 papildomas duomenų rinkinys

  21. 21.

    2 papildomas duomenų rinkinys

ZIP failai

  1. 1.

    Supplementary Code 1

  2. 2.

    Supplementary Code 2

  3. 3.

    Supplementary Code 3