Atlanto lašišos genomas suteikia įžvalgos apie rediploidizaciją | gamta

Atlanto lašišos genomas suteikia įžvalgos apie rediploidizaciją | gamta

Anonim

Dalykai

  • Genomas
  • Genomo evoliucija

Anotacija

Viso genomo kopijavimas prieš 80 milijonų metų bendro lašišinių protėvių (lašišoms būdingas ketvirtasis stuburinių viso genomo dubliavimasis, Ss4R) suteikia unikalias galimybes sužinoti apie dubliuoto stuburinių genomo evoliucinį likimą 70 egzistuojančių linijų. Pateikiame aukštos kokybės Atlanto lašišos ( Salmo salar ) genomo rinkinį ir parodome, kad dideli genomo pertvarkymai, sutampantys su transpozonų sukelto pakartotinio ekspansijos pliūpsniu, buvo esminiai po Ss4R pakartotinio išplėtimo. Pasikartojančių genų raiškos modelių palyginimas su plataus spektro audiniais su ortologiniais genais iš pre-Ss4R pogrupio netikėtai rodo kur kas daugiau neofunkcionalizacijos, nei subfunkcionalizacijos atvejų. Keista, bet mes pastebėjome, kad genai, kurie buvo išsaugoti kaip kopijos po teleostatui būdingo viso genomo dubliavimo prieš 320 milijonų metų, nebuvo tikėtina, kad bus išsaugoti po Ss4R, ir kad dublikatų išsaugojimui didelę įtaką neturėjo numatomos genų produktų baltymų sąveikos. Galiausiai mes parodysime, kad Atlanto lašišų rinkinys gali būti atskaitos seka tiriant kitas lašišines žuvis įvairiais tikslais.

Pagrindinis

22 000 metų senumo Atlanto lašišos ( Salmo salar ) paveikslas oloje, esantis šalia Vézère upės Prancūzijoje, primena mūsų susižavėjimą Atlanto lašiša ir priklausomybę nuo jos per visą žmonijos istoriją. Atlanto lašiša priklauso lašišinių rūšių linijai, kurią sudaro 11 genčių, turinčių mažiausiai 70 rūšių, pritaikytų įvairiausioms ekologinėms sąlygoms ir naudojančias įvairias jūrų ir gėlavandenių gyvūnų istorijos strategijas 1 . Lašišinės žuvys užima svarbią vietą kaip socialiai reikšmingos rūšys ir ekonominiai ištekliai akvakultūros, laukinės žvejybos ir pramoginės sportinės žvejybos srityse. Be to, jos yra pagrindinės Šiaurės Atlanto ir Ramiojo vandenyno pakrančių ir upių ekosistemų sveikatos rodiklių rūšys.

Visi teleostai dalijasi bent trimis viso genomo dubliavimosi (WGD) raundais, 1R ir 2R, prieš nubrozdindami žandikaulius nuo žandikaulio stuburinių 2, ir trečiąjį teleostui būdingą WGD (Ts3R), esančią teleostų bazėje, ~ 320 milijonų metų. prieš (Mya) 3, 4, 5 . Apie genominių ir chromosomų pertvarkymo mechanizmus po WGD stuburiniams gyvūnams žinoma labai mažai, nes 1R, 2R ir Ts3R įvyko taip seniai, kad liko nedaug aiškių parašų po WGD reorganizacijos įvykių. Atvirkščiai, ketvirtasis WGD (Ss4R lašišoms būdingas autotetraploidizacijos įvykis) įvyko bendrame lašišinių protėviuose ~ 80 Mya, jiems nukrypus nuo Esociformes ~ 125 Mya, 6, 7, 8 (1 pav.), Ir toliau būnant daugiavalenčiams. Poravimas mejozės metu ir lašišinių žuvų rūšių tetrasominio paveldėjimo įrodymai rodo, kad diploidija dar nėra visiškai atkurta 6, 9, 10 . Taigi atrodo, kad lašišos suteikia precedento neturinčią galimybę tyrinėti stuburinių gyvūnų genomo evoliuciją po autotetraploidinio WGD 11, 12 per tokį laiką, kuris yra pakankamai ilgas, kad būtų galima atskleisti ilgalaikius evoliucijos modelius, tačiau pakankamai trumpas, kad būtų suteikta didelės skiriamosios gebos proceso vaizdas. Be to, jie suteikia puikią aplinką genomo evoliucijai susieti su dramatiška po WGD rūšių radiacija ir sudėtinga adaptacija prie daugybės gyvenimo istorijos režimų.

Image

Lašišinių žuvų skirtumų amžius paimtas iš ref. 8 ir vyresni skirtumai nuo nuorodos 7. Parahucho nėra įtrauktas į figūrą dėl jo filogenetinės padėties neapibrėžtumo. Amžius neatspindi tikslių taškų įvertinimų iš atitinkamų tyrimų. Geltoni ir raudoni apskritimai parodo atitinkamai teleostatui būdingą viso genomo dubliavimą (Ts3R) ir lašišoms būdingą viso genomo dubliavimą (Ss4R).

Visas dydis

  • Atsisiųskite „PowerPoint“ skaidrę

Čia pateikiame aukštos kokybės etaloninį Atlanto lašišos genomo rinkinį ir naudojame jį apibūdinti pagrindinius modelius, apibūdinančius lašišos genomo evoliuciją po Ss4R per pastaruosius 80 milijonų metų (Myr). Mūsų rezultatai paneigia pastarojo meto teiginį, kad rediploidizavimas lašišinėse žuvose buvo laipsniškas procesas, nesusijęs su reikšmingais genomo pertvarkymais 13 . Jie taip pat ginčija dabartinę nuomonę apie santykinę sub- ir neofunkcionalumo reikšmę stuburinių genomų (apžvelgta 14 nuorodoje) ir dozavimo pusiausvyros, kaip geno dubliavimo sulaikymo mechanizmo, svarbą 15 .

Genomo apibūdinimas

Atlanto lašišos etaloninis genomo rinkinys („GenBank“: GCA_000233375.4) padidina iki 2, 97 gigabazių (Gb), kai ctgN50 = 57, 6 kb, o tai atitinka genomo dydžio vertinimus 16 . Ryšio žemėlapiai buvo naudojami 9 447 pastolių (scfN50 = 2, 97 megabazių (Mb)), atstovaujančių 2, 24 Gb, į 29 pavienių chromosomų sekas (4 papildomoji lentelė) išdėstyti ir orientuoti. Daugumą pastolių, neprisirišusių prie chromosomų, sudaro pasikartojančios sekos. 58–60% pakartotinės Atlanto lašišos kiekis yra vienas didžiausių iš visų stuburinių 17 . Vienintelė didžiausia perkeliamų elementų klasė yra Tc1- jūrininkų šeima, sudaranti 12, 89% genomo (3 papildomos informacijos skyrius). Kaip pranešama kitoms rūšims, Tc1- jūrininkų transpozonai atsiranda centromerinėse srityse (2 pav., C takelis) 18 .

Image

Homeologiniai regionai Atlanto lašišos genome suskirstyti į 98 kolinearinius blokus išilgai 29 Europos Atlanto lašišos chromosomų. Raudoni stačiakampiai žymi sekos blokus, kurių kitoje genomo dalyje negalima identifikuoti dubliuotų sričių. a, šis takelis parodo lašišų sekos grupavimą į regionus; raudona = aukšta (> 95% sekos panašumas), oranžinė = padidėjusi (90–95% sekos panašumas), žalia = maža (~ 87% sekos panašumas), geltona = telomerinės sritys (10 Mb), kuriai būdinga labai padidėjusi vyrų rekombinacija (žr. nuoroda 10). b, Šis takelis parodo genomo panašumą (1 Mb intervalu) tarp dubliuotų regionų (raudona = aukšta, geltona = vidutinė, žalia = mažas sekų panašumas). c, Ths takelis parodo Tc1- jūrininko transpozonų elementų dažnį Atlanto lašišos genome.

Visas dydis

  • Atsisiųskite „PowerPoint“ skaidrę

Genų struktūrų anotavimas naudojant RNR seką (RNR-seq) ir išreikštos sekos žymes (EST) nustatė 46 598 genus, klasifikuojamus kaip nesikartojantys susieti lokai su sekos panašumo palaikymu iš PFAM duomenų bazės, ir (arba) zebrafish ir „stickleback“ anotacijas (11 papildoma lentelė). . Funkcinis komentaras nustatė galutinį 37 206 aukšto patikimumo baltymą koduojančių genų lokusų rinkinį, kuriems buvo priskirta tariama funkcinė anotacija, remiantis homologija „SwissProt“ duomenų bazėje. Devyniasdešimt penki procentai iš 498 245 viešųjų EST ir 98, 3% nustatytų lokusų buvo susieti su 29 chromosomų seka, nurodant beveik išsamų baltymą koduojančio genomo vaizdavimą (papildomos informacijos 1.5 skyrius).

Post-Ss4R rediploidizacijos charakteristikos

Dubliuoto genomo grąžinimas iš tetrasominio į disominį paveldėjimą priklauso nuo keturvalenčio porų obstrukcijos vykstant meiotiniam ląstelių dalijimuisi. Dideli chromosomų pertvarkymai per chromosomų susiliejimą, dalijimąsi, trynimus ar inversijas smarkiai sutrikdo homeologinio poravimo galimybę (homeologo dublikatų pora, atsirandanti dėl WGD) 19, 20 . Kadangi dideli kolineariniai blokai, apimantys bent vienos iš chromosomų porų telomerą, yra esamos ar naujausios daugiavalentės poros diagnostika dėl sekos homogenizacijos (apžvelgta 21 nuorodoje), mes numatėme, kad homeologinės sekos panašumas bus atvirkštinis. ir chromosomų pertvarkymai dubliuotuose blokuose.

Norėdami patikrinti šią prognozę, nustatėme ir išanalizavome 98 homeologinius (dubliuotus) blokus, kurių kolineariškumas yra didelis, suderindami Atlanto lašišos chromosomų sekas viena nuo kitos (2 papildomos informacijos skyrius). 98 blokai (196 regionai) sudaro 2, 11 Gb (94, 4%) chromosomomis pritvirtintą seką (2 pav., 6 papildoma lentelė). Didelė dalis homeologinių blokų, sudarančių apytiksliai 573 Mb (25, 6% chromosomoje išdėstytos sekos), turėjo sekos panašumą> 90%. Šie regionai buvo suskirstyti į septynias chromosomų grupių dalis (2p – 5q, 2q – 12qa, 3q – 6p, 4p – 8q, 7q – 17qb, 11qa – 26, 16qb – 17qa ir tam tikru mastu 9qc – 20qb ir 5p – 9qb). (2 pav.)), Ir jiems visiems būdingi dideli kolineariniai blokai, įskaitant telomerą bent vienoje iš chromosomų porų. Ankstesni lašišinių žuvų tyrimai tvirtino, kad norint užtikrinti stabilumą, reikalingą daugiavalenčių medžiagų formavimui ir homeologinei poravimui, reikia įtraukti bent vieną metacentrinę chromosomą 22 . Mūsų išvados apie 11qa – 26 ir 16qb – 17qa regionus rodo, kad tai nėra griežta būtinybė. Pažymėtina, kad padidėjęs skaitymo suderinimo gylis ir trumpesni pastoliai buvo būdingi regionams, viršijantiems 95% panašumo, reprezentuojantiems 210 Mb (9, 4% chromosomoje išdėstytos sekos), ir tai rodo asamblėjos griūtį (2 pav., Papildomos informacijos 1.5 skyrius).

Be išimties, dubliuoti regionai, kuriuose telomerų persitvarkymai buvo inversijos, translokacijos ar didesnės delecijos, visos sekos panašumas buvo ~ 87%. Šis aiškus atitikimas tarp bloknotų sekos panašumo laipsnio ir blokų, kurie, kaip prognozuojama, vis dar dalyvaus tetrasominiame paveldėjime (arba neseniai tai padarė) rodo, kad iki 25% lašišos genomo vėluojanti rediploidizacija atsirado po pradinių didelių chromosomų pertvarkymų ir kad net 10% genomo vis dar gali likti tetrasomija (7 papildoma lentelė). Dideli ir labai tiesūs linijiniai Atlanto lašišos ir vaivorykštinio upėtakio sintezės blokai (išplėstiniai duomenys, 1 pav.) Rodo, kad šie pertvarkymai turėjo būti atlikti prieš padalijant dvi linijas. Tai taip pat patvirtina kiti Salmoninae pošeimos nariai kartu su genomo žemėlapiais ir kariotipų tyrimais, patvirtinančiais didelių blokų, apimančių visas chromosomos dalis, išsaugojimą 22 .

Norėdami tai išsamiau išnagrinėti, mes ištyrėme 2487 genų medžių iš ortologinių genų rinkinių, kuriuose yra tariamos homeologinės poros tiek Atlanto lašišai, tiek vaivorykštiniam upėtakiui ( Oncorhynchus mykiss ) (5 papildomos informacijos skyrius) rinkinį. Kadangi šią analizę reikėjo kalibruoti atsižvelgiant į pogrupį, įtraukėme tik homeologines poras, turinčias ortologą šiaurinėje lydekoje ( Esox lucius ), kuri yra arčiausiai lašišinių žuvų esančių diploidinių seserų grupė 23 . Mūsų rezultatai rodo, kad Ss4R apatinė riba yra ~ 100–80 Mya ir kad Salmo – Oncorhynchus divergencija įvyko ~ 21 Mya (3b pav.; Išplėstinių duomenų 2c pav. Ir papildoma informacija 6 skyriuje), atsižvelgiant į naujausius amžiaus įvertinimus 8., 13 . Įdomu tai, kad koduojančių sekų raidos asimetrijos analizė tarp homeologų parodė, kad didžioji sekų skirtumų dalis įvyko po Salmo – Oncorhynchus padalijimo, ir tai rodo, kad Ss4R įvykis ir Ss4R dublikatų sekos skirtumai laikinai atsieti (6 papildomos informacijos skyrius). . Be to, mūsų molekulinių pasimatymų rezultatai rodo, kad daugumai Ss4R dublikatų disominis palikimas grįžo į bendrą visų lašišinių protėvių protėvį prieš ~ 60 Mya (3c pav.). Taigi genų medžio analizės rezultatai atitinka duomenis apie homeologinės sekos panašumą (išplėstiniai duomenys, 2b pav.), Tvirtai rodo, kad dideli genomo pertvarkymai buvo naudingi rediploidizacijos procesui po Ss4R. Taigi mūsų išvados užginčija vieną iš pagrindinių vaivorykštinių upėtakių genomo sekos nustatymo išvadų, kuriose teigiama, kad rediploidizavimas lašišinėse žuvose buvo laipsniškas procesas, nesusijęs su reikšmingais genomo pertvarkymais 13 .

Image

a, 3a pav. parodytas reikšmingas ir nuolatinis transponuojamų elementų išplėtimas iš Tc1- jūrininkų superšeimos, kurių pagrindinės smailės yra vidutiniškai 87%, 93% ir 98% panašios tarp šeimos narių. Spalvos atitinka tas pačias spalvas kaip ir išplėstinių duomenų paveiksle 5 pav. B. Amžiaus įverčiai, skaičiuojant nuo homeologinių skirtumų iki Salmo – Oncorhynchus skirtumų kiekviename atskirame homeologiniame regione. Buvo įtraukti tik tie chromosomų regionai, kuriuose> 10 genų medžių. c ) Trijų etapų hipotetinis post-Ss4R rediploidizacijos modelis (modelio skyrių plotis neatspindi realios laiko skalės). Žalias apskritimas rodo lašišinių spindulių pradžią.

Visas dydis

  • Atsisiųskite „PowerPoint“ skaidrę

Atsižvelgiant į galimus šių didelių genomo pertvarkymų mechanizmus, didžiųjų transpozonų šeimų pasiskirstymas Atlanto lašišos genome rodo perkeliamų elementų išplėtimą protėvių lašišoje prieš chromosomų susiliejimą Atlanto lašišos kilmėje (2 pav., C takas). 85% sekos skirtumai tarp daugelio transpozonų šeimos narių yra panašūs į apatinę homeologinio bloko panašumo ribą (~ 87%). Darant prielaidą, kad neutralus į laikrodį panašus sekos nukrypimas, šis atitikimas atitinka pakartotinių išplėtimų sprogimą, sutapiantį su rediploidizacijos post-Ss4R inicijavimu (3a pav. Ir išplėstiniai duomenys, 2b pav. Ir papildomos informacijos 6.2 skyrius). Kadangi žinoma, kad dėl genominio streso padidėja plataus masto perkeliamų elementų judėjimas ir judėjimas 24, tai gali manyti, kad Ss4R sukėlė perkeliamų elementų išsiplėtimą, pažeisdamas norminius procesus, atsakingus už transposono priežiūrą. Šis išsiplėtimas savo ruožtu galėjo būti pagrindinis veiksnys, lemiantis genomo nukreipimą į diploidinę būseną, dėl padidėjusio homeologinių sekų skirtumų ir didelių chromosomų pertvarkymų dėl negimdinio transipozuojamo elemento rekombinacijos ir chromosomų lūžio, sukeliančio nehomologinį galinį sujungimą 25 (3c pav.).

Pasikartojantis išlaikymas - modeliai ir mechanizmai

Norėdami įvertinti dubliuotų genų evoliucinius likimus lašišos genome, išanalizavome Ss4R dublikatų sulaikymo būdus ir baltymus koduojančių genų funkcinius skirtumus 98 homeologiniuose blokuose. Atsižvelgiant į tai, kad randame labai mažai įrodymų apie genų praradimą dėl 26 -osios frakcijos, ir kad 56% iš 9162 singletonų mes sugebėjome nustatyti pseudogenizuoto homeologo geno fragmentą tikėtinoje padėtyje (papildomos informacijos 4 skyrius ir 11 papildoma lentelė), atsiranda pseudogenizacija. būti dominuojančiu Ss4R dublikatų praradimo mechanizmu.

Norėdami palyginti Ss4R su 240 Myr senesnių Ts3R dubliavimosi sulaikymo šablonų, mes išanalizavome dubliavimo sulaikymo šablonus teleosto genų šeimos medžiuose (nuoroda 27; papildomos informacijos 8 skyrius). Tai atskleidė, kad 20% Ts3R ir 55% Ss4R kopijų yra dvi funkcinės kopijos Atlanto lašišoje. Palyginimui, 12–24% dubliuotų genų, gautų iš „Ts3R“ įvykio, buvo sulaikyti kitose išlikusiose „Teleost“ žuvų rūšyse (peržiūrėta 28 nuorodoje), o apskaičiuota, kad sulaikymas 75 Myr po Ts3R sudarė apie 40% 3, 29 . Atsižvelgiant į abejones, susijusias su tokiais vertinimais, Atlanto lašišos laikinas sulaikymo po Ss4R pobūdis yra gana panašus į kitų po Ts3R laikomų teleostų, nurodant, kad už Atlanto lašišos dvigubą sulaikymą atsakingi mechanizmai gali būti bendri.

Keista, tačiau Atlanto lašišos genai, kurie buvo išsaugoti kaip kopijos po Ts3R įvykio, nebuvo tikėtina, kad bus išsaugoti po Ss4R (išplėstiniai duomenys, 3 pav.; Papildomos informacijos 8 skyrius). Vyraujančios nepriklausomos sulaikymo tikimybės rodo sudėtingą procesų sąveiką, skirtingus dvigubo sulaikymo evoliucinius variklius arba iš esmės neutralų ir stochastinį nefunkcionalizacijos procesą po Ts3R ir Ss4R įvykių. Įdomu tai, kad stebėjome padidėjusį ne WGD geno dublikatų (senesnių ar jaunesnių už Ss4R įvykį) išlaikymą, kai buvo išsaugoti ir WGD (tiek Ts3R, tiek Ss4R) dublikatai ( P <0, 001; papildomos informacijos 8 skyrius).

Du pagrindiniai mechanizmai, kuriais dublikatų pora gali išvengti nefunkcionalizacijos, yra subfunkcionalizavimas (protėvių genų funkcijų padalijimas) 30 ir neofunkcionalizavimas (naujos funkcijos priskyrimas vienam iš dublikatų) 31 . Norėdami įvertinti santykinį šių dviejų mechanizmų svarbą, išanalizavome Ss4R dublikatų genų ekspresijos skirtumus per 15 audinių (išplėstiniai duomenys. 4a pav., B; papildomos informacijos 7 skyrius). Keturiasdešimt penki procentai (3 991/8 954) tiksliai apibrėžtų išreikštų Ss4R porų parodė skirtingos išraiškos požymius, būdami skirtingose ​​saviraiškos grupėse (4a pav.). Skirtingi homeologai dažniausiai priklausė glaudžiai susijusioms, bet vis dar skirtingoms saviraiškos grupėms (4a pav. Ir išplėstinių duomenų 4d pav.).

Image

a) Homeologinių genų porų pasiskirstymas pagal Circos diagramą ir jų priskyrimas 11 koekspressijos grupių, pagrįstų 15 skirtingų audinių. Linijos jungia Ss4R poras, priklausančias skirtingoms saviraiškos grupėms. Vizualizacijos tikslais Ss4R poros buvo surūšiuotos pagal bendro saviraiškos divergencijos tipą. Raudonos linijos rodo reikšmingus pakartotinio mėginių ėmimo bandymus ( P <0, 05), siekiant praturtinti homeologinių skirtumų tarp dviejų specifinių saviraiškos grupių. b) 2272 tripleto (dviejų lašišų homeologų ir lydekos ortologo) šilumos žemėlapis, kuriame vienas iš Atlanto lašišos homeologų skiriasi genų ekspresijos reguliavime.

Visas dydis

  • Atsisiųskite „PowerPoint“ skaidrę

Nors šie rezultatai leidžia manyti, kad funkciniai skirtumai yra paplitę tarp Ss4R dublikatų, informacija apie protėvių būseną yra esminė norint klasifikuoti šį nukrypimą į sub- ir neofunkcionalizaciją. Todėl mes panaudojome palyginamus išraiškos duomenis iš 13 paprastųjų audinių iš diploidinės šiaurinės lydekos 23 kaip tarpinių duomenų pavyzdį Ss4R dublikatams. Mes nustatėme 8102 ortologinių genų tripletus (tai yra dvi Ss4R kopijas ir jų spėjamą lydekos ortologą), o 42% tripletų abu Ss4R dublikatai turėjo konservuotą koekspresijos profilį su lydekos ortologu (Pirsono koreliacija> 0, 6, P <0, 03). Tai rodo stiprų gryninantį selekcinį spaudimą genų reguliavimui per daugiau nei 100 Myr ir padidina šiaurinės lydekos naudojimą protėvių geno reguliavimui įvertinti. 28% trynukų vienas Ss4R dublikatas turėjo konservuotą saviraiškos modelį su lydeka, o kitas priklausė kitam koekspresijos klasteriui (4b pav.), Rodantis apie reguliavimo neofunkcionalizaciją.

Nors stebėjome spėjamo pseudogenizacijos atvejus Ss4R dublikatus, turinčius žemą išraiškos reguliavimo koreliaciją kartu su dideliu kodavimo sekos ilgio skirtumu, dauguma Ss4R dublikatų turėjo panašų ilgį, neatsižvelgiant į jų išraiškos panašumą (išplėstiniai duomenys, 4e pav.), Kas rodo, kad neutrali evoliucija gali tik nežymiai paaiškinkite šį reguliavimo skirtumą.

Mes nustatėme 1 084 trynukus, kuriuose lašišos dublikatai priklausė skirtingoms ekspresijos grupėms ir kurių ekspresijos profiliai žymiai skyrėsi nuo lydekos (Pearsono koreliacija <0, 55, P > 0, 05), nurodydami galimą subfunkcionalizaciją. Šioje grupėje, šiek tiek stebėtinai, radome tik 23 aiškius subfunkcionalizacijos pavyzdžius, kai lašišos homeologų raiškos modelių suma reikšmingai koreliavo su numanoma protėvių būsena. Tačiau atliekant klasterizuotą analizę neatsižvelgiama į subtilesnius klasterio subfunkcionalizacijos atvejus, taip pat į atvejus, susijusius su naujų funkcijų įgijimu po subfunkcionalizacijos. Norėdami tai įvertinti, taikėme klasifikavimo „įjungimo ir išjungimo“ metodą (išplėstiniai duomenys, 4f pav. Ir papildomos informacijos 7.2 skyrius), kuris padidino vertinimą iki 167 atvejų; skaičius, kuris vis dar nyksta įvertinus neofunkcionalizacijos atvejų skaičių (3 028) (7.2 papildomos informacijos skyrius).

Manoma, kad svarbiausias tarpinio dubliavimosi sulaikymo po WGD 15 mechanizmas, atsižvelgiant į dozę jautrią sąveiką su kitais dubliais skirtais genais, prieš tai, kai neo-, sub- ir nefunkcionalizavimas lemia galutinį dublikatų likimą 32 . Vadovaudamiesi tuo, mes pastebėjome, kad per daug reprezentuojami GO terminai, susiję su signalo perdavimu, baltymų komplekso formavimu ir transkripcija tarp dubliuotų genų su konservuotu reguliavimu (Papildomos informacijos 7.3 skyrius ir 16 papildoma lentelė). Tačiau kadangi GO terminų įvairovė, nesusijusi su dozės balanso hipoteze (16 papildoma lentelė), taip pat yra per daug atstovaujama tarp Ss4R dublikatų su konservuotu reguliavimu, nepagrįsta daryti išvadą, kad dozės balansas yra vienintelis tarpinis išlaikymo mechanizmas. Be to, sulaikymo pavyzdžių analizė po Ts3R ir Ss4R rodo nepriklausomą sulaikymo tikimybę ir labai silpną žinomų su baltymais sąveikaujančių partnerių preferencinio bendro sulaikymo poveikį ( P <0, 001) tiek Ts3R, tiek Ss4R dubliavimo atvejais (išplėstinių duomenų 3 pav. Ir papildomi duomenys). Informacijos skyrius 8).

Kartu paėmus, > 60% homeologų porų yra požymiai, kad nuo audinių priklauso nuo viso geno ar egzono lygio norminių skirtumų (7.2 papildomos informacijos skyrius). Dauguma atvejų, kai tik vienas egzempliorius pakeitė savo reglamentavimą, palyginti su numanoma protėvių būkle, rodo, kad reguliavimo subfunkcionalizavimas nebuvo dominuojantis pasikartojantis išlaikymo mechanizmas po Ss4R, nebent po jo sekė neofunkcionalizavimas, kuris buvo pasiūlytas kaip bendras procesas 33, 34 . Tačiau mūsų subfunkcionalizacijos vertinimai ir didelis tripletų dažnis, kai vienas lašišos homeologas turėjo konservuotą saviraiškos modelį su lydeka, o jo kopija nebuvo (4b pav.), Neatitinka pastarojo scenarijaus bendro pobūdžio.

Lašišinių žuvų pamatinis genomas

Lašišinių žuvų sintezės išsaugojimas 22, 35 rodo, kad informacija apie vieną aukštos kokybės lašišinių augalų genomą gali būti naudojama kitų lašišinių žuvų genomų sekų rinkiniams pagerinti. Norėdami patikrinti tokio lyginamojo genomikos metodo pagrįstumą, panaudojome Atlanto lašišos agregatą, kad sukonstruotume chromosomų sekas nekromosomose inkrustuoto vaivorykštinio upėtakio 13 genomo sekai. Mes sugebėjome nubrėžti 99, 5% vaivorykštinių upėtakių pastolių> 100 kilobazių (kb) (viso 1, 22 Gb) pagal Atlanto lašišos chromosomų sekas (papildomos informacijos 1.5 skyrius).

Naudodamiesi Atlanto lašišos chromosomų sekomis ir tankiu vaivorykštinių upėtakių sąsajų žemėlapiu, sudarytu iš 57K vieno nukleotido polimorfizmų (SNP) masyvo, mes sugebėjome sutvirtinti, orientuoti ir sukabinti 11 335 vaivorykštinių upėtakių pastolius (scfN50 = 940 kb, žr. 13 nuorodą). ) į 29 vaivorykštinių upėtakių chromosomų sekas (papildomos informacijos 9 skyrius). Tai buvo padaryta pirmiausia pasinaudojant vaivorykštinių upėtakių sąsajų žemėlapiu, kad būtų galima nustatyti apytikslę 2439 upėtakių pastolių, turinčių SNP, eilės tvarką, kurios, mūsų manymu, pakako konservuotiems blokams nustatyti. Tada mes panaudojome palyginamąją informaciją apie Atlanto lašišą, kad pastolius įtrauktume be SNP informacijos ir tiksliai suderintume visų 11, 335 upėtakių pastolių eiliškumą ir orientaciją į chromosomų sekas. Nors vaivorykštinių upėtakių sąsajų žemėlapyje yra daugiau žymeklių nei daugumoje kitų lašišinių žuvų (pvz., Nuoroda 22), tokio didelio tinkamai išdėstytų pastolių skaičiaus neįmanoma pasiekti be informacijos apie Atlanto lašišą.

Šių vaivorykštinių upėtakių chromosomų (atspindinčių 1, 37 Gb sekos) suderinimas su Atlanto lašišos genomu atskleidė labai didelių sinteninių blokų išsaugojimą, daugeliu atvejų atitinkančius vaivorykštinio upėtakio visas chromosomų dalis (išplėstiniai duomenys, 1 pav.). Ši analizė patvirtina ankstesnius rezultatus 35, kurie rodo, kad 50 sintetinių sričių, atspindinčių 50 akrocentrinių chromosomų kariotipą, yra išsaugomos bendrame lašišinių protėviuose 36 . Mūsų analizės dokumentuose teigiama, kad šie sintetiniai regionai paprastai vaizduoja blokus, kuriuose nėra 38 regionų pertvarkymų ir tarp kurių likusių dalių yra tik vienas ar du inversijos ar perkėlimai.

Padariniai

Išsaugant didelius kolinearinius blokus tarp Salmo ir Oncorhynchus, labai akivaizdu, kad informacija apie Atlanto lašišos genomą palengvins genominės informacijos naudojimą įvairiose ekologinėse, evoliucinėse, konservavimo ir gamybos biologinėse sąlygose lašišinių žuvų populiacijose. Be to, galimybė įsigyti aukštos kokybės Atlanto lašišos genomo rinkinį ir anotacija suteikia naujų įžvalgų apie stuburinių gyvūnų, atsirandančių po WGD, evoliuciją, o tai gali padėti išsamiau suprasti pagrindinius mechanizmus ir ilgalaikę WGD svarbą prisitaikant. .

Metodai

Duomenų teikimas

Mėginio dydžiui nustatyti nebuvo naudojami statistiniai metodai. Tyrėjai nebuvo aklai skirstomi eksperimentų ir rezultatų vertinimo metu.

Genomo sekos nustatymas ir surinkimas

Mitozinės androgenezės būdu gauta pavienės dvigubos haploidinės patelės iš „AquaGen“ patelės DNR buvo naudojama kaip sekos nustatymo šablonas naudojant Sanger ir naujos kartos sekos nustatymo technologijas (1 papildoma lentelė). Naudojant skirtingas programinės įrangos kombinacijas ir duomenų pogrupius buvo sugeneruoti įvairūs rinkiniai (2 papildoma lentelė). Pasirinkto mazgo pagrindas buvo sukurtas iš „Sanger“ (~ 4 ×) ir „Illumina“ (~ 202 ×) duomenų, surinktų naudojant „MaSuRCA“ (v2.0.3) surinkėją 37 . Surinkimas buvo suderintas ir užpildytas spraga, naudojant informaciją iš preliminarių agregatų (Papildomos informacijos 1.3 skirsnis). Genetinio sujungimo informacija, apibūdinanti 565 877 SNP, buvo naudojama tiek pastoliams patvirtinti, tiek taisyti, ir, kai tai palaikė kitų mazgų informacija, buvo naudojama pastoliams sujungti jungčių grupėse. Vėliau, norint surinkti, orientuoti ir sujungti pastolius į 29 vienos chromosomos sekas, buvo naudojama jungčių analizė naudojant CRIMAP 38 ir SNP sekų žymų pogrupį (27, 221). Atlanto lašišos chromosomų nomenklatūra pagrįsta nuoroda. 35.

Genų komentarai

Genų struktūros buvo nustatytos sujungiant duomenis iš pilno ilgio cDNR sekų 39, EST duomenų bazių 39, 40, 41 ir RNR-seq duomenis iš 15 audinių (papildoma 9 lentelė). RNR-seq rodmenys buvo nukirpti naudojant „Trimmomatic“ (v0.32 (nuoroda 42)) ir suskirstyti į etaloninio genomo seką naudojant STAR (v2.3.1z12 (nuoroda 43)), o visos viešai prieinamos mRNR ir EST buvo suplanuotos naudojant GMAP 44 . Genų struktūros buvo numatytos naudojant CUFFLINKS 45 . Atviro skaitymo kadro (ORF) numatymai buvo atlikti naudojant „TransDecoder 46“ . Genų modeliai, neturintys homologijos, atitiko nei PFAM, nei stulpelius, nei zebrafish. Funkcinis komentaras buvo atliktas naudojant „Blast2GO 47“, palyginti su „SwissProt“ duomenų baze. Su perkeliamais elementais susiję ORF buvo identifikuoti atliekant BLAST paieškas pagal anotuotų perkeliamų elementų sekas ir užklausas perkeliamiems elementams susijusių terminų (tai yra, retrotransposonas, transposonas, perkeliamas, transposazė, atvirkštinė transkriptazė, gag, bpol) funkcinių anotacijų genų pavadinimuose. Spėjami išreikšti ir nutildyti Ss4R homeologai buvo identifikuoti naudojant homologinių paieškų derinį su BLAST ir „GenomeThreader 48“, nukreipiant į a priori apibrėžtus konservuotus kolinearinius dubliuotus regionus ( n = 98).

Pakartokite bibliotekos metodus

Atlanto lašišų pakartojimo biblioteka iš 2 005 elementų buvo surinkta iš sekų, apie kurias anksčiau buvo pranešta lašišose 13, 49, 50, ir išvestų de novo pakartotinių radinių programų LTRharvest 51, RepeatModeller 52 ir REPET 53 . Išskyrus kuruojamus pakartojimus, apie kuriuos anksčiau pranešė „Matveev“ ir „Okada 50“, ir tuos, kurie buvo rasti „RepBase“ duomenų bazėje 49, visos preliminarios sekos buvo patikrintos naudojant BLASTn 54, siekiant įsitikinti, kad jų yra keliose genomo vietose. LTRharvest sekos buvo filtruojamos remiantis pakartotinės bibliotekos kūrimo procedūra, aprašyta MAKER dokumentacijoje 55 . Naudojant BLASTn, sekos iš kitų „ de novo“ šaltinių ir vaivorykštinio upėtakio pakartojimo biblioteka buvo pažymėtos kaip potencialiai chimeriškos, jei jos nesukūrė bent trijų aukšto balo segmentų porų (HSP), apimančios bent 80% jų ilgio Atlanto lašišos genome. Bet koks atskiras labai pasikartojantis regionas tokiose sekose buvo išgaunamas ir išlaikytas, o kitos dalys buvo išmestos. Remiantis Wicker et al . Pateiktomis gairėmis, visos bibliotekos buvo sujungtos ir nereikalingos sekos buvo pašalintos. 56 ir MAKER dokumentacija. Kombinuotoje bibliotekoje esančios sekos buvo pažymėtos anotacija, o neperkeliamieji elementų šeimininko genai buvo pašalinti remiantis jų panašumu į gerai apibūdintas sekas sekos anotavimo duomenų bazėse 49, 57, struktūrinių motyvų buvimas ir rankinis tyrimas.

Norint įvertinti istorinį Tc1- jūrininko perimamų elementų aktyvumą, iš kiekvienos iš 40 Tc1- jūrininkų šeimų buvo išgauta ir suderinta iki 100 atsitiktinai parinktų pilno ilgio genominių kopijų, naudojant MUSCLE 58 . Buvo patvirtinta, kad visos šeimos filogenetiškai skiriasi viena nuo kitos ir turėjo žvaigždėms būdingą kaimyno jungiamojo medžio topologiją, būdingą Tc1 jūrininkų veiklai 59 . Perduodamo elemento aktyvumo laiko dinamikai analizuoti buvo naudojamas porų procentinis panašumas, išreikštas laiko skaičiumi, tarp šeimos narių.

Homeologinių blokų identifikavimas lašišos genome

Pakartotinai užmaskuotos Atlanto lašišos chromosomų sekos (žr. Aukščiau) buvo sulygintos viena su kita naudojant LASTZ 60, kad būtų galima identifikuoti 98 homologinius blokus, kilusius iš Ss4R (daugiau informacijos žr. 2 papildomos informacijos skyriuje). Eilės panašumas tarp homeologinių sekų buvo nustatytas 1 Mb intervalais, vidutiniškai apskaičiuojant nukleotidų sekų tapatumo procentą, naudojant aukščiausio balo segmentų porą (HSP) iš LASTZ suderinimų 60 ir 2 pav. Pateiktą kaip Circos diagramą 61 .

Lašišos homeologų sekų evoliucijos analizė

Tariamų ortologų sekų rinkiniai buvo sugretinti su geriausiu abipusio pūtimo (BRB) baltymų atitikmenimis. Lašišinių žuvų rūšims du geriausi BRB įvertinimai buvo priskiriami tariamoms ortologų grupėms. Buvo sukurti keli kodonų sekų suderinimai, naudojant MAFFT 62, ir kokybė buvo sutrumpinta naudojant „Guidance“ iteracinėje sistemoje, kur sekos buvo iš naujo suderintos po to, kai buvo identifikuoti silpnai suderinti kodonai.

Maksimalios tikimybės (ML) genų medžiai buvo apskaičiuoti pagal R-paketą „Phangorn 63“, naudojant kodono suderinimą, GTR + G + I modelį ir 100 įkrovos atkarpų. Atšakoms būdingi GTR + G + I pakaitalų greičiai buvo įvertinti iš R-paketo ape 64 funkcijų, tuo tarpu šakai būdingi sinoniminiai (dS) ir nesinoniminiai (dN) pakaitalų greičiai buvo įvertinti naudojant neneigiamų mažiausių kvadratų regresiją Phangorn R pakete. 63, naudojant įvestas porines dN ir dS atstumų matricas iš codeml 65 ir ML geno medžio topologijas.

Šakos specifinis teigiamos atrankos testas buvo atliktas atliekant ML tikimybės įverčių ML tikimybės įverčių sekos evoliucijos tikimybės santykio testą pagal skirtingus modelius codeml. Mažiausias tikimybės įvertinimas iš keturių pradinių omega reikšmių (0, 5, 1, 1, 5 ir 2) buvo naudojamas tikimybės santykio teste (LRT). Klaidingai aptiktos p vertės reikšmės buvo koreguojamos naudojant p.adjust funkciją R.

Genų medžio pažintys

BEAST 66 was used to calibrate gene trees using a HKY+G substitution model, uncorrelated lognormal clock, and yule tree prior. The BEAST analyses were exclusively based on codon alignments that produced a ML-gene tree topology containing two Ss4R homeologues in both Salmo and Oncorhynchus , and where rediploidization had occurred before the Salmo–Oncorhynchus divergence. No priors on tree topology were specified and a single secondary calibration of 127 Myr (confidence interval 12.5 Myr) on the most recent common ancestor of Salmoniformes + Esociformes was used 7, 8 . All Markov chain Monte Carlo (MCMC) analyses were run for 10 million generations with sampling every, 1000 generations. Tracer v1.6 (available from //beast.bio.ed.ac.uk/Tracer) was used to inspect effective sample sizes (ESS) of tree parameters. Fifty per cent consensus topologies were constructed based on 100 randomly sampled tree topologies from the last 1, 000 MCMC-samples. Age of Salmo–Oncorhynchus divergence was estimated as the median of two nodes per tree.

Transcriptome analysis

A gene was classified as 'expressed' if the FPKM value of at least one tissue was above 1.0, and values were transformed to log 2 (FPKM+1) values for consecutive analysis. Samples and genes were clustered using Pearson correlation and Ward's method in the R function hclust 67, and visualized as heatmaps using the R function heatmap.2 (gplots library). Genes were scaled individually in the heatmaps.

Clusters with a significant number of shared homeologue-pairs were identified by simulation (10, 000 randomizations). A salmon gene (or exon) was classified as conserved if the Pearson correlation to the pike orthologue was above 0.6 ( P = 0.03) across the 13 common tissues, and diverged if the correlation was below 0.55 ( P > 0.05). A salmon homeologue-pair was classified as neofunctionalized if at least one salmon gene was conserved and the two salmon genes were in different clusters, and as subfunctionalized if both salmon genes were diverged and in different clusters, but their summed expression was conserved.

Expression specificity was computed as one minus the sum, over all samples, of the gene's expression in that sample divided by the maximum expression in any sample. Significant difference in specificity between clusters was computed using the Wilcoxon test.

Duplicate retention

Existing gene families for all teleost species were downloaded from Ensembl Compara 79 (ref. 27). Genomes for Salmo salar , Esox lucius , and Oncorhynchus mykiss were added to these gene families or used to create new gene families with BLAST to determine homologous relationships ( e -value >1 e -10 and %id>50)). Multiple sequence alignments of extended gene families with Lepisosteus oculatus as an outgroup were produced using MAFFT 62 (command line option –auto) and gene trees were built with PhyML 3.4 (ref. 68) using the JTT+G substitution model. Using the NCBI teleost species tree, Softparsmap 69 was used to identify duplication and speciation event in trees. This resulted in 12, 388 gene families with a speciation root node, encompassing 26, 325 salmon genes.

The constructed gene trees were then assessed for duplicate retention for the Ts3R, Ss4R, small scale salmon specific duplications (SSD) following the Ss4R event, and duplications occurring between the Ts3R and Ss4R. Duplicate retention was counted by examining the conditional percentages of genes that were retained from the Ss4R following the Ts3R, and from the Ss4R to small-scale duplications on the salmon lineage. The duplication lineage for each gene was counted, ensuring that each lineage accounted for the retention or loss of a duplicate, with the expectation that each Ts3R duplication should give rise to two Ss4R, and every Ss4R should lead to two small scale duplications. Post3R–preSs4R SSDs also share an expectation of having resulted in two Ss4R duplications. Where nodes could be assigned as being either Ss4R or SSD, the chromosomal locations of the genes were used to differentiate between the ambiguous nodes. Such ambiguous nodes were determined to be SSDs if the duplicate salmon genes resided on the same chromosome; otherwise it was classified as being Ss4R. Since only a single Ss4R duplication occurred along a lineage, if two ambiguous nodes were found that could be classified as Ss4R along the same lineage, one was classified as being Ss4R and the rest were classified as being SSD, with the oldest duplication being the Ss4R, an assumption that did not affect the trends in the data. Although most gene tree topologies were consistent with the teleost species tree, some gene trees showed large deviations from the accepted species tree. These trees may have been influenced by phylogenetic error which could cause spurious duplication counts and cause an overestimation of the number of duplication events within a gene family. Conditional probabilities were then calculated to determine the fraction of retained gene duplicates following each of the WGDs, given the opportunity for retention.

To assess if duplicate retention was impacted by protein–protein interactions, known protein–protein interactions were downloaded from the STRING database 70 . BLAST against Danio rerio was performed and putative STRING interactions in salmon were determined. Only interactions labelled 'binding' were kept, which are putative physical protein–protein interactions based on various forms of evidence. Patterns of co-retention following Ts3R, Ss4R, and SSD were then examined among STRING binding partners using the phylogenetic trees described above with custom perl scripts.

Statistical tests of significance were performed to determine if duplication counts were significantly different from each other. The duplication process was represented by a binomial distribution where each duplication could have either been retained or not. A two-proportion pooled z -test was performed to calculate two-sided P values at the Bonferroni corrected α-level (0.001/7). To further explore if results were significant with a marginal effect level change or being overly influenced by large sample sizes, an odds ratio and relative risk analysis was performed for each group and two-sided P values were calculated. All tests showed extremely low P values indicating that the groups were significantly different from one another 71 . Effect sizes were considered as the fractional change in mean values.

All scripts used in this analysis are freely available on the Liberles Group website at Temple University (USA) at //liberles.cst.temple.edu/public/Salmon_Genome_Project/.

Use of salmon assembly to improve rainbow trout genome sequence

Salmon chromosome sequences were repeat masked using a salmon repeat database and RepeatMasker v4.0.3 (ref. 72) and aligned against rainbow trout scaffolds 13 using MegaBLAST 73 . Rainbow trout scaffolds mapping to multiple salmon chromosomes were broken when supported by information from a rainbow trout linkage map containing 31, 390 SNPs constructed in a family material of 2, 464 individuals using Lep-MAP 74 . The relative positions of trout scaffolds within the salmon genome were used, together with trout linkage maps, to position, orient and concatenate 11, 335 rainbow trout scaffolds into 29 single chromosome sequences (1.37 Gb). Nomenclature for rainbow trout chromosomes is based on ref. 35. Conserved syntenic blocks between rainbow trout and Atlantic salmon were determined by aligning chromosome sequences for the two species against each other using LASTZ 60 .

Prisijungimai

Pirminės prieigos

NCBI atskaitos seka

  • GCA_000233375.4

Eilių skaitymo archyvas

  • PRJNA260929
  • PRJNA72713

Duomenų indėliai

Sequence information was deposited at GenBank under accession code GCA_000233375.4 and at the NCBI Sequence Read Archive (SRA): PRJNA72713 and PRJNA260929.

Išplėsti duomenys

Išplėstiniai duomenų skaičiai

  1. 1.

    Atlantic salmon and rainbow trout comparative map.

  2. 2.

    Dating or Ss4R rediploidization.

  3. 3.

    Duplication count analysis and interacting partner co-retention.

  4. 4.

    Tissue gene expression regulation.

  5. 5.

    Historical activity of 40 Tc1- mariner transposable elements and their abundance in the Atlantic salmon genome.

Papildoma informacija

PDF failai

  1. 1.

    Papildoma informacija

    This file contains Supplementary Text and Data, Supplementary Tables 1-3, 5, 7-8, 10-17 and Supplementary References – see contents page for details.

„Excel“ failai

  1. 1.

    Papildomi duomenys

    This file contains Supplementary Table 4.

  2. 2.

    Papildomi duomenys

    This file contains Supplementary Table 6.

  3. 3.

    Papildomi duomenys

    This file contains Supplementary Table 9.

Komentarai

Pateikdami komentarą jūs sutinkate laikytis mūsų taisyklių ir bendruomenės gairių. Jei pastebite ką nors įžeidžiančio ar neatitinkančio mūsų taisyklių ar gairių, pažymėkite, kad tai netinkama.