Virusinės taksonominės sudėties įvertinimas bentoso jūrų ekosistemose: įvairių bioinformatinių priemonių, skirtų virusinėms metagenominėms analizėms, patikimumas ir efektyvumas | mokslinės ataskaitos

Virusinės taksonominės sudėties įvertinimas bentoso jūrų ekosistemose: įvairių bioinformatinių priemonių, skirtų virusinėms metagenominėms analizėms, patikimumas ir efektyvumas | mokslinės ataskaitos

Anonim

Dalykai

  • Kompiuterinės platformos ir aplinka
  • Mikrobų ekologija

Anotacija

Bentose giliavandenių ekosistemų, kurios sudaro didžiausią biomą Žemėje, virusai vaidina svarbų ekologinį vaidmenį, tačiau jų įvairovė vis dar nėra žinoma. Taksonominės virusų sudėties nustatymas yra labai svarbus norint suprasti viruso ir šeimininko sąveiką, jų vaidmenį maisto tinklo veikime ir evoliucijos procesuose. Čia palyginome įvairių bioinformatinių priemonių (BLAST, MG-RAST, NBC, VMGAP, MetaVir, VIROME), skirtų analizuoti virusų taksonominę kompoziciją imituotose viromose ir virusų metagenomose iš skirtingų bentosinių giliavandenių ekosistemų, našumą. Imituotų virusų analizė rodo, kad visos BLAST priemonės, po kurių eina MetaVir ir VMGAP, yra patikimesnės virusų sekoms ir kamienams priskirti. Analizuodami aplinkos viromas, tBLASTx, MetaVir, VMGAP ir VIROME parodė panašų sekos anotacijos efektyvumą; tačiau „MetaVir“ ir „tBLASTx“ nustatė didesnį virusinių padermių skaičių. Pastarosios priemonės taip pat nustatė platesnį virusų šeimų ratą nei kitos, pateikdamos platesnį virusų taksonominės įvairovės dugno giliavandenių ekosistemų vaizdą. Mūsų išvados parodo turimų bioinformacinių priemonių stipriosioms ir silpnosioms medžiagoms, skirtoms tyrinėti virusų taksonominę įvairovę bentosinėse ekosistemose, kad būtų geriau suprantama virusų įvairovė vandenynuose ir jo ryšiai su šeimininkų įvairove ir ekosistemų funkcionavimu.

Įvadas

Virusai yra gausiausi biologiniai vienetai pasaulio vandenynuose ir yra laikomi svarbiais ekosistemų procesų ir biogeocheminių ciklų varikliais 1, 2, 3 .

Virusų komplekso sudėtį sudėtinga apibūdinti dėl sunkumų, susijusių su šeimininko ir viruso auginimu, ir dėl to, kad trūksta vieno viruso, būdingo visiems viruso genomams, o tai neleidžia naudoti metodų, analogiškų ribosomų DNR profiliavimui. 4, 5, 6, 7 . Metagenomika, apeinant šiuos apribojimus, yra geriausias dabartinis metodas analizuoti natūralių virusų rinkinių taksonominę sudėtį ir jų numatomas funkcijas 4, 8, 9 . Iš tikrųjų metagenominės analizės leido apibūdinti virusų rinkinius skirtingose ​​jūrų ekosistemose 4, 8, 10, 11, 12, 13, 14, atskleisdami iki šiol paslėptą jūrų genetinę įvairovę.

Bentose giliavandenėse ekosistemose, kurios užima daugiau kaip 65% pasaulio paviršiaus 3, virusai vaidina svarbų ekologinį vaidmenį 3, 15, o jų genetinis turtingumas turėtų būti labai didelis 16 . Tačiau virusų įvairovės vertinimai tokiose aplinkose nepakankamai ištirti 15, 17 . Norint nustatyti virusų visuotinę įvairovę, suprasti viruso ir šeimininko sąveiką, jų vaidmenį maisto tinklo veikime ir evoliucijos procesuose, labai svarbu nustatyti virusų rinkinių, esančių didžiausioje Žemės ekosistemoje, taksonominę sudėtį 18 .

Kritinis virusų įvairovės įvertinimo metagenominės analizės etapas, be virusų, neužkrėstų ląsteliniais organizmais, sukūrimo 19, 20, 21, 22, yra patikimų bioinformatinių priemonių, kurios teikia tikslius virusinės taksonominės informacijos įvertinimus, naudojimas 23. .

Ankstesniuose tyrimuose BLAST pagrįsti metodai buvo naudojami tiriant virusinę taksonominę jūrų ekosistemų įvairovę (pvz., Palyginant nukleorūgščių sekas su viešosiose duomenų bazėse esančiomis 9, 10, 23 ). (Virusinių) metagenomų analizei buvo naudojamos kitos bioinformatinės priemonės, tokios kaip GAAS (įtraukta į „MetaVir“), kurios plečiasi pagal tBLASTx algoritmą ir prideda viruso genomo dydį prie skaičiavimų 17, 23, 24, 25, Metagenomika RAST (MG). -RAST 26 ), virusų informatikos šaltinį metagenomų tyrimams (VIROME 27 ) ir virusų MetaGenome anotacijos vamzdyną (VMGAP, nuosavybės teise priklauso J. Craigo Venterio institutui 28 ). Kai kurie iš šių vamzdynų yra pagrįsti ORF radimo algoritmais, siekiant numatyti galimas kodavimo sekas prieš lyginant jas su konkrečiomis baltymų duomenų bazėmis. Visoms šioms bioinformacinėms priemonėms vis dėlto trukdo ribotas jūrų virusų genomų skaičius (pvz., „RefSeq“ duomenų bazėje yra 5027 virusų genomai, iš viso 55966 genomai), saugomų viešosiose duomenų bazėse, ir tai lemia, kad nedidelė visų rinkinių dalis yra taksonominė. aprašytas 24, 29 .

Šiame tyrime mes palygėjome įvairias anotavimo priemones, norėdami ištirti jų efektyvumą analizuodami skirtingų dugno giliavandenių ekosistemų virusų rinkinių taksonominę sudėtį. Mes atlikome imituotą silico analizę, pagrįstą referenciniais virusų genomais, kad nustatytume patikimiausias virusų taksonominės įvairovės įvertinimo priemones per „orientuotus į virusus“ (VMGAP, MetaVir, VIROME 22, 27, 28 ) ir „generalistinius“ vamzdynus ( BLAST, MG-RAST, naivus Bajeso klasifikatorius-NBC 26, 30, 31 ). Šie įrankiai buvo pritaikyti mūsų bentoso giliavandenių virusų viromams, siekiant įvertinti jų efektyvumą klasifikuojant virusų sekas.

Šio tyrimo išvados išryškina turimų bioinformacinių priemonių stipriąsias ir silpnąsias puses tyrinėjant aplinkos viromų taksonominę įvairovę ir tiriant virusų rinkinius bentoso giliavandenėse ekosistemose.

Rezultatai

Virusų sekų ir padermių identifikavimas imituotuose viromuose

Visi BLAST algoritmai (ty BLASTn, Megablast ir tBLASTx) ir NBC algoritmas sugebėjo nustatyti labai aukštą sekų, kaip virusinių, procentą (iki 100%; 1a pav.) Keturiuose modeliuojamuose virusuose. „MetaVir“ ir VMGAP turėjo labai aukštą efektyvumą nustatant virusų sekas 14C mėginyje, tačiau jis sumažėjo didėjant virusų įvairovei (iki maždaug 57–59% 500G ir 1000G mėginiuose). „VIROME“ dujotiekio ir „MG-RAST“ algoritmai „Best Hit“ (BH), „Lowest Common Ancestor“ (LCA) ir „reprezentatyvūs hitai“ (RH) klasifikuojami kaip virusiniai tik mažiau nei ca. 20% pateiktų sekų.

Image

a ) Virusinių sekų, identifikuotų modeliuojamuose virusuose, kuriems būdingi skirtingi genomai, skaičiai, remiantis skirtingais bioinformatikos įrankiais, procentas. 14C: 14 Circoviridae genomų; 50G: atsitiktinai atrinkti genomai; 500G: 500 atsitiktinai atrinktų genomų; 1000G: 1000 atsitiktinai atrinktų genomų; b ) Virusų sekų, teisingai identifikuotų kiekvienos virusų šeimos virumuose, procentas. Raudoni taškai rodo per daug atstovaujamų virusų šeimas (klaidingi teigiami duomenys).

Visas dydis

Imituotame duomenų rinkinyje, kuriame yra 1000 virusų genomų, BLAST algoritmai sugebėjo teisingai priskirti beveik visas sekas kiekvienai šeimai, panašiai kaip ir „MetaVir“, tačiau, palyginti su Poxviridae, Herpesviridae , Adenoviridae ir Alloherpesviridae, jų skiriamoji geba buvo mažesnė (1b pav. ). Apskritai VMGAP parodė mažesnį efektyvumą nei MetaVir ir nesugebėjo nustatyti Herpesviridae ir Phycodnaviridae . MG-RAST algoritmai ir VIROME nustatė mažą sekų, susijusių su eukariotinėmis virusų šeimomis (pvz., Adenoviridae , Alloherpesviridae , Mimiviridae , Coronaviridae) , procentą ir negalėjo nustatyti Phycodnaviridae , Poxviridae ir Herpesviridae . NBC nepavyko nustatyti daugumos šeimų, susijusių su RNR virusais, ir pateikė per daug skirtingų šeimų atstovų (pvz., Daugiau nei 600% Phycodnaviridae ).

Kai buvo suskaičiuoti kiekviename mėginyje identifikuoti virusų genomai, mes nustatėme, kad BLAST algoritmai sugebėjo teisingai nustatyti labai didelę (beveik 100%) viruso kamienų dalį, naudojamą visuose mėginiuose (2a pav.). Tarp dujotiekių „MetaVir“ ir VMGAP sugebėjo teisingai identifikuoti beveik visus 14C mėginio kamienus, tačiau jų efektyvumas sumažėjo didėjant modeliavimui naudojamų genomų skaičiui. MG-RAST, VIROME ir NBC rezultatai buvo gana panašūs, o didžiausia padermių dalis, teisingai nustatyta 14C mėginyje; jų efektyvumas, teisingai identifikuojant virusų genomus, smarkiai sumažėjo didėjant simuliacijai naudojamų virusų genomų skaičiui (iki 12% 1000G mėginiui naudojant LCA algoritmą).

Image

a ) Virusų padermių, teisingai identifikuotų modeliuotose viromose, kurioms būdingas skirtingas genomų skaičius skirtingomis bioinformatinėmis priemonėmis, procentas. 14C: 14 Circoviridae genomų; 50G: atsitiktinai atrinkti genomai; 500G: 500 atsitiktinai atrinktų genomų; 1000G: 1000 atsitiktinai atrinktų genomų; b ) Teisingai nustatytų virusinių padermių procentas kiekvienos virusų šeimos imituotuose virusuose.

Visas dydis

Imituotame duomenų rinkinyje su 1000 virusų genomų „MetaVir“ nustatė mažesnį virusinių kamienų, priklausančių Herpesviridae ir Poxviridae, procentą, palyginti su BLAST algoritmais (2b pav.). VMGAP ir VIROME turėjo mažesnę skiriamąją galią identifikuodami skirtingas virusų šeimas ir visiškai nesugebėjo identifikuoti kitų šeimų, įskaitant Herpesviridae ir Phycodnaviridae . Paprastai MG-RAST pasirodė esąs neveiksmingas skirstant padermes į virusų šeimas ir nesugebėjo nustatyti trijų virusų šeimų ( Herpesviridae , Poxviridae ir Phycodnaviridae ).

Virusų sekų ir padermių identifikavimas aplinkos viromose

Atrodė, kad NBC įrankis gali atpažinti beveik visas viruso sekas visose tirtose viromose (daugiau nei 99%). Priešingai, kitos priemonės sugebėjo klasifikuoti mažiau kaip 50% sekų kaip virusines (3 pav.). MG-RAST algoritmai nustatė labai mažą sekų skaičių (nuo 0, 12% iki 3, 81%) kaip virusinę. TBLASTx klasifikuojamas kaip virusinis ca. Juodosios jūros ir NE Atlanto 1 pavyzdžiuose sekos buvo atitinkamai 8% ir 15%, o BLASTn ir Megablast rado daugiau atitikmenų virusų sekų duomenų bazėje NE Atlanto 2 ir Arkties mėginiuose. „MetaVir“, „VMGAP“ ir „VIROME“ klasifikuojami kaip virusiniai nuo maždaug 60 proc. 1–3–11–16% sekų (atitinkamai NE Atlanto vandenyno 2 ir 1 mėginiuose). Aplinkos virusų virusų padermių analizė parodė, kad tBLASTx ir MetaVir nustatė daugiausiai virusinių padermių (atitinkamai 405–983 ir 409–731), po jų seka VMGAP (125–390), BLASTn (157–368) ir VIROME. (151–639). Atvirkščiai, „Megablast“ ir „MG-RAST“ algoritmai nustatė mažiausią padermių skaičių visuose mėginiuose (4 pav.).

Image

Visas dydis

Image

Visas dydis

Virusų surinkimo kompozicijos rodo, kad NBC nesugebėjo nustatyti ssDNR ir RNR virusų visuose giliavandeniuose viromuose, ir priskyrė daug didesnę sekų dalį Phycodnaviridae ir Polydnaviridae nei kiti įrankiai (5 pav.). Iš tiesų, NBC parodė labai mažą panašumą su visais kitais bioinformaciniais įrankiais (6 pav.). Tarp MG-RAST algoritmų BH ir RH nustatė didelę sekų, priklausančių mikroviridams, grupę ir suskirstytą į grupes, kartu su labai dideliu panašumu į visas aplinkos viromas (> 90%). Atvirkščiai, LCA algoritmas priskyrė didelę viruso sekų dalį „neklasifikuotų virusų“ klasei ir susibūrė į VIROME. Tarp BLAST algoritmų, BLASTn ir Megablast paprastai rodė panašų rezultatą, identifikuodami didesnę Mimiviridae sekų dalį Arkties ir NE Atlanto 2 viromose nei kiti įrankiai. Tačiau „tBLASTx“ parodė labai didelį panašumą (> 90%) su „MetaVir“ išvestimi. „MetaVir“, „tBLASTx“, „VMGAP“ ir „VIROME“ sekos priskyrė didžiausią virusų šeimų skaičių. VMGAP paprastai susideda iš tBLASTx ir MetaVir, išskyrus NE Atlanto 1 viromą.

Image

Visas dydis

Image

Visas dydis

Išanalizavus virusų padermių, susijusių su kiekviena virusų šeima, skaičių, paaiškėjo, kad NBC paprastai susiskirstė į Megablast, parodant labai mažą panašumą (<20%) su kitomis nagrinėjamomis priemonėmis. Vėlgi, „BLASTn“ ir „tBLASTx“ paprastai susideda iš nepriklausomos grupės (6 pav.). Visų pirma, analizuotuose mėginiuose tBLASTx išėjimas buvo labai panašus į „MetaVir“, todėl buvo galima nustatyti daug kamienų, priklausančių Caudovirales ( Myoviridae , Siphoviridae ir Podoviridae ), neklasifikuotų archealinių dsDNR virusų ir neklasifikuotų dsDNR fagų. kiti įrankiai. Virusinės kompozicijos, gautos iš VMGAP ir VIROME, susiskirstė į skirtingas grupes, atsižvelgiant į nagrinėjamą viromą. Visi „MG-RAST“ algoritmų išėjimai sugrupuoti; tačiau, įvertinus BH ir RH, virusų surinkimo kompozicijų panašumas buvo didesnis (> 80%).

Imituotų sekų duomenų rinkinių, sujungtų su vienu iš aplinkos virusų, analizės rezultatai parodė, kad aplinkos sekų buvimas neturėjo įtakos imituotų genomų identifikavimui (S1 pav.). Be to, klasterinės analizės, atliktos atliekant contig surinkimą, aplinkos virusų virusų rinkinio sudėties, buvo vienodi su rezultatais, gautais analizuojant nesupakuotas sekas (S2 pav.).

Diskusija

Metagenomikos atsiradimas suteikė precedento neturinčią galimybę apibūdinti virusų įvairovę jūrų ekosistemose 4, 29, 32 . Nepaisant to, vis dar yra keletas kliūčių, kurias reikia įveikti norint užfiksuoti tikrąją virusų įvairovę tokiose ekosistemose, įskaitant: i) ribotą žinomų virusų sekų ir genomų skaičių viešosiose duomenų bazėse 29, ii) pakankamą kiekį virusų ir jų DNR. sekvenavimui, ypač naudojant sudėtingas matricas, tokias kaip jūrinės nuosėdos 33, ir iii) sekosravimo platformų ir bioinformatinių priemonių, naudojamų viromų analizei, efektyvumą.

Šiame tyrime mes palyginome turimų bioinformacinių priemonių efektyvumą analizuodami imituojamų duomenų rinkinių ir natūralių giliavandenių nuosėdų virusų rinkinių taksonominę sudėtį. Pastarasis yra didžiausias biomas Žemėje ir pagrindinis virusų bei virusinių infekcijų saugykla 3 ir ten, kur tikimasi, kad agregatų sudėtis bus sudėtinga ir labai įvairi.

Tarp naudojamų bioinformatinių priemonių, NBC ir BLAST algoritmai parodė didžiausią sekų, susijusių su imituotų virusų, sudėtingumą (kaip virusų genomų ir virusų šeimų, naudojamų kiekvienai bibliotekai generuoti, skaičių) skaičių. Vis dėlto, nors BLAST algoritmai taip pat buvo labai veiksmingi teisingai identifikuojant viruso padermes skirtingose ​​modeliuotose metagenomose, NBC pateikė daug mažiau veiksmingų rezultatų, nes daugumos virusų grupių visiškai nebuvo savo anotacijos rezultatuose (ypač RNR virusų šeimų). Tai gali lemti: i) kompozicija pagrįstas požiūris, kurį naudoja NBC, kuris skiriasi nuo panašumu pagrįstos strategijos, kurią naudoja kiti tirti dujotiekiai ir algoritmai, kurie taip pat leidžia nustatyti statistinius parametrus, kad būtų galima įvertinti panašumo reikšmingumą (ty E vertė) ir ii) mažas kompozicijos principų, tokių kaip NBC naudojamas trumpomis sekomis, efektyvumas (<1 Kb 34 ). Be to, NBC numato priklausymą kiekvienai įvestai virusų sekai, net kai naudojama pamatinė duomenų bazė, kurioje nėra jokio viruso genomo (pvz., Sudaryta tik iš bakterijų genomų) (žr. Papildomus rezultatus). Visi šie metodiniai aspektai gali smarkiai paveikti virusinės taksonominės įvairovės vertinimą aplinkos mėginiuose.

Palyginę „MetaVir“, „VMGAP“, „VIROME“ ir „MG-RAST“ veikimą, mes pastebėjome, kad visos šios priemonės parodė mažėjantį virusų sekų ir padermių identifikavimo efektyvumą didėjant nagrinėjamų virusų sudėtingumui. Tačiau „MetaVir“ ir VMGAP jautrumas buvo didesnis nei VIROME ir MG-RAST, ypač virusinėms šeimoms, užkrečiančioms eukariotus. Iš tiesų, MG-RAST ir VIROME negalėjo nustatyti kamienų, priklausančių kai kurioms virusų šeimoms, įskaitant Herpesviridae ir Phycodnaviridae . Kadangi mes naudojome tą pačią „RefSeq“ duomenų bazę kaip nuorodą į „MG-RAST“, „MetaVir“ ir BLAST algoritmus, atmetėme, kad žemą „MG-RAST“ efektyvumą gali lemti atskaitos duomenų bazės parinkimas. „MG-RAST“, „VIROME“ ir „VMGAP“ vienodai remiasi ORF radimo algoritmais, sukurtais prokariotinių genų radimui 26, 27, 28, kurie identifikuoja ORF prieš jų taksonominę anotaciją. Tačiau tiek VMGAP, tiek VIROME naudoja „MetaGene Annotator“, kad surastų ORF 28, kurių specifiškumas buvo didesnis nei programinės įrangos, kurią naudoja „MG-RAST“, „FragGeneScan 35“ . Be to, VMGAP taip pat integruoja šešių kadrų vertėją į „MetaGene Annotator“ ir šis papildomas žingsnis, užfiksuojantis visus tikrus atvirus skaitymo rėmus 36, galėtų būti didesnio anotacijos našumo priežastis nei „MG-RAST“ ir „VIROME“.

Apskritai, imituotų virusų analizės rezultatai rodo, kad BLAST įrankiai, po kurių eina dujotiekis „MetaVir“ ir „VMGAP“, yra patikimesni virusų sekų paskirstymui, palyginti su kitomis bioinformatinėmis priemonėmis. Tokiems rezultatams įtakos neturi imituotos metagenominės bibliotekos naudojimas, nes, identifikuojant virusų sekas ir padermes, efektyvumas nepakito, kai buvo sujungtos aplinkos ir imituotos viromos.

Bioinformatinės virusinių aplinkos metagenomų analizės parodė, kad NBC pateikė daug daugiau susijusių sekų (apie 100%) nei visos kitos tiriamos viromos. Tačiau, kaip paaiškėjo iš imituotų virusų analizės, NBC nustatė labai mažą viruso padermių skaičių ir neteisingai priskyrė didelę sekų ir padermių dalį (pvz., Phycodnaviridae , Polydnaviridae ), taip parodydama, kad toks įrankis nėra efektyvus analizuojant įvairovę. natūralių virusų rinkinių.

MG-RAST algoritmai parodė labai ribotas galimybes identifikuoti virusų sekas ir padermes visose tiriamose aplinkos viromose, gautose imituojamoms metagenomoms gauti. Visų pirma, mes patvirtinome, kad kelios virusų šeimos, įskaitant virusus, užkrečiančius eukariotus, buvo apleistos aplinkos viromose. „MetaVir“, „VMGAP“ ir „VIROME“ parodė panašų sekų, susijusių su visomis aplinkos viromomis, skaičių, tačiau „MetaVir“ identifikuotų virusinių padermių skaičius buvo didesnis.

BLAST algoritmai pateikė labai patikimus ir nuoseklius rezultatus tarp imituotų virusų metagenomų, bet ne analizuojant aplinkos viromus. Iš tiesų virusų sekų ir padermių komentarai buvo labai skirtingi, kai skirtingi BLAST algoritmai buvo taikomi tam pačiam viromui, kaip paaiškėjo ir klasterių analizėje. Šie skirtumai gali atsirasti dėl didesnio „Megablast“ griežtumo, palyginti su BLASTn ir tBLASTx, dėl ko labai mažas efektyvumas identifikuojant aplinkos viruso padermes, kurios nėra griežtai susijusios su virusų genomais, duomenų bazėje. Atvirkščiai, „tBLASTx“ leidžia identifikuoti nutolusius ryšius tarp sekų, nes prieš palyginimą su 31 duomenų baze jis taip pat atlieka šešių kadrų užklausų sekų vertimą į baltymus. Be to, „tBLASTx“ pateikė daugiau panašių rezultatų, gautų naudojant „MetaVir“, kai jie buvo naudojami aplinkos viromose (tiek identifikuojant viruso sekas, tiek padermes kiekvienai analizuojamai viromai;> 90%), nei naudojant kitus BLAST algoritmus. Tokie rezultatai, pagrįsti nesupakuotų sekų analize, nepriklausė nuo naudojamos bioinformatinės strategijos, nes panašius rezultatus gavome net tada, kai buvo naudojami surinkti kontigai (S2 pav.).

Metaviras ir tBLASTx taip pat nustatė platesnį virusų šeimų spektrą nei visos kitos aplinkos viromose esančios priemonės, pasižyminčios geresne skiriamąja galia, ypač kamienams, priklausantiems Caudovirales ( Myoviridae , Siphoviridae ir Podoviridae ), Phycodnaviridae , neklasifikuotiems archeologiniams dsDNR virusams ir neklasifikuotiems dsDNR. Didesnėje Caudovirales ir Phycodnaviridae virusų sekų skiriamoji geba taip pat buvo nuolat stebima modeliuojamuose duomenų rinkiniuose.

Visose aplinkos viromose nustatyta virusų grupių, užkrečiančių eukariotus, tokių kaip Phycodnaviridae ir Circoviridae, buvimas. Kadangi sekos, susijusios su virusais, užkrečiančiais eukariotus, buvo teisingai identifikuotos modeliuotose viromose, naudojant MetaVir ir BLAST algoritmus, mes manome, kad aplinkos viromose identifikuotos padermės iš tikrųjų gali būti susijusios su virusais, užkrečiančiais eukariotus. Virusai, susiję su Phycodnaviridae (ty užkrečiantys dumblius), gali būti tiekiami į giliavandenius dugną per daleles, nusėdančias iš foninės zonos, o Circoviridae buvimas taip pat gali būti susijęs su metazoanų šeimininkais (pvz., Vėžiagyviais 37 ), gyvenančiais bentoso giliavandenėse jūrose. ekosistemos.

Apskritai, gauti rezultatai rodo, kad aplinkos informacijos virusų metagenomų analizei parinktos bioinformacinės priemonės gali stipriai paveikti virusų įvairovę natūraliose ekosistemose. Mūsų išvados taip pat atskleidžia, kad „tBLASTx“ ir „MetaVir“ yra tinkamiausios priemonės virusų rinkinių sudėčiai giliavandenėse ekosistemose analizuoti. Taigi jiems turėtų būti teikiama pirmenybė tyrinėjant natūralių virusų rinkinių įvairovę ir siekiant geriau suprasti jų ryšius su šeimininko įvairove ir ekosistemų funkcionavimu.

Metodai

Tyrimo sritys ir mėginių rinkimas

Nepažeisti nuosėdų mėginiai buvo imami naudojant daugiagyslį branduolį keturiose giliavandenėse vietose nuo 1970 m iki 5500 m gylyje. Viena mėginių ėmimo vieta buvo Juodojoje jūroje 1970 m gylyje (42 ° 59 ′ 54, 204 ″ šiaurės platumos, 31 ° 30 ′ 58, 644 ″ rytų ilgio (toliau - Juodoji jūra)), dviejose vietose NE Atlanto vandenyne išilgai Portugalijos pakraščio (39 °). 30 ′ 24, 18 ″ šiaurės platumos, 9 ° 50 ′ 0, 604 ″ rytų ilgumos 3400 m gylyje ir 41 ° 43 ′ 51, 2394 ″ šiaurės platumos, 10 ° 40 ′ 56, 568 ″ šiaurės platumos 3000 m gylyje (toliau apibrėžta atitinkamai NE Atlanto 1 ir NE Atlanto 2), ir viena vieta Arkties vandenyne 5500 m gylyje (79 ° 8 ′ 0, 5994 ″ šiaurės platumos, 2 ° 50 ′ 32, 2794 ″ rytų ilgumos, toliau - Arktis). Po gavimo 1 cm viršutinio nuosėdų pavyzdžiai buvo paimti sterilia mentele ir laikomi –80 ° C temperatūroje iki laboratorinių tyrimų. Anoksinių nuosėdų mėginiai, surinkti Juodojoje jūroje, buvo apdoroti (ir vėliau analizuojami) griežtai anaerobinėmis sąlygomis (N 2 atmosfera).

Virusinių dalelių atstatymas iš nuosėdų

Neužteršta viruso DNR, tinkama sekų analizei, buvo surinkta iš nuosėdų mėginių, po viruso dalelių atskyrimo fizikiniu ir cheminiu būdu, siekiant pašalinti virusus iš nuosėdų matricos 38, 39, 40, su kai kuriomis modifikacijomis. Penkiasdešimt gramų nuosėdų praskiedžiamos 50 ml autoklave neužkrėsto jūros vandens (iš anksto filtruoto per 0, 02 μm porų dydžio filtrus) ir homogenizuojamos maišant 10 minučių. Suspensija buvo padalinta į 2 ml alikvotas 50 steriliuose mėgintuvėliuose ir kiekviena alikvotinė dalis buvo įpilta į 8 ml jūros viruso neturintį jūros vandenį (10 ml galutinio tūrio), kuriame buvo tetranatrio pirofosfatas (galutinė koncentracija 5 mM).

Mėginiai buvo inkubuojami 15 minučių tamsoje, o po to ultragarso vonioje ultragarso vonelėje ultragarso vonelėje 3 kartus po 1 minutę, po kiekvieno ciklo - 30 sekundžių rankiniu būdu purtant (Bransonic Branson 3510). Tada pavyzdžiai buvo centrifuguoti 800 x g greičiu 10 minučių, kad sumažėtų suspenduotų dalelių sukeliami trukdžiai, ir supernatantai buvo išgauti. Nuosėdos vėl buvo homogenizuotos jūrų vandenyje be virusų ir centrifuguotos (800 x g 10 minučių). Šis žingsnis buvo pakartotas dar du kartus. Visi supernatantai (galutinis tūris apie 600 ml) buvo sujungti ir filtruojami per 0, 2 μm porų dydžio filtrus (Millipore). Supernatantai buvo apdoroti DNazėmis (5 V ml –1 ), kad būtų pašalinta tarpląstelinė DNR. Norint patikrinti galimą prokariotinį užteršimą ir įvertinti viruso dalelių ekstrahavimo efektyvumą iš nuosėdų, 0, 2 μm iš anksto filtruotų mėginių alikvotinės dalys buvo praskiedžiamos jūros virusu, be dažų, SYBR Gold ir analizuojamos epifluorescencine mikroskopija 40 .

Virusinės DNR ekstrakcija, amplifikacija ir sekos nustatymas

Virusai buvo sukoncentruoti į 0, 02 μm filtrus vakuuminiu būdu. Kiekvienas filtras buvo įpiltas be viruso, kuriame nėra milQ vandens, ir ultragarsu (tris kartus 1 minutę, po kiekvieno ciklo 30 sek. Rankiniu būdu purtant), kad būtų atskirtos viruso dalelės. Virusinė DNR buvo išgauta ir išgryninta remiantis Sambrook et al . 41 su kai kuriomis modifikacijomis. Trumpai tariant, kiekvienas filtras vieną valandą buvo inkubuojamas 56 ° C temperatūroje su 20 mM EDTA, 10% SDS ir 50 μg ml −1 proteinazės K. Virusinė DNR buvo išgryninta per du paskesnius fenolio-chloroformo apdorojimo etapus, po to nusodinant izopropanolį. Virusinė DNR buvo kiekybiškai įvertinta fluorometriniu būdu (NanoDrop 3300) naudojant SYBR Gold 19 . Norint pasiekti reikiamą DNR kiekį, reikalingą pirosekventavimui, pakartoti viruso DNR mėginiai (n = 3) buvo amplifikuoti naudojant „GenomiPhi V2 kit“ („GE Healthcare“). Surinktos replikacijos buvo išgrynintos naudojant Wizard PCR ir gelio valymo rinkinį (Promega). Prieš atliekant pirosekvinimą, viruso DNR mėginiuose buvo patikrintas galimas užterštumas dėl prokariotinių ir eukariotinių DNR, atliekant PGR, nukreipiančius į 16S ir 18S rRNR genus, ir gelio elektroforezės analizę. Visi mėginiai išlaikė kokybės patikrą.

Virusinės DNR bibliotekos buvo paruoštos ir sekos surinktos MIT plačiame institute ir Harvarde, naudojant 454 FLX titano platformą. Sekavimo artefaktai ir žemos kokybės sekos buvo pašalinti naudojant PRINSEQ programinę įrangą 42, o gautos aukštos kokybės skaitymai buvo analizuojami MG-RAST v3 serveriu 26 .

Imituotų virome duomenų rinkinių generavimas

Silicijoje buvo sukurtos keturios imituojamos virusinės metagenomos, naudojant šautuvo sekos imitatorių Grinder 43 su šiais parametrais: 450 bp sekos ilgio, 50 bp nuokrypio, 454 klaidos režimo. Imituoti metagenomai, kurių kiekvienoje yra po 10 5 sekų, buvo sukurti atitinkamai „RefSeq“ duomenų bazėje naudojant 1000, 500 ir 50 atsitiktinai parinktų virusų genomų (čia apibrėžti 1000G, 500G ir 50G), neįtraukiant galimų nevirusinių teršalų (dažniausiai aptinkamų aplinkos viromai; 21). Skirtingas viruso genomų, priklausančių skirtingiems kamienams, skaičius buvo pasirinktas siekiant įvertinti skirtingų virusų sudėtingumo lygių įtaką tirtų bioinformatinių priemonių anotacijos efektyvumui.

Buvo sukurtas kitas imituotas viromas, kuriame yra 50000 sekų, su tais pačiais parametrais, kaip ir kitoms imituotoms viromoms, su 14 Circoviridae genomų (čia apibrėžta 14C). Circoviridae šeimos genomai buvo parinkti todėl, kad jie turi du bruožus turinčius genus 44, priklausančius išskirtinai tokiems virusams (pvz., Be homologų prokariotiniuose ir eukariotiniuose genomuose), taigi tai yra papildomas tyrimas, norint įvertinti vamzdynų patikimumą teisingai identifikuoti virusų sekas.

Norėdami patikrinti NBC efektyvumą sekų priskyrimo metu, sukūrėme dvi papildomas duomenų bazes (išsamesnės informacijos žr. Papildomoje informacijoje).

Galiausiai, norėdami įvertinti, ar modeliuotų analizių rezultatai gali atspindėti aplinkos viromų rezultatus, atlikome papildomą analizę, sujungdami 1000G modeliuojamą viromą su aplinkos viromu, pagamintu iš NE Atlanto 1.

Bioinforminės analizės, naudojamos imituotoms ir aplinkos viromoms

Virusų sekos ir genomai buvo komentuojami modeliuotuose ir aplinkos virumuose, naudojant skirtingas bioinformatikos priemones. Pirmiausia tokios bioinformatikos priemonės buvo naudojamos virusų sekoms, identifikuojamoms imituotose metagenomose, įvertinti. Tada įvertinome kiekvieno įrankio teisingai anotuotų virusų genomų procentą. Imituotuose virusuose, kuriuose yra 1000 genomų (1000G), mes taip pat apskaičiavome teisingai nustatytų virusų rodmenų ir genomų procentinę dalį kiekvienoje virusų šeimoje (jų dalis sudaro> 1, 0% agregato), remiantis bendru sekų ir genomų, priklausančių kiekvienai virusinei šeimai. Galiausiai viruso sekoms ir genomams aplinkos viromose identifikuoti buvo naudojamos tos pačios bioinformatikos priemonės.

Sekos buvo lyginamos su „RefSeq“ viruso genomo duomenų baze (išleidimo data: 2015 m. Birželio 5 d.) Naudojant BLAST + programos v.2.2.3 30 komplektą, lokaliai įdiegtą, naudojant tBLASTx, BLASTn ir Megablast algoritmus. Tikrinti tinklo vamzdynai buvo „MG-RAST 26“, „MetaVir 22“, „VMGAP 28“, „NBC 31“ ir „VIROME 27“ . VMGAP dujotiekis buvo panaudotas padedant J. Craigo Venterio institutui, o kiti vamzdynai yra laisvai prieinami internete.

„MG-RAST“ suderinimai buvo atlikti su „RefSeq“ duomenų baze, siekiant atlikti taksonominę analizę. Kaip analizės parametrai buvo naudojami E vertės ribos 10–5, mažiausio tapatumo ribos 60% ir mažiausias suderinimo ilgis 15 bp 26 . Buvo išbandyti mažiausiai paplitusių protėvių, geriausios atitikties ir reprezentacinių įvertinimų algoritmai (toliau apibrėžiami kaip LCA, BH ir RH).

VMGAP metu metagenominiai rodmenys buvo pakartotinai ieškomi iš kelių duomenų bazių (TIGRFAM, ACLAME, PFAM, nr, CDD ir aplinkos baltymų duomenų bazių) su numatytaisiais parametrais (aprėptis> 70%, tapatumas> 30%, E vertės ribos < 10–10 ir <10 –5 ), naudojant visų „MetaGeneAnnotator“ numatytų ORF vertimus derinant naivius 6 kadrų vertimus 45 . Iteracinės duomenų bazių paieškos leido atlikti funkcijų perskaitymus per keletą taisyklių, siekiant įvertinti, kiek informatyvus, patikimas ir tikslus yra kiekvienos paieškos rezultatas 28 .

„MetaVir 22“ leidžia taksonomiškai identifikuoti virusų sekas, naudojant įrankį GAAS 23, palyginti rodmenis su „RefSeq“ duomenų baze ir normalizuoti kiekvieno taksono genomo ilgio rezultatus. Skaitymai buvo perduoti per „MetaVir“ dujotiekį ir paieškoti „RefSeq“ duomenų bazėje su GAAS, o kiekvieno skaitymo taksonominis ryšys buvo apskaičiuotas naudojant E vertės ribą 10–5 .

Naivus Bajeso klasifikatoriaus įrankis (čia apibrėžta NBC 31 ) buvo naudojamas identifikuoti virusų sekas, palyginant jų n-mer dažnio profilius su virusų genomų profiliais, prieinamais duomenų bazėse, pateiktose jos internetiniame serveryje, kurių n-mer ilgis yra 9.

„VIROME“ vamzdynas 27 leidžia klasifikuoti virusų sekas keliose skirtingose ​​taksonominėse ir funkcinėse („UniRef 100“) bei aplinkosaugos („MetaGenomes OnLine“) duomenų bazėse; buvo apskaičiuota parodymų taksonominė priklausomybė, kai E vertės ribos buvo 10–5 .

Aplinkos viromose nebuvo įtrauktos virusų šeimos, kurios vidutiniškai sudaro mažiau nei 0, 01% agregatų. Tada sekų indėlis į virusų šeimas ir padermių gausa kiekvienoje šeimoje kiekviename aplinkos mėginyje buvo panaudotos klasterių analizei (naudojant pilną ryšį) remiantis Bray-Curtis panašumu, naudojant PRIMER-E 6 programinę įrangą.

Pataisytų genomų identifikavimo iš imituotos bibliotekos kartu su aplinkos viromais įvertinimas buvo atliktas naudojant BLAST ir MG-RAST algoritmus ir MetaVir.

Aplinkos pavyzdžių gautos sekos taip pat buvo surinktos, kad būtų galima palyginti su neišardytų sekų analize su tomis pačiomis bioinformatinėmis priemonėmis. Surinkimas buvo atliktas naudojant „Newbler“ programinę įrangą (2.6 v.) Su šiais parametrais: 90% tapatumo, 40 bp mažiausio suderinimo 46 . Po surinkimo sekos buvo kokybiškai sutvarkytos naudojant PRINSEQ 44 ir įkeltos į MetaVir žiniatinklio serverį 22 kaip besitęsiančias sekas.

Duomenų prieinamumas

Raw DNA sequences obtained by pyrosequencing can be accessed through the iMicrobe portal under the names CAM_SMPL_000835 ("VASVAL242/1"), CAM_SMPL_000842 ("VAGALB1/1"), CAM_SMPL_000843 ("VAWC1/1") and CAM_SMPL_000799 ("Black Sea Sediment Metagenome") within the Moore Marine Phage/Virus Metagenomes project. Viral sequences from NE Atlantic site 2 sample are available on MetaVir under the project EXPLODIVE under the name "Atlantic – Viral."

Papildoma informacija

How to cite this article : Tangherlini, M. et al . Assessing viral taxonomic composition in benthic marine ecosystems: reliability and efficiency of different bioinformatic tools for viral metagenomic analyses. Mokslas. Rep. 6, 28428; doi: 10.1038/srep28428 (2016).

Papildoma informacija

„Word“ dokumentai

  1. 1.

    Papildoma informacija

Komentarai

Pateikdami komentarą jūs sutinkate laikytis mūsų taisyklių ir bendruomenės gairių. Jei pastebite ką nors įžeidžiančio ar neatitinkančio mūsų taisyklių ar gairių, pažymėkite, kad tai netinkama.