Žmogaus leukocitų genų raiškos geografinė genomika pietų Maroke | gamtos genetika

Žmogaus leukocitų genų raiškos geografinė genomika pietų Maroke | gamtos genetika

Anonim

Anotacija

Genų ekspresijos genetikos tyrimais galima nustatyti ekspresijos SNP (eSNP), kurie paaiškina nuorašo gausos kitimą. Palyginkime 194 arabų ir amazigiečių asmenis iš miesto ir dviejų kaimų pietų Maroke, nagrinėdami eSNP asociacijų tvirtumą atsižvelgiant į aplinkos geografiją ir gyventojų struktūrą. Genų ekspresija skirtingose ​​vietų porose skyrėsi iki trečdalio visų nuorašų, pastebimai praturtinant transkriptus, dalyvaujančius ribosomų biosintezėje ir oksidaciniame fosforilinime. Leukocitų mėginiuose buvo stebimos stiprios asociacijos: cis eSNP ( P <10 –08 ) buvo nustatyti 346 genams, o trans – eSNP ( P <10 –11 ) - 10 genų. Visos šios asociacijos buvo vienodos tiek trijose imties vietose, tiek kontroliuojant protėvius ir giminingumą. Nebuvo rasta jokių didelio poveikio aplinką skleidžiančių tarpininkaujančių mediatorių; vietoj to genetiniai ir aplinkos veiksniai veikė iš esmės adityviai.

Pagrindinis

Žmonių perėjimas nuo pastoracinio ir kaimo gyvenimo būdo prie miesto padidėjo daugybė lėtinių ligų, tokių kaip astma, diabetas ir vėžys 1 . Aplinkos teršėjai, kuriems gali būti priskiriami mitybos pokyčiai, tarša ir psichologiniai veiksniai, yra tęsiami epidemiologinių tyrimų objektas. Lygiai taip pat įdomu nustatyti, ar keičiasi genetinė įtaka jautrumui ligoms įvairiose aplinkose.

Kadangi paprastai manoma, kad ligos rizika apima diferencijuotą genų ekspresiją 2, mes įvertinome nuorašo gausos tvirtumą atsižvelgiant į aplinkos pokyčius, atlikdami viso genomo asociacijos tyrimą (GWAS) dėl leukocitų genų ekspresijos profilių dviejuose protėviuose trijose vietose. Anksčiau mes pademonstravome, kad aplinkos geografija 3 daro didelę įtaką genų ekspresijai Maroko Amazigh'o individams; Čia pridedame kontrastą su arabų kilmės žmonėmis, leisdami mums patikrinti, ar geografija ir (arba) protėviai daro įtaką kiekvienam iš kelių šimtų tvirtų genotipo ir nuorašo gausos asociacijų.

Rezultatai

Pietų Maroko gyventojų struktūra

Pietiniame Maroko Souss regione gyvena keli milijonai dviejų dominuojančių protėvių žmonių, kurie gyvena arba mieste, arba kaimo kaime (1 pav.). „Amazigh“ berberai yra pirmųjų šiuolaikinių žmonių, gyvenusių Šiaurės Afrikoje prieš 35 000 ar daugiau metų 4, palikuonys, ir daugelis jų vis dar gyvena tradiciniuose kaimuose žemuose Atlaso kalnuose. Arabai, atvirkščiai, septintajame ir vienuoliktajame amžiuose persikėlė į Maroko pietus ir yra linkę užimti žemumų kaimus. Miestai yra apgyvendinti abiejų grupių, dažnai išlaikant kalbinę ir kultūrinę tapatybę.

Image

Du kaimo kaimai, Boutrochas ir Ighremas, yra netoli Tiznito miesto. Miesto vietos, Anza ir Dchiera, yra atitinkamai į šiaurę ir pietus nuo Agadyro miesto.

Visas dydis

2008 m. Birželio ir liepos mėn. Mes surinkome periferinio kraujo mėginius iš 284 sveikų suaugusiųjų iš keturių vietų, įskaitant maždaug vienodą skaičių vyrų ir moterų, taip pat iš Amazigh ir arabų. Pusę imties sudarė dvi didelio tankio, mažas ir vidutines pajamas gaunančios miesto bendruomenės - Anza ir Dchiera, esančios abiejose Agadyro miesto pusėse. Kita pusė buvo iš dviejų kaimo kaimų netoli Tiznito, 120 km į pietus. „Boutroch“ yra daugiausia „Amazigh“ ir išlieka gana izoliuotas, o Ighremas yra daugiausia arabų ir (remiantis savarankiška informacija ir mūsų pastebėjimais kolekcijos vietoje) daugelis vyrų, visų pirma, važiuoja į miestus.

Kraujo mėginių ėmimo metu leukocitai buvo išskirti iš serumo, trombocitų ir eritrocitų, naudojant 5 išeikvojimo filtro technologiją, ir fiksuoti RNALater tirpale per kelias minutes po kraujo paėmimo. Genų ekspresijos profiliai buvo gauti iš 208 aukštos kokybės RNR mėginių, naudojant „Illumina HumanHT12“ granulių matricas, kuriose yra 48 804 zondai, iš kurių 22 300 „RefSeq“ zondų, skirtų 16 738 genams, buvo laikomi turinčiais signalą virš fono. Siekiant kuo labiau sumažinti partijos poveikį, visi mėginiai buvo apdoroti tą pačią savaitę, o ekstrahavimo, ženklinimo ir hibridizacijos žingsniai buvo atlikti pagal atsitiktinių imčių schemą. Viso genomo genotipai buvo gauti iš viso kraujo mėginių, naudojant „Illumina Human 610-Quad“ matricas. Pritaikius kokybės kontrolės filtrus, 194 asmenims, kurie taip pat turėjo genų ekspresijos profilius, buvo galima įsigyti 516 972 SNP.

Populiacijos struktūra buvo įvertinta tiriant pagrindinius genotipo profilių dispersijos komponentus naudojant Eigenstrat programinę įrangą 6 . Pirminis tyrimas atskleidė keletą seserų ir kitų artimų giminaičių (pusbrolių ar panašių) grupių, kurių panašumas pasuko ašis; kur buvo duomenų, šios tapatybės sutapo su dalyvio įrašais. Pašalinus šiuos giminaičius, atlikus 163 nesusijusių asmenų analizę, paaiškėjo septyni reikšmingi savivektoriai (arba genotipinės pagrindinių komponentų ašys, gPC). Nei vienas iš jų nepaaiškino daugiau kaip 5% dispersijos, o gPC3 – gPC7 buvo stipriai pasverti didelėmis SNP grupėmis vienoje ar keliose chromosomose. Tokios ašys dažniausiai stebimos ir nepateikia patikimų 7, 8 populiacijos struktūros įvertinimų visame genome, tačiau ypač gPC3 išskiria Ighrem iš kitų vietų (papildomas 1a pav.).

Pirmųjų dviejų savivektorių diagramoje pabrėžiama pagrindinė istorinė įtaka pietų Maroko gyventojų struktūrai (2a pav.). gPC1 atskiria tik keliolika asmenų, ir mes padarėme išvadą, kad ši ašis atspindi Afrikos į pietus nuo Sacharos indėlį, atitinkantį numatomą priemaišos lygį Maroke, atlikdami analizę, apimančią 21 jorubiečių individą (papildomas 1b pav.). gPC2 yra labai koreliuojamas tiek su vieta, tiek su protėviais, apie kuriuos pranešta pats; taigi padarėme išvadą, kad jis apima pagrindinį Arabų-Amazigho protėvių komponentą.

Image

a ) 579144 SNP pagrindinio komponento Eigenstrat analizė atskleidė septynis reikšmingus savivektorius, iš kurių pirmieji du, atitinkamai paaiškinantys tik 1, 3 ir 0, 8% genotipinio dispersijos, nubraižyti. Protėviai buvo gauti savarankiškai. Trys asmenys, turintys neaiškią protėvį, galbūt ir į pietus nuo Sacharos paveldo, turi aukštą gPC1 vertę, kuri būdinga jorubiečių protėviams (papildomas 1b pav.). b ) 16 000 autosominių SNP struktūros analizė, darant prielaidą, kad trys populiacijos ( k = 3) ir naudojant mišinio modelį su koreliuojamais alelių dažniais, išryškina tuos pačius asmenis, turinčius dideles gPC1 reikšmes (rudos juostos), ir parodo, kad „Boutroch Amazigh“ daugiausia yra gaunami iš vieno populiacijos grupė (šviesiai mėlyna), o visi kiti mėginiai yra dviejų populiacijų mišinys, pavaizduotas raudona ir mėlyna juostomis.

Visas dydis

Netikėtas šios analizės aspektas yra Ighremo arabų padėtis tarp „Boutroch Amazigh“ ir pusės Agadiro arabų išilgai gPC2. Struktūros analizė 9 iš 16 000 atsitiktinai parinktų autosominių SNP, darant prielaidą, kad yra sumaišytos dvi protėvių populiacijos (2b pav.), Patvirtino, kad Ighremo gyventojai paprastai yra mišiniai, tuo tarpu dauguma amazigų yra iš vienos populiacijos, o tik keli Agadiro arabai atstovauja kitai. Taigi tikriausiai tarp šių dviejų grupių per ilgą laiką buvo sumaišyta, galbūt dėl ​​neseniai arabų persikėlimo iš kitų vietų į Agadyrą. Nedidelis Ighremo arabų poslinkis link gPC2 amazigh poliaus, palyginti su Agadiro arabais, taip pat atitiktų genetinius mainus tarp kaimų, kuriuose gyvena daugiau kaip 50 kartų. Tolesni regiono kaimų pavyzdžiai gali parodyti subtilią Maroko pietų gyventojų struktūrą 10, 11, 12, 13 .

Regioninė genų raiškos diferenciacija

Toliau mes išbandėme, ar regionas, vieta ir protėviai turi įtakos genų ekspresijos profiliams, ir ar jie tai daro atsižvelgiant į lytį. Kadangi kaimuose yra nesusiję vietovės ir protėviai, buvo atlikta keletas lygiagrečių analizių, kad būtų galima atskirti šiuos padarinius. Transkripto gausos duomenys buvo transformuoti medianiniu būdu susitelkiant į log 2 skalę (papildomas 2 pav.), O tai lemia maksimalų profilių sutapimą nepakeisdami jų dispersijos.

Genui būdinga dispersijos analizė (ANOVA) 14 su raiška kaip regiono, lyties ir jų sąveikos funkcija, nustatė 1521 zondą, reikšmingą esant klaidingam atradimų dažniui (FDR) 1% ( P <0, 0007). Regiono, būtent kaimo („Boutroch“ ir „Ighrem“) ir miesto („Anza“ bei „Dchiera“) palyginimas yra pagrindinis šios bendros analizės poveikis. Beveik 7% visų išreikštų genų išskiria šiuos asmenis pagal šį konservatyvų kriterijų, tuo tarpu žymiai mažiau nei 1% zondų turi lyčių skirtumus (pilnas genų sąrašas pateiktas 1 papildomoje lentelėje). Tarp kelių genų klasių, kurių reprezentuojami palyginus šį gyvenimo būdą, išsiskiria maži branduoliniai RNR genai: 5 iš 8 geriausių 8 ir 15 iš 29 SNORD šeimos narių yra labai reikšmingų sąraše, palyginti su tik 1 iš 10 SNORA genų. Literatūroje mažai kas nurodo, kodėl taip yra, ar kokios gali būti fiziologinės pasekmės, tačiau epigenetinė modifikacija buvo pastebėta daugeliui mažų branduolių RNR genų 15 .

Dar didesnis diferenciacija buvo pastebėtas, kai pritaikėme ANOVA modelius, įskaitant vietą, lytį ir jų sąveiką. Kadangi žvalgomosios analizės parodė, kad Anza ir Dchiera mėginiai neišskiriami nei genų ekspresijai, nei genotipui, šie mėginiai buvo sujungti į vieną vietą, Agadiras, atliekant visas vėlesnes analizes. Atliekant trijų krypčių palyginimą, 8 459 zondai (38%) buvo reikšmingi esant 1% FDR slenksčio vietai (2 papildoma lentelė). „Boutroch“ skiriasi nuo Ighremo ir Agadiro, kai kiekviename kontraste yra daugiau kaip 7000 zondų, su dideliu persidengimo laipsniu (3a pav. Ir 1 lentelė). Ighremas ir Agadiras yra daug panašesni vienas į kitą iš dalies todėl, kad Ighremo pavyzdyje yra žymiai daugiau įvairovės, dėl kurios sumažėja vietos kontrasto reikšmingumas. Moterys yra žymiai diferencijuotos skirtingose ​​vietose nei vyrai (1 lentelė). Šie rezultatai patvirtina mūsų ankstesnį pranešimą apie esminį skirtumą tarp beduinų klajoklių, Anzos miesto ir kito atokiojo Amazighio kaimo Sebt Nabor 3 .

Image

a ) Genų, turinčių reikšmingą 1% FDR ANOVA, skaičiaus venų diagrama iš trijų nurodytų porų palyginimų. b, c ) 118 Agadiro ( b ) gyventojų raiškos variacijos komponentai (išskyrus devynis asmenis, kurių gPC1 balai yra labai teigiami, įskaitant protėvių perskirstymą pagal gPC2 tik 11 asmenų, palyginti su savęs ataskaita; 5 papildoma lentelė) ), kur protėviai modeliuojami kaip genotipo variacijos gPC2, kaip parodyta 1a paveiksle, arba visiems 22 300 zondų, gautų iš viso 208 asmenų mėginio ( c ).

Visas dydis

Pilno dydžio lentelė

Norėdami atidžiau įvertinti galimą savarankišką protėvių indėlį, atlikome išraiškos variacijos dispersijos komponentų analizę. Vien Agadire nėra nei protėvių (modeliuotų kaip antrasis genotipo duomenų gPC2 savivektorius), nei lyties pastebimo poveikio pagrindiniams išraiškos variacijos komponentams (3b pav.). Vis dėlto bendrame duomenų rinkinyje yra įrodymų apie indėlį: protėvių ir protėvių bei lyties sąveikos terminai, kai jie derinami su vieta, žymiai prisideda prie išraiškos profilių (3c pav.).

Nors lytis ir protėviai daro įtaką mažiau genų raiškai, palyginti su vieta, PC2 ekspresijos grafikas, išreikštas diferencialiai išreikštais 1500 genais, rodo, kad daugelio genų sąveika tarp šių trijų veiksnių yra sudėtinga (4 pav.). Šis sudėtingumas taip pat pastebimas būdingų atskirų genų raiškos profiliuose (papildomas 3 pav.). Apskritai, „Boutroch“ ir „Ighrem“ kaimiečiai atsiskiria nuo PC1, tuo tarpu didelės PC2 vertės yra nustatomos visiems „Boutroch“ gyventojams (1 klasteris) ir arabų moterims Ighrem (2 klasteris). „Amazigh“ moterų iš Ighrem (3 klasteris) ir Ighrem vyrų (4 klasterio) PC2 vertės yra mažesnės, panašios į tas, kurias stebėjo visi Agadyro gyventojai. Paprasčiausias aiškinimas yra tas, kad kultūriniai ar elgesio skirtumai, turbūt įskaitant laiką, praleistą už kaimo ribų, stipriai prisideda prie stebimo lyties ir protėvių poveikio. Reikėtų gilesnio mėginių ėmimo, kad būtų galima tvirtai nustatyti, ar būdingi biologiniai skirtumai tarp lyčių ir (arba) populiacijų taip pat reikšmingai prisideda prie limfocitų raiškos skirtumų, kaip, atrodo, tai daro limfoblastų ląstelių linijos, išaugintos kultūroje 16, 17, 18, 19 .

Image

Du pagrindiniai 1500 reikšmingiausių genų ekspresijos komponentai rodo reikšmingą asmenų atskyrimą pagal vietą (PC1 ir PC2) ir lytį (PC2; visi P <0, 0001). Asmenys iš „Boutroch“ yra mėlyni, Ighrem yra raudoni ir Agadiras yra žali. Arabai yra pažymėti užpildytais apskritimais, „Amazigh“ yra atviri apskritimai, o vyrai yra lengvesni kiekvienos spalvos simboliai. Ighremo ir arabų moterys (1 ir 2 klasteriai) skiriasi nuo „Amazigh“ moterų ir arabų vyrai nuo Ighrem (3 ir 4 klasteriai), kurie yra arčiau Agadiro gyventojų. Jei „Boutroch“ gyventojai ir Ighremo arabų moterys yra grupuojamos ir kontrastingos su Agadyro gyventojais, Ighremo Amazigho moterimis ir Ighremo vyrais, 8 239 genai yra žymiai diferencijuoti 1% FDR greičiu, daugiau nei bet koks porų palyginimas pagal vietas. Panašus visų genų grafikas parodytas papildomame 11 paveiksle.

Visas dydis

Dvi genų klasės išsiskiria reikšmingai skirtingai išreikštomis vietomis: būtent tos, kurios koduoja mažo ir didžiojo subvienetų ribosominius baltymus, taip pat citoplazminius ir mitochondrinius skyrius; ir tuos, kurie koduoja baltymus, susijusius su oksidaciniu fosforilinimu, kurie yra labai sureguliuoti pusėje Agadiro gyventojų (papildomas 4a pav.). Visi nuorašai, koduojantys šiuos baltymus, sudaro kartu reguliuojamų genų modulį, tačiau ypač šis modulis nėra ekspresuojamas kartu su SNORD šeima, kuri paprastai yra santykinai nepakankamai sureguliuota Agadiro asmenims, bet ypač gerai išreikšta arabų moterims iš Ighrem (Papildomas pav. 4b). Šie skirtumai gali atspindėti skirtingą leukocitų ląstelių tipų gausą, tačiau ribosomų biosintezė taip pat yra susijusi su atsaku į virusinę infekciją ir atrodo, kad ji dalyvauja augliogenezėje kartu su mitochondrijų aktyvumu 20, 21 . Oksidacinis fosforilinimas yra susijęs su inkstų sveikata ir laisvųjų radikalų gamyba ar pašalinimu 22 ; Taigi, mūsų duomenys rodo, kad giliau įvertinus su gyvenimo būdo pokyčiais susijusią riziką sveikatai, gali paaiškėti.

Genomo asociacija su genų ekspresijos variacija

Genetinis indėlis į raiškos kitimą buvo įvertintas atsižvelgiant į genomo ryšį su visų 22 300 zondų ekspresija. Pradėję nuo paprasto koreliacijos tarp kiekvieno nuorašo gausos ir kiekvieno genotipo tyrimo ir filtravimo, kad išlaikytume tik eSNP, kurių mažasis alelių dažnis yra didesnis nei 0, 05, mes pastebėjome 3, 430 asociacijas P <10 −8 . Tolesnis eSNP filtravimas, kad būtų išsaugotos tik autosominės asociacijos su anotuojamais genais, ir nustatant papildomą griežtumą P <10 −11 spėjamoms trans- asociacijoms tarp eSNP vienoje chromosomoje ir zondo kitoje chromosomoje, sumažino šį skaičių iki 1636 asociacijų: 1569 (1569). 96%) iš šių asociacijų yra vidinės chromosomos jungtys ir dauguma jų yra per 50 kb ir todėl veikia cis (papildomas 5 pav.); tik trys aiškiai skiriasi skirtingais chromosomų intervalais. Faksimiliniai ryšiai buvo stebimi 39-iems taikinių genams, atstovaujamiems antruoju zondu (37 cis , 2 trans ). Sumažinus duomenų rinkinį, kad būtų pašalintos susietos asociacijos haplotipų blokuose, liko 346 unikalios cis ir dešimt unikalių trans asociacijų, turinčių griežtą 5% genomo reikšmingumo lygį. Šios proporcijos gerai dera su daugeliu kitų GWAS ekspresijos tyrimų su kraujo ar limfocitų ląstelių linijomis 16, 17, 23, 24, 25, 26, o 30 kartų ar didesnis cis perteklius, palyginti su trans asociacijomis, taip pat palaikomas 1% FDR atitinkamai 600 ir 20 genų įvertinimai (visą cis ir trans asociacijų smailių sąrašą žr. 3 papildomoje lentelėje).

Atsižvelgiant į aukštą populiacijos struktūros laipsnį genų ekspresijai, mes atkreipėme dėmesį į galimybę, kad eSNP alelių dažnio diferenciacija gali prisidėti prie stebimų asociacijų, įvertinant variacijos dalį subpopuliacijose ( F ST ) kiekvienam poros būdu palyginus 516, 972 vietos. SNP ir 16 500 genų. Nebuvo pastebėta jokių fiksuotų skirtumų, o F ST palyginimų brėžiniai (papildomas 6a pav.) Rodo tik vidutinę genetinę diferenciaciją su keliais SNP, kurių F ST vertės yra nuo 0, 12 iki 0, 3. Nėra tendencijos, kad šie pašaliniai rodikliai padidina raiškos diferenciaciją, ir iš tikrųjų beveik visi 10% labiausiai diferencijuotų genų yra vieni mažiausiai genetiškai diferencijuotų. Taip pat nėra jokio ryšio tarp F ST ir genų ekspresijos skirtumų reikšmės (papildomas 6b pav.), Patvirtinantis, kad tarp vietų pastebėti išraiškos skirtumai daugiausia nepriskiriami geno specifiniam alelinio dažnio skirtumui tarp vietų.

3.430 asociacijų tvirtumas atsižvelgiant į aplinkos dispersijos šaltinius ir gyventojų struktūrą buvo papildomai įvertintas pridedant du papildomus linijinius tendencijų modelius. Pirmieji apėmė vietą, lytį ir jų sąveiką. Antrasis apėmė du protėvių matus (pirmuosius tris genotipo savivektorius ir keturių krypčių kategorinį protėvių klasterį, žr. Internetinius metodus), giminingumo matricą, pagrįstą tapatybės pagal kilmę 27 matą, ir lyčių sąveiką su protėvių klasteriu ir genotipu. . 5a, b pav. Parodytas Manheteno asociacijų pagal chromosomų vietą antrasis iš šių modelių grafikas, atitinkamai, ir taikinio cis-trans diagrama, palyginti su eSNP vieta. Genotipo reikšmingumo termino logaritmas yra labai koreliuojamas ( r > 0, 95) tarp abiejų šių modelių ir pradinio koreliacijos bandymo (5c pav. Ir papildomas 7 pav.). Be to, nė viename iš asociacijos tendencijų tyrimų duomenų apie reikšmingą sąveiką pagal genotipą pagal vietovę nėra (5d pav.). Nei protėviai, nei giminingumo dispersijos komponentai nepaaiškina pastebimo išraiškos variacijos dydžio bet kuriame iš nuorašų (papildomas 8 pav.).

Image

a ) Visų 1636 genomo asociacijų Manhatano grafike, kai P < 10–8 (neigiamas P vertės žurnalas, NLP> 8) 3 modeliui, kuris apima genotipo nustatyto protėvio, vietos, giminingumo ir lyties kontrolę. Kiekviena chromosoma žymima skirtinga spalva. Horizontali raudona linija žymi genomo reikšmingumo slenkstį (NLP> 11, 4) trans asociacijoms. Atkreipkite dėmesį, kad dėl daugybinių cis eSNP didžiausio histo suderinamumo komplekso (MHC) komplekso 6-osios chromosomos smailės viršijamos. ( b ) Cis - trans grafikas, rodantis tikslinės nuorašo vietą ir eSNP vietą, nurodant, kad dauguma eSNP yra reguliuojamo nuorašo cis , o NLP> 11, 4 matomos tik 13 trans asociacijų. c ) Aukšta visų eSNP reikšmingumo rodiklių koreliacija, nustatyta paprastu genotipo koreliacija su išraiška (1 modelis) arba patikima protėvių, lyties ir vietos kontrole (3 modelis). d ) Nėra genomo reikšmės sąveikos genotipui pagal vietą genotipui, nesusijusiam su genotipo efektu.

Visas dydis

Sąveikos efektų nebuvimą galima nustatyti vaizduojant išraišką kaip genotipo funkciją, nurodant kiekvienos vietos spalvą kiekvienai asociacijai. Trans asociacijos pavyzdys papildomame 9 paveiksle rodo aiškią padidėjusios AMY1A (1 chromosomos) ekspresijos tendenciją homoseksigotuose , skirtuose ACTG1 gama aktino A aleliui (17 chromosoma), nuosekliai visose trijose vietose, nepaisant nedidelio bendro lokalizacijos poveikio. AMY1A ekspresija yra labai koreliuojama su AMY1B ( r > 0, 8) ir daugelio kitų genų koekspressijos modulyje, tačiau eSNP reguliuoja tik AMY1A , nes tai padvigubai padidina geno raišką. Panašus kito reprezentatyvaus geno ( C21ORF57 ) grafikas rodo labai reikšmingą vietos ir genotipo poveikį cis (6a pav.) (Daugiau pavyzdžių rasite papildomame 9c pav.).

Image

a ) Tipiškas nuorašo ( C21ORF57 , koduojančio numanomą metaloproteinazę) pavyzdys, parodantis reikšmingą skirtumą tarp vietų ( P <10 −5 ) ir cis eSNP ryšį su rs1556337 ( P <10 −13 ), bet neturintis sąveikos efekto priedų modelyje log 2 skalėje. Boutroch (mėlyna) ekspresija yra mažesnė, tuo tarpu genotipas turi pastovų poveikį visose trijose vietose (Ighrem, raudona; Agadiras, žalia). b ) Faktinis ir numatytas grafikas aiškumo dėlei atskiria genotipus pagal vietą. Tarkime, kad liga ar fenotipas matomi tik asmenims, kurių nuorašo gausa yra <1, 0 (santykinėje log 2 skalėje), pažymėta pilka zona. Tada Agadire ir Ighreme beveik visi paveikti asmenys yra AA homozigotai, o Boutroch heterozigotai ir kai kurie GG homozigotai taip pat yra paveikti. Taigi nėra fenotipo, susiliejančio su genais pagal aplinką, sąveikos transkripcijai, nes aplinka perkelia daugiau asmenų į jautrią zoną. Panašūs argumentai būtų taikomi fenotipams su didelėmis išraiškos reikšmėmis ir laipsniškiems, o ne nuo slenksčio priklausantiems bruožams.

Visas dydis

Naujos asociacijos su galimais ligos aleliais

Viename audinyje aptiktos ekspresijos asociacijos gali nustatyti reguliavimo variantus, kurie gali būti aktyvūs kituose audiniuose, tiesiogiai susijusiuose su ligos etiologija . Pavyzdžiui, cis jungtys periferiniame kraujyje yra susijusios su 1 tipo diabeto (T1D) jautrumo lokusu 12q13 chromosomoje. Stipriausias ekspresijos ryšys yra su ribosominio baltymo geno RPS26 transkripcija. Tinklo analizės buvo naudojamos teigti, kad šis genas yra labiau tikėtinas diabetas nei iš pradžių praneštas 28 genas ERBB3 . Tačiau stipriausia T1D asociacija apima SNP, kuris skiriasi nuo to, kuris susijęs su RPS26 ekspresija ir (arba) sujungimu 24 . Mes taip pat nustatėme, kad ta pati eSNP jungčių grupė, kurios centre yra rs10876864, esančiame SUOX gene 35 kb iš RPS26 , taip pat yra susijusi su trans RP su kitais RP26 paralogais (tikriausiai dėl kryžminės hibridizacijos) ir su CCDC4 4 chromosomoje, nors ir siūlomas reikšmingumo lygis P = 3, 5 × 10 –10 . Įdomu tai, kad RPS26 išraiška yra silpnai koreliuojama su ribosomų baltymų, diferencijuojančių vietas, moduliu (papildomas 4b pav.); todėl ši asociacija neprisideda prie ribosomų baltymų genų transkripcijos poveikio aplinkai.

Kitas trans- asociacija susijęs su rs11987927, esančiu MYOM2 8p23, kuris sąveikauja su cinko piršto transkripcijos faktoriaus genu ZNF71 ties 19q13, taip pat su savo MYOM2 transkriptu. Logika rodytų, kad cis asociacija tikriausiai daro įtaką MYOM2 miomezino baltymo, kuris savo ruožtu reguliuoja ZNF71, gausumui ; tačiau trans asociacija yra žymiai stipresnė, o sąlyginės priklausomybės analizė 29, 30 nurodo priešinga kryptimi - tai yra, MYOM2 reguliavimo vieta daro įtaką ZNF71 , kuris vėliau grįžta į MYOM2 nuorašą (papildomas 10 pav.). Šis pavyzdys gali būti įspėjamasis pasakojimas apie sąlyginės priklausomybės rezultatų aiškinimą. Pažymėtina, kad keturiose iš septynių stipriausių trans asociacijų yra reguliuojamas lokusas, apimantis genus, koduojančius struktūrinius baltymus; kiti yra laminino genas LAMA5 (20q13) su oksisteterolį rišančio baltymo genu OSBPL2 , o plekstrino homologijos domeno genas PLEKHM1 (17q21) su kinazės genu MAPK8IP1 .

Dar viena trans asociacija nusipelno dėmesio. Talasemija sergantiems pacientams dažnai stebimas vaisiaus gama hemoglobino ekspresijos pailgėjimas. Mes nustatėme dviejų zondų, aptikiančių hemoglobino genų HBG1 ir HBG2 nuorašus 11p15 , ryšį su rs766432, antruoju cinko piršto proto-onkogeno BCL11A intronu 2p16 , ryšį. Tas pats SNP buvo siejamas su eritrocitų, kuriuose yra išmatuojamas vaisiaus hemoglobinas 31, frakcija, ir nustatyta, kad BCL11A aktyvumo pokyčiai lemia skirtumų tarp gloino pasikeitimo tarp pelių ir žmonių 32 . Kitas SNP BCL11A , rs4671393, buvo siejamas su dviejų BCL11A transkripto izoformų gausa CEU (CEPH Jutos gyventojai su protėviais iš šiaurės ir vakarų Europos pavyzdžių) ir YRI (Joruba Ibadanas, Nigerija) HapMap limfoblastų ląstelių linijomis 33, bet yra nesusiję su BCL11A transkripto gausa mūsų leukocitų duomenyse, rodo, kad BCL11A transliacijos ar baltymų aktyvumo reguliavimas labiau veikia HBG1 ir HBG2 raišką mūsų mėginyje.

Tikriausiai susidomės daugybė cis asociacijų. Mes nuskaitėme GWAS asociacijos duomenų bazę, kad sutaptų mūsų tyrimas ir nustatytos ligos asociacijos, kai p <10 –5 . Iš 1 688 įrašų dešimt apima cis asociacijas, pastebėtas mūsų duomenų rinkinyje, paaiškinančius nuo 15 iki 55% nuorašo variacijos (papildoma 4 lentelė). Penkios iš šių asociacijų yra susijusios su ligos ligomis (reumatoidiniu artritu, celiakija, T1D, opiniu kolitu ir sistemine raudonąja vilklige), penkios - su endofenotipais (baltymų PAFAH1B2 ir ICAM-1, trigliceridų, mažo tankio lipidų cholesterolio ir klubo kaulų). mineralų tankis). Dvi serumo baltymų asociacijos 34, 35 yra su tais pačiais SNP, kuriuos mes aptikome, ir todėl galima manyti, kad baltymų gausa yra iš esmės reguliuojama transkripcijos lygiu.

Diskusija

Genetinis ir aplinkos indėlis į nuorašo variaciją

Mūsų geografinis genomo genetinės raiškos variacijos pietų Maroke tyrimas išryškino dvi lygiagrečias ir didžiąja dalimi nesutampančias įžvalgas. Viena vertus, akivaizdu, kad net pusei stenogramos aplinkos daro įtaką labai koordinuotai, tokiu būdu, kai žmogus gyvena, didelę dalį nuorašų dalies paaiškina iki ketvirtadalio variacijų. Aplinkos įtaka tikriausiai yra ne tik kultūrinių ir elgesio veiksnių, bet ir biootinių bei abiotinių veiksnių derinys, tuo tarpu genetiniai skirtumai tarp dviejų Šiaurės Afrikos protėvių yra santykinai nedideli. Kita vertus, genomą gaubia stiprios genetinės asociacijos, daugiausia cis , kurios paaiškina nuo 15 iki 60% nuo 5% nuorašų variacijos. Įspūdingos, nes šios asociacijos yra, ypač todėl, kad jos matomos šiek tiek mažiau nei 200 individų pavyzdyje, jos iš esmės neturi įtakos daugumai transkripcijos variacijų ir nėra informatyvios apie aplinkos reakcijos genetinį pagrindą.

Dėl pastebimo aplinkos poveikio asociacijų tvirtumo kyla klausimas, ar genotipo ir aplinkos sąveika iš viso daro įtaką periferinio kraujo transkriptui. Paprastai genomo reikšmingas sąveikos poveikis nėra tikėtinas, jei nėra reikšmingo pagrindinio genotipo poveikio 36 . Vienintelės aplinkybės, kuriomis jie pasireikš, yra tada, kai genotipo efektas yra priešinga kryptimi dviejose vietose, ir jei genetinis poveikis šiose vietose yra bent jau tokio pat masto kaip ir pagrindinių šiame GWAS nustatytų padarinių, kitaip tariant, jei poveikis gali paaiškinti> 30% tam tikro nuorašo dispersijos. Nors gali būti keletas tokių sąveikų, prireiktų tyrimo, kuriame būtų lyginami keli tūkstančiai asmenų iš kiekvienos vietos, kad būtų atskleista silpnesnė genotipo sąveika pagal aplinką. Jei genetinė transkripcijos architektūra yra panaši į matomų fenotipų, tokių kaip ūgis ir kūno masė 37, 38, struktūrą, net toks tyrimas bus atliktas siekiant paaiškinti didžiausią transkripcijos dispersiją.

Susijusi problema yra tai, ar reikia paaiškinti genotipo pagal aplinką sąveiką transkripcijos lygiu, kad būtų galima paaiškinti ligos genotipo pagal aplinką sąveiką. Gali būti, kad vyrauja nedidelė sąveika su GWAS aptikimo lygiu, arba, kita vertus, ši liga pirmiausia atsiranda dėl retų alelių, turinčių didelį poveikį, kurių skvarba gali būti modifikuojama atsižvelgiant į aplinką. Tačiau norint paaiškinti padidėjusį lėtinės ligos dažnį, nereikia transkripcijos sąveikos. Neįmanoma įsivaizduoti, kad asmenys, priskiriami pagrindinėms transkriptų profilių kategorijoms (tokioms, kaip nurodoma 4 pav. Ir papildomame 4 pav.), Turi skirtingą jautrumo ligoms pasiskirstymą, keičiantį genotipo ir ligos asociacijos matricą visame genome, tokiu būdu skatinant ligos aplinką pagal genotipą. Genų, kurie prisideda prie šios išraiškos komponento, transkripcija taip pat gali tiesiogiai koreliuoti su liga, efektyviai atskleisdama kripto pokyčius ir sukeldama aplinkai būdingus eSNP ligos ryšius, neturėdama jokio sąveikos efekto 39 transkripcijos lygiu (6 pav.). Iš to išplaukia, kad genų ekspresijos profiliavimas gali būti naudojamas stratifikuojant asmenis, kuriems yra didesnė ligos rizika, ir taip padidėja GWAS skiriamoji geba, sutelkiant dėmesį į asmenų, kuriems genetinis poveikis liga yra ryškiausias, pogrupį.

Metodai

Tyrimo populiacija.

Mėginių ėmimas buvo sudarytas taip, kad atrinktos keturios vietovės, vaizduojančios du pagrindinius gyvenimo būdus ir apimančius abi lytis, ir kiekvienoje vietovėje buvo atstovaujama tiek arabų, tiek amazigos protėviams. Mėginių ėmimas iš dviejų protėvių iš pradžių buvo grindžiamas savarankiška informacija. Miestų grupę sudarė gyventojai, atrinkti iš dviejų mažas pajamas gaunančių rajonų - Anzos ir Dchieros, esančių atitinkamai septynių mylių atstumu šiaurinėje ir pietinėje Agadiro pusėse. Visi šie asmenys gyvena tipišką miesto gyvenimo būdą, kuriam būdingi gana tankūs žmonių gyventojai, dažnas eismas ir vykdoma pramoninė veikla. Kaimo grupę sudarė kaimų gyventojai, atrinkti iš dviejų vietų - Ighremo ir Boutrocho, esančių 26 mylių atstumu vienas nuo kito ir 80 mylių į pietus nuo Agadyro. Abu kaimai pasižymi tradiciniu gyvenimo būdu, grindžiamu žemdirbyste ir bandų auginimu, tačiau Boutrocho kaimiečiai yra labiau izoliuoti ir, palyginti su Ighremo gyventojais, veikia labai mažai miesto veiklos. Iš bet kurio kaimo gauti pavyzdžių iš patinų buvo sudėtinga. Dauguma vyrų retkarčiais ar dažnai naudojasi kelionėmis į kaimyninius miestus. Boutrochas yra daugiausia Amazonės kaimas ir yra žemuose Atlaso kalnuose (platuma 29.346; ilguma, –9.368; aukštis 1335 m), tuo tarpu Ighremas yra žemų Atlaso kalnų papėdėse (29.459 platuma; ilguma)., −9, 672; aukštis 720 m) ir istoriškai yra arabai, turintys nedidelę dalį Amazigh gyventojų; savianalizė patvirtino šiuos protėvių skirtumus.

All study participants were between the ages of 18 and 50 yr, and the mean age of the three locations was similar (31–34 yr). The effect of age on gene expression was minimal; only 30 probes were significant at 1% FDR by ANCOVA with location and gender as fixed effects.

Collection protocol.

The study was approved by the ethical review committees of the Moroccan Ministry of Health, North Carolina State University and the University of Queensland. Under informed consent, 284 peripheral blood samples were collected in the field; 215 and 209 of these samples were profiled for gene expression and genotype, respectively, but several were later discarded for quality control purposes (see below). The subjects reported that they were in good health at the time of sampling. Peripheral blood samples ( ∼ 8 ml) were collected over the course of 6 d during the months of June and July 2008. The same collection protocol was followed for all samples to minimize heterogeneity due to technical reasons. All samples were collected within 4 h between 8:00 and 12:00. The total leukocyte population was isolated from ∼ 6 ml, and within minutes its total RNA was stabilized by using a Leukolock Total RNA Isolation System 5 (Ambion). This system incorporates depletion filter technology to isolate leukocytes and to eliminate plasma, platelets and red blood cells and uses RNALater ® to stabilize the RNA in the cells captured in the filter. The remaining blood was stored in EDTA tubes for DNA extraction. The filters and blood samples were kept on ice and then frozen at −45 °C within hours of collection at all study sites.

RNA and DNA preparation.

Total RNA extraction, and cDNA and cRNA synthesis were performed with an Illumina TotalPrep RNA Amplification kit (Ambion) in accordance with the manufacturer's instructions. Total RNA samples were checked for quality with an RNA 6000 Nano LabChip kit and 2100 Bioanalyzer (Agilent). We retained 215 samples with high RNA quality (RNA integrity number > 8) for expression profiling. We extracted 209 DNA samples with a QIAamp DNA kit (Qiagen) and quantified them by using an ND-1000 instrument (NanoDrop Technologies). All DNA samples had 260/280 and 260/230 ratios of optical density within the range 1.70–2.05.

Gene expression profiling.

HumanHT-12 beadchips (Illumina) were used to generate expression profiles of >48, 000 transcripts by using 500 ng of labeled cRNA for each of the 208 samples in accordance with the manufacturer's recommended protocols. The order in which the samples were processed was randomized to minimize chip effects. The beadchips were hybridized and scanned with an Illumina BeadArray reader by KS's laboratory at the Duke University Institute for Genomics and Science Policy (IGSP). The raw intensities were extracted with the Gene Expression Module in BeadStudio software (Illumina). Expression intensities were log 2 -transformed and median-centered by subtracting the median value of each array from each intensity value. This procedure preserves the variance of each sample, and inspection of the residuals indicated that they were reasonably distributed for ANOVA; in addition, an outlier filtering procedure provided further quality control. The top 22, 300 transcripts with expression above background levels averaged across all of the arrays were retained for further analyses as described 3 . All array data have been submitted to GEO according to MIAME compliance guidelines and are available under accession number GSE17065.

Genome-wide genotyping.

We assayed 209 samples with Infinium Human 610-Quad beadchips (Illumina) by following standard procedures, also at the Duke University IGSP. The Human 610-Quad SNP Chip contains over 610, 000 markers based on HapMap release 23. The beadchips were imaged by using a BeadArray Reader (Illumina), and genotype calls were extracted with the Genotyping Module in BeadStudio software. Six samples with low intensity or a low call rate as assessed by the Illumina cluster measure (<95%) were removed, and all SNPs that had a call frequency of <99% were deleted. SNPs with a cluster separation value of <0.3 were checked manually, and those that could not be fixed manually were removed. Next, to screen for departure from Hardy-Weinberg equilibrium, we checked the quality of the raw and normalized data of autosomal SNPs with heterozygosity excess values between −1.0 to −0.1 and between 0.1 to 1.0, and any SNP cluster that was not clean was removed. The process of quality control checks resulted in retention of 579, 144 SNPs in 203 individuals for the population structure analysis; this value was reduced to 516, 972 for the association studies after removing SNPs with a minor allele frequency of <0.05.

Population structure, ancestry inference and F ST .

Principal component analysis (PCA) and a Bayesian approach were implemented in Eigenstrat 6 and Structure 9, respectively, to explore genetic structure among the samples. Relatedness between all pairs of individuals was estimated indirectly from identity by state measures using PLINK 41, and 65 of the individuals appeared to be related by virtue of having pi-hat scores of >0.125. We observed 15 pairs or triplets of full siblings (0.451 < pi-hat < 0.595, a range similar to that described for full siblings 42 ), six clusters of lesser relatives (0.125 < pi-hat < 0.3) and four mixed clusters of 4–5 relatives of both types. By these criteria, 138 individuals did not appear to be related to any other individuals in the sample, and were combined with one randomly chosen member from each of the 25 clusters to result in 163 unrelated individuals for the population structure analysis. PCA was used to infer the extent of global genotypic variation in this set, retaining the first seven eigenvectors according to the Tracey-Widom test statistic. Close inspection of axes 3–7 indicated that they were dominated by a few SNPs that mapped to the same region of the genome (data available from the authors on request). The sub-Saharan contribution to PC1 was established by including matching genotypes for 21 Yoruban HapMap individuals (provided by J. Akey and S. Biswas, University of Washington) in an expanded analysis. Structure 9 was used to infer population structure with a subset of 16, 000 autosomal SNPs (randomly selected and approximately uniformly distributed on the 22 autosomes) at k = 2–5 using the admixture model with correlated allele frequencies and 20, 000 iterations after a burn-in length of 20, 000.

Subsequently, relatedness was recalculated more formally 27 for all individual pairs by using  ij averaged over l = 1 to n loci:

Image

where x il = 0, 1 or 2 according to whether individual i has genotype aa, Aa or AA at locus l , p ( q ) is the allele frequency of A (a), and 2 p is the mean of x l .

F ST estimates between locations were calculated for each of the 516, 972 SNPs included in the association study by using PROC ALLELE in SAS version 9.2 (SAS Institute). This implementation uses the method of moments approach in an ANOVA framework and expected mean squares to estimate F ST . The method assumes 'random' (in contrast to 'fixed') populations and accounts for common evolutionary history. Gene-specific F ST estimates were calculated by averaging F ST measures of all SNPs in each gene and in flanking 5′ and 3′ UTR regions. Plots of F ST by SNP and gene show typical upper values of 0.08, 0.10 and 0.12 for comparisons of Agadir with Ighrem, Boutroch with Ighrem, and Agadir with Boutroch, respectively (Supplementary Fig. 6a). A few SNPs exceed these values, the maximum being 0.3: no fixed differences between the locations were observed. To test for a possible influence of divergence in allele and genotype frequencies on gene expression divergence between locations, we examined the correlation between F ST and fold change in expression, or significance of differential expression for each pair-wise comparison. There was no relationship between these measures ( P values for all correlations > 0.047, percentage variance explained < 0.1%), nor was there an excess of outliers with high F ST and high expression divergence (Supplementary Fig. 6b). Genetic differentiation thus does not significantly contribute to the location effects.

Principal variance component analyses, ANOVA and ANCOVA.

Principal variance component analyses were performed on gene expression data by using JMP Genomics v3.2 (SAS Institute). Expression principal components (ePCs) were modeled as a function of various effects, assuming that each is a random term. A series of models was used to partition variance components into different combinations of the following factors and their pair-wise combinations: location (or lifestyle), gender and gPC2 (the second principal component of the genotypic variance, corresponding to the Arab-Amazigh axis of diversity). The magnitude and significance of differential expression of individual transcripts were evaluated by ANOVA and analysis of covariance (ANCOVA) through JMP Genomics using PROC MIXED as implemented in SAS and incorporating an outlier removal algorithm with a 5% false positive rate criterion. The following ANOVA models were used for differential expression analysis:

Image

Image

and gPC2 was added as a covariate for ANCOVA. Location (Agadir, Ighrem or Boutroch), lifestyle (urban or rural) and gender (male or lemale) were considered fixed effects. The error ε was assumed to be normally distributed with mean zero.

A marked feature of the PCA of the total data set is the presence of such a strong correlation structure in the data that ePC1 explains 21% and ePC1–ePC5 combined explain 50% of the transcriptional variance. In addition, almost half (47.6%) of the variation captured by ePC1–ePC5 can be decomposed into effects of the Arab-Amazigh axis of variation (gPC2), location, gender, and pair-wise interactions among these factors (Fig. 3c). This analysis is described in detail in ref. 43. It is substantially in agreement with the gene-specific ANOVA, which revealed similar magnitudes of contribution of the various effects. Taken together, the two modes of analysis imply that genetic and non-genetic effects both contribute significantly to transcriptional variation in our human data set. In addition, to evaluate possible environmental effects on alternative splicing, we fitted a mixed model for each gene targeted by more than one probe in the array and found evidence for 245 transcriptome-wide significant ( P < 1.2 × 10 −5 ) location-specific differences in transcript isoform abundance (Supplementary Note).

The absence of a relationship between transcript size (and GC content) and significance of differential expression (Supplementary Fig. 12) shows that there is no tendency for shorter transcripts to be differentially expressed between locations or lifestyles, indicating that enrichment for short transcripts such as the SNORD gene family is not due to degradation or technical artifacts.

Clustering and functional enrichment annotation.

Clustering was generated with Ward's method in JMP Genomics v3.2. The gene ontology and pathway analyses were generated through the use of Panther 44 and KEGG 45 . Genes whose expression was significantly differentially regulated were included by using stringent cutoffs as described in the Results. Enrichment analysis was used to calculate the probability that the number of genes in each biological function, pathway and/or disease assigned to that data set was greater or less than expected by chance given the numbers of genes expressed in the samples. Corrections for multiple testing were achieved using Bonferroni or Benjamini-Hochberg methods depending on the analysis.

Genome-wide association tests.

Tests for association of gene expression levels with each genotype were performed by both ANOVA (to test for genotype effects irrespective of allelic trends) and regression (to test for a linear trend, where heterozygotes are intermediate in phenotype owing to additive allelic effects) as implemented in PROC MIXED with SNP as a class variable or continuous variable, respectively, using SAS 9.2 and JMP Genomics v3.2. First, the whole allelic data set was coded as 0, 1 or 2, where each number represents the number of copies of the minor allele. Each of 516, 792 SNPs was tested for association with each of the 22, 300 expressed transcripts. This analysis gave rise to a genome-wide Bonferroni threshold of 4 × 10 −12 for trans associations (NLP > 11.4, which is likely to be conservative given the linkage disequilibrium (LD) structure across the genome) and, assuming that 200 common SNPs are in 100 kb of each transcript probe, a threshold of 0.05/(22300 × 200) = 1 × 10 −8 for cis associations (this value is also likely to be conservative because the median number of linked SNPs is <100). Note that a small fraction of putative cis eSNPs are more distant from the transcription start site than 50 kb on either side. We pragmatically distinguished cis from trans effects by plotting the eSNP and probe coordinates for each chromosome. Only three associations on the same chromosome were clearly off the diagonal; the remainder were within 1% of the chromosome arm length of the target probe and operationally likely to be cis -acting. The 1% FDR threshold was estimated by using the relationship FDR = m × alpha/(number of positives at alpha), where m is the total number of comparisons. Assuming 10 6 independent cis tests and 2 × 10 9 independent trans tests allowing for LD, approximate 1% FDR thresholds were found with 600 and 20 associations, respectively, at P < 6 × 10 −6 and P < 10 −10 . Although the complex dependency structure of the genotype and expression data caution against too literal interpretation of these numbers, similar relative numbers of the two types of association are obtained with different assumptions about non-independence of the tests.

Tests of association were carried out with three models. First, we used the following basic correlation model, where μ is the mean measure of transcript abundance and the error ε is assumed to be normally distributed with a mean of zero:

Image

The 10, 000 most significant associations from this model were brought forward for two further analyses. Model 2 assessed the effects of location (Agadir, Ighrem or Boutroch) and gender (male or female):

Image

We also accounted for location, ancestry, relatedness and gender in a third model:

Image

where gPC1-3 correspond to genotypic principal component eigenvectors of axis 1, 2 and 3 computed with Eigenstrat; and gCluster represents clustered ancestry, where the 194 samples were clustered into four groups corresponding largely to Agadir Arabs, Ighrem Arabs, Boutroch Amazighs and admixed individuals from Agadir and Ighrem, which accounts for location in an unbiased manner relative to ancestry. Relatedness was fitted as a random effect. Considerable overlap was observed between our set of GWAS-significant hits and highly significant eSNP associations reported in four other expression GWASs on peripheral blood or its derivatives, depending on the stringency adopted (Supplementary Note).

Prisijungimo kodai.

NCBI GEO: Gene expression data from this study have been deposited under series GSE17065.

Prisijungimai

Genų ekspresijos omnibusas

  • GSE17065

Papildoma informacija

PDF failai

  1. 1.

    Papildomas tekstas ir figūros

    Supplementary Note and Supplementary Figures 1–12

„Excel“ failai

  1. 1.

    1 papildoma lentelė

    List of genes significant for the Rural versus Urban comparison

  2. 2.

    2 papildoma lentelė

    List of genes significant for each regional comparison

  3. 3.

    3 papildoma lentelė

    List of genome-wide significant cis and trans peak associations

  4. 4.

    4 papildoma lentelė

    List of eSNPs overlapping SNPs in the GWAS Database

  5. 5.

    5 papildoma lentelė

    Genotypic and gene expression principal component of study participants