Bendruomenės skaičiavimo uždavinys nuspėti junginių porų aktyvumą | gamtos biotechnologijos

Bendruomenės skaičiavimo uždavinys nuspėti junginių porų aktyvumą | gamtos biotechnologijos

Anonim

Dalykai

  • Skaičiavimo modeliai
  • Duomenų integracija

Anotacija

Dėl pastarojo meto terapinės sėkmės vėl atsirado susidomėjimas vaistų deriniais, tačiau eksperimentiniai atrankos metodai yra brangūs ir dažnai nustato tik nedaug sinergetinių derinių. DREAM konsorciumas pradėjo atvirą iššūkį skatinti in silico metodų plėtrą, kad būtų skaičiuojamos 91 junginių poros, skaičiuojant nuo sinergetinio iki antagonistinio, remiantis žmogaus B ląstelių genų ekspresijos profiliais, apdorotais atskirais junginiais įvairiais laiko momentais ir koncentracijos. Naudodami balų skaičiavimo metriką, pagrįstą eksperimentinėmis dozės ir atsako kreivėmis, įvertinome 32 metodus (31 bendruomenės sukurtas požiūris ir „SynGen“), iš kurių keturi buvo žymiai geresni nei atsitiktinio atspėjimo. Mes pabrėžiame metodų panašumus. Nors prognozių tikslumas nebuvo optimalus, mes pastebime, kad apskaičiuoti junginių porų aktyvumo numatymą yra įmanoma ir kad bendruomenės iššūkiai gali būti naudingi, norint pažengti in silico junginių sinergijos numatymo lauką.

Pagrindinis

Neseniai pasiekta sėkmė tiriant sinergetinius derinius, tokius kaip CHK1 inhibitorių vartojimas kartu su keliais DNR pažeidžiančiais agentais 1 arba PARP inhibitorių olaparibu kartu su PI3K inhibitoriumi BKM120 (nuoroda 2), sukėlė didelį susidomėjimą sistemine junginių porų atranka, siekiant nustatyti sinergetines poras kombinuotai terapijai. Junginių sinergiją galima išmatuoti keliais rezultatais, įskaitant atsparumo gydymui 3 mažinimą arba atidėjimą (pvz., Panaikinant atsparių klonų atsiradimą 4, 5, 6 ), pagerinant bendrą išgyvenamumą 7, 8 arba sumažinant toksiškumą mažinant atskirą junginį. 9 dozė.

Panašiai molekuliniu lygmeniu sinergetinę sąveiką galima įgyvendinti keliais atskirais mechanizmais. Pavyzdžiui, junginys gali įjautrinti ląsteles kitam junginiui, reguliuodamas jo absorbciją ir pasiskirstymą, moduliuodamas ląstelės augimo savybes 10, slopindamas junginio skilimą 11, slopindamas kelius, sukeliančius atsparumą 6 arba sumažindamas kito junginio toksiškumą 12 . Kai jie naudojami kartu, du junginiai gali sukelti vieną iš trijų skirtingų reakcijų: i) priedą, kai bendras poveikis yra lygus nepriklausomų efektų sumai; ii) sinergetinis, kai bendras poveikis yra didesnis nei pridedamas; ir (iii) antagonistinis, kai bendras poveikis yra mažesnis nei adityvus. Taigi kombinuotosios terapijos tikslas yra pasiekti sinergetinį ar bent jau papildomą, bet papildomą poveikį.

Daugelis sinergetinių junginių porų nustatymo būdų vis dar yra tiriamieji 13, 14 . Vėžio tyrimų metu sinergijos tyrimai paprastai atliekami gydant ląstelių linijas in vitro visais įmanomais junginių deriniais iš įvairios bibliotekos arba kandidatų deriniais, parinktais remiantis mechanistiniais principais. Deja, tokie eksperimentiniai ekranai nustato griežtus junginių įvairovės bibliotekų dydžio apribojimus. Kompiuteriniai junginių sinergijos prognozavimo metodai gali papildyti didelio pralaidumo sinergijos ekranus, tačiau nedaugeliui iš paskelbtųjų nėra griežto eksperimentinio patvirtinimo arba jie yra tinkami tik junginiams, kurie moduliuoja gerai ištirtus molekulinius kelius 15 arba yra lygiaverčiai anksčiau nustatytiems deriniams 16 . Dabartiniai algoritmai negali būti apibendrinti pagal savavališkus junginių derinius, nebent nėra duomenų apie molekulinį profilį po gydymo junginių pora 17, o tai aiškiai nepraktiška. Taigi reikia naujų metodų, skirtų numatyti junginių sinergiją iš vieno junginio aktyvumo molekulinių profilių, taip pat tyrimų, skirtų objektyviai ir sistemingai įvertinti tokių prognozių tikslumą ir specifiškumą.

Siekdama išspręsti šią problemą, iniciatyva „DREAM iššūkiai“ (tyrėjų bendruomenės pastangomis, keliantiems pagrindinius klausimus sistemos sistemose ir vertimo moksle, formuojant iššūkius iš visuomenės minčių), bendradarbiaudama su Nacionaliniu vėžio institutu, organizavo bendruomenės iššūkį. sistemingai ir objektyviai išbandyti metodus, leidžiančius apskaičiuoti junginių porų aktyvumą žmogaus B ląstelėse. Iššūkio dalyvių buvo paprašyta suskirstyti 91 junginių poras (visas 14 junginių poras) nuo sinergetiškiausios iki antagonistiškiausios OCI-LY3 žmogaus difuzinės didelių B ląstelių limfomos (DLBCL) ląstelių linijoje (1 pav.), Remiantis ląstelių genų ekspresijos profiliai, trikdantys su atskirais junginiais. Tada prognozės buvo įvertintos pagal eksperimentiškai įvertintą aukso standartą, gautą sistemingai vertinant junginių ir porų sinergiją in vitro . Šis duomenų rinkinys iš pradžių buvo skirtas eksperimentiškai patvirtinti „SynGen“ algoritmą, kurį pirmą kartą pristatome šiame darbe. Tačiau mes nusprendėme pirmiausia suteikti bendruomenei galimybę plėtoti in silico metodus sinergijos prognozėms. Todėl mes taip pat įvertinome „SynGen“, kuris, pateikdamas originalias sinergijos numatymo idėjas, papildo 31 metodą, dalyvavusį DREAM iššūkyje.

Image

a ) Pradinių mėginių, DMSO ir 14 atskirų junginių, bandinių genų ekspresijos profiliai generuojami trimis skirtingais laiko momentais (6, 12 ir 24 val.) ir dviem skirtingais junginių koncentracijomis (IC 20 24 ir 48 val., kur IC20 yra apibrėžiama kaip junginio koncentracija, kuri užmuša 20% ląstelių). Su junginiais apdoroti mėginiai buvo generuojami trimis egzemplioriais, pradiniai mėginiai - dviem egzemplioriais, o DMSO - apdoroti mėginiai oktuplicate. ( b ) Dalyviams buvo pateiktas pirminis genetinis OCI-LY3 ląstelių linijos, gautos anksčiau nei 18, profilis. c ) Dalyviams taip pat buvo pateikta dozės ir atsako kreivė po vieno gydymo. Kreivės buvo gautos apdorojant OCI-LY3 vienu agentu nurodytą laiką. X žymi junginio IC20 koncentraciją. ( d ) Dalyviai turėjo suskirstyti kiekvieną iš 91 junginių, sudarytų iš porų po 14 junginių, iš sinergetiškiausio į antagonistiškiausią. Bet kokie papildomi duomenys, gauti iš dalyvių analizuojant literatūrą, buvo laikomi priimtinais iššūkyje. Aiškiai buvo draudžiami eksperimentiniai junginių sinergijos bandymai, net ir riboto formato.

Visas dydis

Mes pateikiame visų DREAM iššūkiui pateiktų 31 metodo palyginamąjį aklųjį vertinimą ir „SynGen“ neapibrėžtą vertinimą. Lyginamosios analizės rodo, kad kai kurie de novo , in silico junginių sinergijos prognozavimo metodai gali pasiekti statistiškai reikšmingai geresnį rezultatą nei atsitiktinis atspėjimas. Be to, metodų integracija gali dar labiau padidinti našumą. Nors šie rezultatai teikia vilčių, tačiau dar yra daug galimybių tobulinti rezultatus.

Rezultatai

Duomenų rinkinio ir iššūkio santrauka

Dalyviams buvo pateiktos (i) OCI-LY3 ląstelių gyvybingumo dozės ir reakcijos kreivės, atlikus pertraukimą su 14 skirtingų junginių (1 papildomas failas), įskaitant DMSO kaip kontrolinę terpę, (ii) genų ekspresijos profilius (GEP) trijų egzempliorių pavidalu. tos pačios ląstelės nebuvo gydomos (pradinė) ir praėjus 6, 12 ir 24 valandoms po pertraukimo su kiekvienu iš 14 junginių, ir (iii) anksčiau praneštu 18 pradinių OCI-LY3 ląstelių linijos genetiniu profiliu (1 pav.). Buvo panaudotos dvi junginio koncentracijos, įskaitant junginio IC 20 (vaisto koncentracija reikalinga 20% ląstelių sunaikinti) 24 val. Ir junginio IC 20 48 val., Įvertintą pagal devynių taškų titravimo kreives. Bet kokie papildomi pradiniai duomenys iš literatūros ar eksperimentinių tyrimų buvo laikomi priimtinais uždavinyje, tačiau tiesioginis junginių sinergijos matavimas, net ir riboto formato, buvo aiškiai draudžiamas. Dalyvavimui iššūkyje reikėjo įvertinti kiekvieną iš 91 junginių porų nuo sinergetiškiausios iki antagonistiškiausios.

31 prognozė, pateikta šiam iššūkiui, parodė didelę naudojamų metodų ir duomenų įvairovę (1 lentelė ir 1 papildoma lentelė). Tai rodo, kad trūksta standartinių metodų, leidžiančių numatyti junginių porų aktyvumą remiantis transkriptiniais duomenimis, ir treniruočių duomenų (tai yra, junginių poros, kurios, kaip žinoma, sinergetinės ar nesinergistinės), tyčia neleidžiančių naudoti nustatytų mašininio mokymosi metodų. Nepaisant plačios metodinės įvairovės, iš 31 komandos 10 savo prognozes grindė hipoteze, kad junginiai, turintys didesnį transkripcijos profilio panašumą (buvo naudojami skirtingi panašumo apibrėžimai), labiau tikėtina, kad bus sinergetiniai (panašumo hipotezė). Aštuonios komandos, atvirkščiai, manė priešingai (hipotezė apie skirtumą). Likusios komandos naudojo panašumo ir skirtingumo hipotezių derinį (derinio hipotezė, n = 4) arba naudojo sudėtingesnes hipotezes ( n = 9). Tik dvi komandos aiškiai panaudojo OCI-LY3 genetinius profilius, teigdamos, kad genomo duomenys laikomi nenaudingais šiai analizei, arba kad jų panaudojimas numatant junginių sinergiją dar nėra išplėtotas. Galiausiai 12 komandų rėmėsi tik pateikta informacija, o kitos naudojo papildomą literatūros informaciją, tokią kaip bendrosios žinios apie kelią, junginio struktūra ar taikiniai ir šių junginių substratai.

Pilno dydžio lentelė

Spektaklio įvertinimas

Norėdami objektyviai įvertinti pateiktą iššūkį, sukūrėme aukso standarto duomenų rinkinį, pagrįstą eksperimentiniu OCI-LY3 ląstelių gyvybingumo įvertinimu 91 junginyje, kuris buvo naudojamas uždavinyje, 60 val. Bendras junginių ir porų aktyvumas buvo įvertintas naudojant palaimos perteklių (EOB) (papildomas 1 pav.), Kuris nustato, ar dviejų junginių bendras poveikis yra žymiai didesnis ar mažesnis nei naivus (nepriklausomas) jų individualių efektų derinys. Šie aktyvumo įvertinimai buvo naudojami suskirstyti visas poras nuo sinergetinio iki antagonistinio (2 papildoma lentelė).

Prognozės buvo įvertintos naudojant modifikuotą atitikties indekso 19 versiją, vadinamą tikimybiniu suderinamumo indeksu (PC indeksas, 1 papildoma pastaba). Ši metrika išmatuoja suderinamumą tarp junginių porų reitingo aukso standarte (2a pav.) Ir numatomo eiliškumo kiekviename pateikime, apskaitant eksperimentines matavimo paklaidas vertinant EOB, ty įvertinant vidutinę junginio frakciją. poros, palyginti su visais eksperimentiniais pakartojimais, teisingai surikiuotos, kai sudėtinių porų porų reitingai lyginami su jų atitinkamais eksperimentiniais rangais. Kiti metodai, tokie kaip atitikties indeksas ar koreliacija, nedaro jokių dviprasmybių stebimose grupėse. Tačiau eksperimentinis triukšmas sukelia netikrumą klasifikuojant junginių poras, todėl šie metodai netinkami prognozėms vertinti. PC indekso šaltinio kodą galite rasti 1 papildomoje programinėje įrangoje.

Image

a ) Palaimos pertekliaus rezultatai visoms junginių poroms buvo įvertinti nuo sinergetinio iki antagonistiško. Klaidų juostos parodo „Bliss“ perteklių, įvertintą pagal penkis eksperimentinius pakartojimus. Tvirta pilka linija, viršijanti Bliss, lygi 0 ir žymi liniją, virš kurios ir žemiau kurios junginių poros paprastai laikomos atitinkamai sinergetinėmis ir antagonistinėmis. b ) Visų dalyvių kompiuterinis indeksas, sugrupuotas pagal duomenis ar informaciją, naudojamą jų metodu. Nėra akivaizdaus ryšio tarp galutinio balo su naudojamais duomenimis ar informacija. AI, papildoma informacija, išskyrus naudojamą kelio informaciją; KDR, naudojama dozės ir atsako kreivė; GEP, naudojamas genų ekspresijos profilis; PW, naudojama kelio informacija. Kiekvienos komandos rangas nurodomas juostos viršuje. Pilka linija žymi atsitiktinį veikimą. Y ašis dešinėje rodo PC-indekso normą, kai PC-index yra normalizuotas, kad rezultatas būtų nuo 0 iki 1. * FDR ≤ 0, 20; ** FDR ≤ 0, 05. c ) Dėžutė, kurioje nurodoma kiekvienos komandos, atliekančios testą „iš vieno“, mediana, kvartilis ir rangų diapazonas. Visos komandos yra surūšiuotos pagal jų kompiuterinį indeksą. Komandos yra koduojamos spalvomis, atsižvelgiant į tai, kokie duomenys ar informacija yra naudojama jų metodais.

Visas dydis

Iš 31 numatymo („SynGen“ buvo vertinamas atskirai, nes jį sukūrė vienas iš iššūkio organizatorių, todėl jis nedalyvavo iššūkyje tomis pačiomis sąlygomis kaip ir kiti 31 metodai), trys metodai (DIGRE, IUPUI_CCBB ir DPST) pateikė prognozes, kad buvo statistiškai reikšmingi esant konservatyviam klaidingų atradimų dažnio slenksčiui (FDR = 0, 05) (2b pav.). Nepriklausomai nuo to, ar šie metodai gali padėti planuoti didelius sinergijos ekranus, tai rodo, kad įmanoma numatyti jungtinę sinergiją. Be to, uždaviniu pagrįstas šių metodų efektyvumo įvertinimas suteikia realų ir veiksmingą pagrindą tolesnei metodikos plėtrai.

Mes nustatėme mažai akivaizdų ryšį tarp metodo atlikimo ir duomenų panaudojimo (2b pav. Ir papildomas 2 pav.). Tik naudojant genų ekspresijos profilius 24 valandas po gydymo, poveikis buvo minimalus (papildomas 2 pav.). Tačiau ši tendencija nebuvo statistiškai reikšminga ir norint ją įvertinti reikės papildomų duomenų. Be to, skirtingos komandų naudojamos hipotezės galėjo turėti įtakos rezultatams (papildomas 3 pav. Ir 1 lentelė). Pavyzdžiui, komandos, naudodamos panašumo ar derinio hipotezes, iš esmės pasiekė aukštesnį kompiuterio indeksą, palyginti su kitomis komandomis, naudojančiomis kitas hipotezes. Tačiau šie skirtumai nėra statistiškai reikšmingi ir čia pateikiami išsamiai.

Norėdami patikrinti našumo nuoseklumą, mes įvertinome kiekvieną numatymą naudodami antrąją metriką (pakartotinę pavyzdį „Spearman“ koreliacija). Abiejų rodiklių rezultatai buvo praktiškai identiški (koreliacija r = 0, 99), tik keletas metodų, kurie nebuvo geriau nei atsitiktiniai, rango skirtumai buvo tik maži (papildomas 4 pav.). Prognozavimo eiliškumo tvirtumas buvo patikrintas pašalinant vieną junginį vienu metu iš rinkinio ir atsižvelgiant į likusius 13 junginių (palikti vieną). Ši analizė atskleidė, kad prognozės iš dviejų efektyviausių metodų nuosekliai patenka į 5 geriausiųjų skaičių iš visų 14 skirtingų reitingų, gautų pašalinus kiekvieną junginį, ir tai rodo, kad jų prognozės yra silpnai šalinamos dėl bet kokio konkretaus vaisto pasirinkimo (2c pav. Ir papildomas pav. 5 pav.). Likę metodai parodė žymiai didesnius jų rezultatų variantus.

Geriausiai atliekantys metodai

Geriausiai veikiantis metodas, DIGRE (vaisto sukeltas genomo likutinis poveikis), kelia hipotezę, kad kai ląstelės yra nuosekliai apdorojamos dviem junginiais, pirmojo sukelti transkripcijos pokyčiai prisideda prie antrojo efekto (3a pav.). Tai atitinka pastebėjimą, kad nuoseklus vaisto vartojimas turi įtakos 20, 21 rezultatui. Taigi, nors eksperimentiniuose tyrimuose junginiai buvo skiriami vienu metu, algoritmas modeliuoja sinergiją nuosekliai. DIGRE įgyvendina tris pagrindinius veiksmus. Pirmasis žingsnis apima transkripcijos pokyčių palyginimą po atskiro gydymo junginiais, kad būtų gautas junginių porų panašumo balas. Pirmiausia tai gaunama persidengiant diferenciškai išreikštais genais po apdorojimo dviem junginiais su aštuoniais ląstelių augimo KEGG keliais (fokusuotas vaizdas), ir, antra, atsižvelgiant į genus, esančius prieš diferencijuotai išreikštus genus 32 vėžiui svarbiuose KEGG keliuose ( globalus vaizdas). Antrame etape junginio sukeltų transkripcijos pokyčių poveikis ląstelių išgyvenimui yra apytikslis, naudojant junginio panašumo balą r , apibrėžtą taip: (1 - fB + A ′ ) = (1 - rf 2B ) [1 - ( 1 - r) f B ] darant prielaidą, kad mėginiai pirmiausia buvo apdoroti junginiu A (kur ′ siūlomas pirminis apdorojimas), po to junginiu B (3b pav.). Čia fB + A ′ žymi ląstelių gyvybingumo sumažėjimą po gydymo B, po transkripcijos pokyčių, kuriuos sukelia A, r yra junginių porų panašumo balas, f B yra gyvybingumo sumažėjimas po gydymo B, o f 2 B yra gyvybingumas. dvigubos B dozės sumažėjimas, apskaičiuotas pagal dozės ir atsako kreivę. Paskutiniame etape pateikiamas bendras balas, apibrėžtas kaip Z B + A ′ = 1 - (1 - f A ) (1 - f B + A '), kur f A yra gyvybingumo sumažėjimas po apdorojimo A. Galiausiai negyvų ląstelių Z dalis , taip pat apibrėžta kaip sinergetinis balas, įvertinama kaip dviejų galimų nuoseklių gydymo grupių vidurkis (2 papildomoji pastaba).

Image

a ) DIGRE modelio biologinės hipotezės, kurias pateikė geriausiai pasirodžiusi komanda. Įtariama, kad junginių A ir B jungtinis poveikis atsiranda dėl junginio sukeltos genomo likutinės įtakos. Jei ląstelės buvo apdorotos junginiais A ir B nuosekliai, junginio A sukelti genominiai pokyčiai dar labiau prisidės prie junginio B sukelto poveikio. Čia f X reiškia ląstelių, sunaikintų X junginiu, procentą, o f B + A ′ reiškia ląstelių gyvybingumo sumažėjimas po gydymo B, atlikus A sukeltus transkripcijos pokyčius. Remiantis šia hipoteze, kombinatorinio junginio efekto įvertinimas ( Z B + A ′ ) sumažina junginio sukeltą genomo likutinį poveikį ( f B +). A ′ ) (2 papildoma pastaba). ( b ) DIGRE darbo eiga. (1 pakopa) Palyginami dviejų junginių sukelti genominiai arba transkriptominiai pokyčiai. Panašumo balas patikslinamas naudojant informaciją apie kelią ir išorinį treniruočių duomenų rinkinį. (2 pakopa) Matematinis modelis apima panašumo balą ir dozės-atsako kreives, kad būtų galima įvertinti junginio sukeltą genomo likutinį poveikį. (3 pakopa) Įvertinamas kiekvienos iš dviejų galimų nuoseklių gydymo grupių rezultatas ir galiausiai sinergetinis balas įvertinamas kaip vidutinis bendras balas, gautas pagal dvi galimas nuoseklias gydymo eilutes. c ) Pagrindiniai DIGRE modelio komponentai.

Visas dydis

Mūsų analizė rodo, kad šie veiksniai prisideda prie DIGRE veikimo (3c pav.): (I) hipotezė, kad junginio sinergiją bent iš dalies lemia junginio sukeltas transkriptominis liekamasis poveikis, tai yra pirmojo junginio sukeliami transkripcijos pokyčiai, kurie prisideda prie į abiejų junginių ląstelių slopinimo poveikį; ii) aiškių matematinių modelių panaudojimas santykio tarp transkriptominių pokyčių ir junginio sinergijos kiekybiniam įvertinimui (ty junginio sukeltų transkriptominių liekamųjų efektų ir junginių panašumo balų analizė); iii) informacijos, gautos iš visos dozės ir atsako kreivės, naudojimas, o ne tik IC 20 duomenys; (iv) informacijos apie kelią aprašymas (fokusuotas vaizdas) ir genų-genų sąveika (globalus vaizdas), siekiant išmatuoti skirtingų junginių sukeltų transkriptominių pokyčių panašumą; ir (v) išorinių duomenų rinkinių naudojimas kelio pasirinkimui ir modelio parametrams optimizuoti. Kai visi šie veiksniai buvo sistemingai pašalinti iš analizės, algoritmo našumas sumažėjo. Visų pirma, kritinė yra likutinio efekto hipotezė, nes jo pašalinimas visiškai panaikina algoritmo numatomą galią (2 papildomoji pastaba ir 6 papildomas paveikslas).

Antrasis pagal efektyvumą metodas (IUPUI_CCBB) iškėlė hipotezę, kad junginio aktyvumą galima įvertinti pagal jo poveikį genams, kurie yra labai skirtingai išreikšti po gydymo labai toksiškais junginiais, palyginti su kontrolinėmis terpėmis. Tada junginių sinergija ar antagonizmas nustatomi apskaičiuojant, ar dviejų junginių poveikis šiam genų rinkiniui yra suderinamas, ar nesutampa, naudojant junginių ir porų sąveikos balą.

Metodų, kurie nėra pagrįsti mašininiu mokymusi ir kurie negali remtis teigiamais bei neigiamais pavyzdžiais, efektyvumą lemia tai, kaip gerai jie modeliuoja pagrindinę proceso biologiją. Taigi, efektyviausiai veikiantys algoritmai išnaudojo dozės ir reakcijos kreivę, sąvoką, kad vieno junginio farmakodinamika gali būti greitesnė nei kito, taip pat tai, kad sinergija buvo įvertinta per didelę priklausomybę nuo palaimos. Daugiau informacijos apie visus dalyvaujančius metodus ir DIGRE ir IUPUI_CCBB metodų šaltinių kodus galima rasti 2 papildomoje pastaboje ir 2 ir 3 programinėje įrangoje.

Bendruomenės metodai

Dalyviai naudojo gana aiškias skaičiavimo strategijas, kurios davė bent iš dalies statistiškai nepriklausomas prognozes, kurios gali papildyti. Tai rodo, kad jų integracija gali pranokti atskirus metodus. Panašūs integraciniai metodai buvo sėkmingi atliekant įvairius biologinius iššūkius, pavyzdžiui, numatant baltymų 22 sutrikimą, nustatant monoaminooksidazės inhibitorius 23, nustatant genų reguliavimą 24 ir vėžio prognozėse 25 bei diagnostikoje 26 .

Norėdami patikrinti integracinių požiūrių nuspėjamąją galią, aukso standartų duomenų rinkinį padalijome į tris pogrupius (S1, S2 ir S3). S1 buvo naudojamas metodų rūšiavimui nuo geriausių iki blogiausių, S2 - norint nustatyti, kiek geriausių rezultatų turinčių metodų turi būti integruoti, kad būtų pasiektas optimalus našumas, o S3 - geriausių individualių ir geriausių integracinių metodų, nepriklausomų nuo treniruočių, galutiniam našumui nustatyti. šališkumas, taip išvengiant perpildymo. Tai suteikia praktinį požiūrį į daugialypių metodų integraciją, kaip į viešojo interesų rinkimo veiklą. Remdamiesi 1 000 skirtingų S1, S2 ir S3 padalijimų, mes nustatėme, kad integraciniai metodai nuosekliai ir reikšmingai lenkė geriausius pavienius metodus, gautus iš S1 ( P ≤ 10 −36, Wilcoxon rankinės sumos testu, 4a pav.), Daugiau nei 75% skilimai (papildomas 7 pav.). Naudojant tik vieno geriausio metodo efektyvumą (užsakytą pagal S1 rinkinį), vidutinis integracinis našumas (vertinant nepriklausomai tiek S2, tiek S3 rinkinyje) pasiekė ∼ 7% pagerėjimą, kai buvo integruoti pirmieji septyni metodai, ir sumažėjo monotoniškai, kai daugiau nei buvo naudojami septyni metodai (4b pav.). Taip pat pasirinkus optimalų metodų skaičių (remiantis S2 įvertinimais), vidutiniškai pirmųjų 4–6 metodų integracija davė geriausią rezultatą (papildomas 8 pav.). Kritiškai kritinis iššūkių pateikimas buvo vertinamas naudojant visą 91 junginių porų rinkinį, o miniatiūrinio metodo numatomoji galia buvo įvertinta naudojant tik trečdalį iš jų (ty 30 junginių porų). Į šį aspektą reikia atsižvelgti, lyginant kompiuterio indeksą 2b ir 4 paveiksluose. Toks našumo padidėjimas integruojant skirtingus metodus buvo vadinamas „minios išmintimi“ 24 .

Image

a ) „Bee Swarm“ siužetas, rodantis ansamblių modelių ir vieno geriausio modelio veikimą, padarytas iš daugiau kaip 1000 skirtingų trijų rinkinių (S1 / S2 / S3) 91 narkotikų poros padalijimo (S1 / S2 / S3). Pirmasis rinkinys S1 buvo naudojamas atlikimo tvarkai nustatyti. Antrasis rinkinys S2 buvo naudojamas norint pasirinkti optimalų geriausių metodų skaičių agreguoti, kad būtų pasiektas geriausias agregato našumas. Galiausiai, siekiant nustatyti geriausio metodo (pagal rinkinį S1) ir „minios išminties“ efektyvumą, buvo naudojamas paskutinis rinkinys S3, kuris nebuvo naudojamas renkant agregavimo tvarką ar optimalų prognozių skaičių sujungti. agregatas. Pastarasis yra geriau nei buvęs. b ) Vidutinė ir standartinė paklaida per 1 000 padalijimų, parodytų PC indekso, apskaičiuoto atskirų komandų S3 rinkinyje (mėlyna spalva), ir rezultatyviausių komandų suvestinėse (raudona). Komandų tvarka x ašyje buvo nustatyta pagal S1 rinkinį, tačiau pasirodymas buvo vertinamas S3 komplekte. Pilka vientisa linija parodo atsitiktinį veikimą. Klaidų juosta žymi kompiuterio rodyklės pusę.

Visas dydis

Metodo pranašumai ir apribojimai

Kadangi multimetrinis vertinimas suteikia platesnį metodo paklaidų ir vertės 27 vertinimą, efektyvumo vertinimui panaudojome du papildomus rodiklius - jautrumo ir specifiškumo (ROC) analizę ir tikslumo / jautrumo analizę. Pirmasis yra metrika be slenksčio, skirta įvertinti metodo jautrumą ir specifiškumą, prognozuojant sinergetinius ar antagonistinius derinius, o antrasis - tai, kaip tiksliai numatant numatytas poras metodai yra tikslūs. Jei pasirenkame ribą, pagal kurią bus domimasi porų skaičiumi (tai yra, atitinkamai tiriant sinergiją ir antagonizmą, sinergetinių ir antagonistinių porų skaičių), tada tikslumas sutampa su jautrumu.

Pirmiausia apibrėžėme kriterijų ir nustatėme 16 sinergetinių ir 36 antagonistinių junginių porų (5a pav.). Tada mes įvertinome jautrumą ir specifiškumą, naudodami plotą po imtuvo veikimo charakteristikų (ROC) kreive (AUC) 28, nepriklausomai nuo sinergetinių ir antagonistinių junginių porų (papildomas 9 pav.), Sudarydami skirtingą klasifikaciją. Remiantis AUC reitingu, DIGRE buvo geriausias algoritmas antagonistinėms porų prognozėms, o ketvirtasis - sinergetiniams. Priešingai, antroji komanda buvo geriausia atlikėja numatant sinergetines poras, tačiau blogai pasirodė priešingai (5b pav.). Naudodamiesi ROC, mes taip pat galėjome apskaičiuoti bet kurio dviejų metodų rezultatų skirtumo statistinį reikšmingumą, naudodami Hanley-McNeil metodą. Tai buvo padaryta atskirai sinergetinių ir antagonistinių junginių poroms. Mes manėme, kad A metodas pralenkia B metodą, jei jo ROC pagrįsti rezultatai buvo statistiškai reikšmingai geresni prognozuojant antagonizmą ar sinergiją ( P ≤ 0, 05). Ši analizė neparodė jokių statistiškai reikšmingų skirtumų tiesioginiame geriausių metodų palyginime (papildomas 10 pav.), Tačiau patvirtinta, kad trys geriausi metodai buvo statistiškai reikšmingai geresni nei kiti.

Image

a ) Sudėtinių porų aktyvumas, aukso etaloninius duomenis išskaidžius į tris būsenas, pagrįstus signalo ir triukšmo santykiu per didelę palaimą. Raudona, sinergetinė; geltonas, priedas; mėlyna, antagonistiška. b ) Sinerginių (raudonų) ir antagonistinių (mėlynų) junginių porų sritis pagal ROC (AUC). Komandos reitinguojamos pagal jų pasirodymą iššūkyje. WoC, „minios išminties“ atlikimas. Juoda horizontalia brūkšniuota linija rodo atsitiktinių prognozių vidutinį našumą. * FDR ≤ 0, 20; ** FDR ≤ 0, 05. c ) sinergetinių (raudonos) ir antagonistinės (mėlynos) junginių porų tikslumas ir jautrumas. Horizontali punktyrinė linija raudona ir mėlyna rodo atsitiktinius sinergetinių ir antagonistinių junginių porų rezultatus. WoC, „minios išminties“ pasirodymas. Komandos yra vertinamos pagal jų pasirodymą iššūkyje. * P ≤ 0, 05; ** FDR ≤ 0, 20.

Visas dydis

Mes atlikome tikslumo / jautrumo analizę, iš kiekvieno metodo pasirinkdami 16 ir 36 apatinius prognozes (internetiniai metodai). Naudojant šią metriką, penktasis bendrasis metodas ir DIGRE buvo geriausios prognozuoti atitinkamai sinergetinius ir antagonistinius derinius (5c pav.). Kai buvo atlikta panaši analizė, siekiant patikrinti klasifikavimo laipsnį (ty sinergetinės poros buvo prognozuojamos kaip antagonistinės ir atvirkščiai), mes nustatėme, kad DIGRE klasifikavimo laipsnis buvo labai mažas, nepaisant silpno jų veikimo prognozuojant sinergetines poras (papildomas 11 pav.); tai yra, nors algoritmas nebuvo efektyvus sinergetinių porų identifikavimui, jis praktiškai niekada neklasifikavo sinergetinės poros kaip antagonistinės ir atvirkščiai (jos buvo neteisingai klasifikuotos kaip priedinės). Šiose metrikose metodo hipotezės turėjo tendencingą poveikį sinergijos prognozavimui (metodai, naudojant panašumo hipotezę, kuri turi didesnį jautrumą, papildoma 12a pav.), Paremta tikslumo / jautrumo analize, tačiau beveik neturi jokios įtakos numatant antagonizmą (papildomas 12b pav. ), teigdama, kad hipotezės, reikalingos teisingai numatyti sinergiją ir antagonizmą, gali būti skirtingos. Mums reikia išsamesnių tyrimų, kad patvirtintume, ar tokia tendencija apskritai pasireiškia.

Kaip ir PC indekso atveju, mes taip pat įvertinome apibendrinamųjų prognozių atlikimą įvairiais metodais, naudodamiesi šiais rodikliais, norėdami patikrinti „minios išmintį“. Dėl riboto sinergetinių (16) ir antagonistinių (36) junginių porų skaičiaus negalėjo padalinti aukso etaloninių duomenų rinkinio į tris pogrupius (S1, S2 ir S3), kad mokytų ir įvertintų agreguojančių prognozių efektyvumą įvairiais šios metrikos metodais. Todėl mes panaudojome treniruotės rezultatą, pagrįstą ankstesniame skyriuje naudojamu kompiuterio indeksu, ir apskaičiavome optimizuoto skaičiaus, atlikusio aukščiausius rezultatus, skaičių pagal S2, atliktą per 1000 skaidinių vidurkį, kad nustatytume vidutinį tikslumą ir AUC metriką, kad patikrintume „išmintį“. minios. “Panašiai kaip ir PC indeksas, vidutinis septynių geriausių metodų integruotas efektyvumas (vertinant S3) parodė AUC padidėjimą atitinkamai 14% ir 7% sinergetinių ir antagonistinių junginių poroms, palyginti su tik geriausiu metodu. spektaklis (užsakytas pagal komplektą S1). Rezultatai parodė, kad „minios išmintis“ lemia aukštą ir nuoseklų visų metrikų darbą, dar labiau palaikydama integruotų strategijų moksliniuose tyrimuose idėją. Iš tikrųjų nė vienas atskiras metodas nepralenkė kitų metodais pagal kitus rodiklius. Tai rodo, kad gali tekti derinti kelias hipotezes, kad visame pasaulyje būtų atsižvelgiama į nuo konteksto priklausomą junginių sinergiją ir antagonizmą. Visų pirma, nors keli metodai (5c pav.) Buvo aiškiai statistiškai reikšmingi prognozuojant junginių sinergiją, bendras jautrumas buvo palyginti nedidelis (didžiausias buvo 37, 5% ( P ≤ 0, 02), palyginti su 17, 6% atsitiktinės atrankos būdu, 5c pav.). Spektaklis naudojant „minios išmintį“ pasirodė ypač gerai - buvo pasiektas didesnis nei 46% jautrumas sinergijai ir 51% - antagonizmas, o tai rodo, kad jungtinės sinergijos vertinimo in silico metodai pradeda įgyti numatomą vertę.

„SynGen“ algoritmas

Iš pradžių eksperimentinis duomenų rinkinys buvo skirtas patvirtinti „SynGen“ - metodą, skirtą aiškiai numatyti sinergiją, o ne antagonizmą. Remdamasi keleto publikacijų 6, 29, 30, 31, 32, 33 rezultatais, „SynGen“ daro prielaidą, kad pagrindinio reguliatoriaus (MR) veikla, nustatyta konkretaus ląstelės fenotipo, kaip nustatyta pagrindinio reguliatoriaus išvadų algoritmo MARINa 29, 30, yra būtinas ląstelių gyvybingumui (panašus į priklausomybę nuo onkogeno 34 ). MR yra apibrėžiami kaip reguliatoriai, kurie yra priežastiniu ryšiu būtini ir pakankami fenotipui specifinio geno ekspresijos parašo palaikymui. Taigi, pasipiktinimai, kurie (i) panaikina ląstelių būsenos MR aktyvumo modelį arba (ii) suaktyvina ląstelių mirties fenotipų MR, kaip taip pat daro išvadą MARINa, gali sukelti ląstelių gyvybingumo praradimą. Remdamasi šia hipoteze, „SynGen“ pirmiausia nustato atitinkamus OCI-LY3 ląstelių žūties ir ląstelių būklės MR modelius, tada nustato junginius, kurie yra labiausiai vienas kitą papildantys, sukeliant pirmąjį ir panaikinant antrąjį (2 papildomoji pastaba). Du signalai, naudojami MR tyrimui, buvo: (i) „ląstelės žūtis“, paremta GEP, po to, kai 24 valandą buvo pertraukiama 14 junginių, sukeliančių pastebimą toksiškumo lygį (IC 20 ); ir (ii) „ląstelių priklausomybės“ parašas, susijęs su aktyvuotu DLBCL ląstelių B tipo ląstelių potipiu (į kurį įeina OCI-LY3), palyginti su gemalinio centro B ląstelių potipiu, nes mes parodėme, kad naviko potipio MRs sukelia priklausomybę 30 . The latter signature was computed using publically available GEPs 35 for germinal center B-cell subtype cell lines (OCI-LY1, OCI-LY7, OCI-LY8, OCI-LY18 and SUDHL5) and for the activated B-cell subtype line OCI-LY3. SynGen then predicted synergistic compound combinations by selecting the compound pairs that are most complementary in implementing or abrogating these MR patterns, respectively. SynGen predicted synergistic compound pairs with high sensitivity (56%, P ≤ 0.001). However, its ability to predict the full compound-pair ranking was not statistically significant, as the algorithm was not designed to predict compound antagonism. Source code for the SynGen algorithm can be found in Supplementary Software 4.

Compound- and cell-dependent bias

To analyze whether specific compound categories are more likely to elicit synergy or antagonism, and whether successful predictions were biased toward specific compounds, we ranked all compounds using the area under recall curve, AURC, for their specific combinations (Supplementary Fig. 13). High AURCs indicate compound proclivity toward synergy, whereas low AURCs indicate antagonism. Analysis of gold standard data suggests that pleiotropic compounds, exhibiting significant polypharmacology, such as H-7 and mitomycin C, were enriched in synergistic pairs. Conversely, compounds with more targeted mechanisms, such as rapamycin and blebbistatin, were least synergistic.

Finally, to determine whether synergy or antagonism is a universal property of the compound pairs or is context specific, we performed additional experiments to assess synergistic activity for 142 compound pairs in MCF7 breast cancer cells and LNCaP prostate cancer cells and compared them (Supplementary Table 3). The analysis revealed no significant correlation between compound pairs ranked from the most synergistic to the most antagonistic (ρ = –0.06, P = 0.45, Supplementary Fig. 14). This shows that synergy and antagonism are highly context specific and are thus not universal properties of the compounds' chemical, structural or substrate information. As a result, predictive methods that account for the genetics and regulatory architecture of the context will become increasingly relevant to generalize results across multiple contexts.

Diskusija

This challenge provides a systematic and comparative evaluation of compound synergy and antagonism prediction methods based on blind experimental data. There are at least four reasons supporting the value and significance of this effort. First, although there are no previous experimentally validated efforts to predict synergy or antagonism of arbitrary compound pairs from single-compound perturbation data, our analysis shows that several laboratories have developed methodologies whose predictive ability is significantly better than random. Second, synergy and antagonism emerge as strongly context-dependent compound-pair properties. Thus, the value of synergy prediction methods is even more relevant, as experimental high-throughput synergy screen results cannot be generalized from one cellular context to others. Third, despite a complete lack of publications and established methodologies in this area, 31 teams from more than 13 countries participated in the challenge, thus effectively creating major interest in this field that over the long run is likely to further enhance our abilities to predict compound synergy and antagonism. Fourth, we established rigorous evaluation metrics for the assessment of synergy and antagonism prediction methods, thus allowing identification of three individual methods whose predictions significantly outperformed random guessing.

Although it is premature to claim that these advances will have an immediate and dramatic impact on the design of high-throughput screening assays for compound synergy assessment, the top-performing methods identified by this challenge already provide substantial potential reductions of the search space, suggesting that further improvements may increase the practical value of these techniques. For instance, the best-performing synergy-prediction method would have allowed screening only half of the compound combinations without missing any synergistic pair (Supplementary Fig. 15). Furthermore, many large-scale data sets representing individual compound perturbations are being generated and put in the public domain, such as those generated by the Library of Integrated Network-based Cellular Signatures (LINCS), which produced over 300, 000 gene expression profiles following single-compound perturbations across multiple cell lines. It is reasonable to expect that availability of these data sets will lead to additional advances in the predictive power of these methods.

Introduction of additional, more specific metrics suggests that different methods did not score consistently across all of them, and that none of the methods is effective in predicting both synergy and antagonism. This suggests that the specific hypotheses used to predict synergy may not necessarily apply to antagonism prediction, and vice versa. This further suggests a valuable path for approaches that integrate different hypotheses for synergy, additivity and antagonism.

Even though the SynGen method, for which the data were originally generated, was highly effective in predicting compound synergy with higher sensitivity than other methods, its validation followed the more common procedure of prediction followed by evaluation against experimental data. However, despite the fact that SynGen is not based on machine learning methods that may be trained from experimental data, one cannot absolutely rule out potential overfitting. As such, direct comparison of SynGen's performance to the community-submitted algorithms is not appropriate and was deliberately avoided in this manuscript.

Our analysis also suggested that compounds exhibiting significant polypharmacology were enriched in synergistic pairs, whereas compounds with targeted mechanisms were more likely antagonistic. This may be due to the increase in the probability of modulating specific synergistic genetic dependencies in the cell, when using polypharmacology compounds 36, 37 . Thus, these experimental assays provide an initial basis to guide future development of rational methodologies for the study of synergistic compound combinations in ABC-DLBCL lymphomas, providing further insight about relevant pathways that may be exploited in synergy experiments.

Despite these advances, there is ample room for both algorithm and evaluation metric improvements. For instance, none of the methods achieved near-optimal predictive power. Indeed, even though this challenge shows that current methodologies can perform significantly better than chance, there is still a large gap between ground truth (PC-index = 0.90) and the best prediction algorithms (PC index = 0.61). Methodological improvements are thus still required and could be achieved by several approaches, including (i) testing additional or more complex hypotheses about the mechanistic basis for compound synergy; (ii) generating larger perturbational profile data sets, for instance, using more concentrations and time points, to assess both early and late response to compound perturbation; (iii) exploring methodologies that better exploit the time-dependent nature of perturbational profiles; (iv) measuring complementary, context-specific molecular profiles, such as proteomic and epigenomic landscapes, to perform cross-data modality integrative analyses; (v) further integrating different methods within a unified framework; and (vi) addressing synergy, additivity and antagonism using distinct conceptual frameworks and hypotheses.

Compound synergy and antagonism were assessed only at the IC 20 concentration of individual compound, using the excess over Bliss additivity. In future challenges, however, synergy may need to be tested over a wider range of concentrations and using additional methodologies (eg, isobolograms). Results from gold standard data and predictions from top teams suggests that while designing new synergy experiments, it is important to make a larger selection of mechanistically diverse small molecules (targeted and pleiotropic) to compensate for the small number of potentially synergistic pathways.

Our findings suggest that DREAM challenges can provide a valuable mechanism to accelerate the development of predictive models for combination therapy, by providing an objective platform for the identification of model strengths and limitations through unbiased evaluations of model performance.

Metodai

Cell culture and compound treatment.

The OCI-LY3 diffuse large B-cell lymphoma (DLBCL) cell line was obtained from University Health Network (Toronto, Canada) and was cultured under standard conditions (37 °C in humidified atmosphere, with 5% CO 2 ) in IMDM supplemented with 10% FCS. Each compound was titrated in the OCI-LY3 cell line in a 20-point titration curve. Cell viability following compound treatment was determined using the CellTiter-Glo (Promega Corporation). An IC 20 value for each compound was calculated by using Dose Response Fit and Calculate ECx components from the Pipeline Pilot Plate Data Analytics collection. For compounds in which more than 20% viability reduction could not be reached, a default concentration of 100 μM was used. For generation of GEPs, the OCI-LY3 cells were seeded in tissue culture–treated 96-well plates at a density of 50, 000 cells per well (100 μl) and treated at the IC 20 concentrations of each of the compounds at 24 h and 48 h. In the assay, three time points (6, 12 and 24 h) were analyzed for gene expression profiling. All profiles were generated in triplicate biological replicates except DMSO-treated samples which were hybridized in octuplicate as they were used as internal controls for each time point. To confirm viability data at each step, identical plates were produced and cell viability assessed using the CellTiter-Glo reagent (Promega Corporation).

Gene expression profiling.

Total RNA was isolated with the Janus automated liquid handling system (PerkinElmer Inc.) using the RNAqueous-96 Automated Kit (Ambion), quantified by NanoDrop 6000 spectrophotometer and quality checked by Agilent Bioanalyzer. 300 ng of each of the samples with RIN value >7 was converted to biotinylated cRNA with the Illumina TotalPrep-96 RNA Amplification Kit (Ambion) using a standard T7-based amplification protocol and hybridized on the Human Genome U219 96-Array Plate (Affymetrix). Hybridization, washing, staining and scanning of the array plates were performed on the GeneTitan Instrument (Affymetrix) according to the manufacturer's protocols.

Experimental determination of synergy.

Kiekvieno junginio IC20 buvo nustatytas pagal 20 taškų titravimo kreives (kaip aprašyta aukščiau) 60 val. Po gydymo junginiu, išmatuojant ląstelės gyvybingumą ir sukuriant dozės-atsako kreivę. Tada kiekvieno junginio derinys buvo tiriamas atitinkamomis atskirų junginių IC20 (arba 100 μM) koncentracijomis penkiuose pakartojimuose. Visi junginiai ir deriniai yra praskiedžiami DMSO, galutinė DMSO koncentracija yra 0, 4%. Ląstelės buvo dedamos po 2000 ląstelių kiekviename šulinyje 384 šulinėlių plokštelėse ir junginiai buvo pridedami 12 valandų intervalu po sėjimo, perduodant serijiniu būdu praskiestus junginius. Tyrimo plokštelės buvo inkubuojamos 60 val., Po to kambario temperatūroje pridedama 25 μl CellTiter-Glo (Promega Corp.). Plokštelės buvo nuskaitytos Envision (PerkinElmer Inc.) naudojant patobulintą liuminescencijos protokolą.

Duomenų apdorojimas.

Visi genų ekspresijos mėginiai buvo kontroliuojami ir normalizuojami naudojant RMA normalizavimo metodą, naudojant „Bioconductor“ paketą R. Pradinis genetinis OCI-LY3 ląstelių linijos profilis buvo gautas iš nuorodos 18 ir buvo apdorotas naudojant CBS algoritmą, kaip paskelbta 47 . Galutinis segmentų failas buvo filtruojamas dėl bet kokių lytinių ląstelių aberacijų nuo 1, 74 iki 2, 3 ir segmentų, turinčių mažiau nei aštuonis žymenis. Segmentai, kurių aberacijos mažesnės nei 1, 74 arba didesnės nei 2, 3, buvo priskiriami atitinkamai išbrauktiems ir sustiprintiems.

„Bliss“ perteklius kaip sinergijos matas.

48 „Bliss additivism“ (arba „Bliss“ nepriklausomybės) modelis 48 numato, kad jei junginiai D x ir D y su eksperimentiškai išmatuotais trupmeniniais slopinimais f x ir f y turi papildomą poveikį, tada tikėtinas jų derinio sukeltas frakcinis slopinimas, f xy , turėtų būti būti:

Image

Bliss perteklius nustatomas apskaičiuojant junginio derinio sukeltą frakcinio slopinimo skirtumą, f z , ir tikėtiną frakcinį slopinimą, f xy

Image

Junginių pora, kuriai eob ≈ 0 turi adityvią elgseną, tuo tarpu jungtinė pora, turinti teigiamas (arba neigiamas) eob reikšmes, turi sinergetinį (arba antagonistinį) elgesį. Norėdami apskaičiuoti eob, mes panaudojome klaidų sklidimą, naudodami trupmeninius slopinimus.

Resambuota ietininko koreliacija.

Norėdami įvertinti, ar dalyvių reitingas nėra šališkas mūsų balų skaičiavimo metodais, visų dalyvių balams įvertinti taikėme kitą nepriklausomą metodą. Šiuo metodu daroma prielaida, kad eksperimentiniai vidutinės palaimos perteklių, matuojant palaimą, matavimai tam tikroje junginių poroje yra triukšmingi, atlikus normalųjį pasiskirstymą, N (μ, σ), kai vidurkis, μ yra lygus EOB vidurkiui ir sd, σ, lygus pusė pertekliaus per Palaimą. Kiekvienai junginių porai, i , atsitiktine tvarka imame galimą vidutinio EOB i matavimą iš pasiskirstymo, susijusio su ta junginių pora N (μ i , σ i ), ir gauname naują atrinktą visų junginių porų stebėtą balą.

Image

. Mes apskaičiuojame Spearmano koreliaciją tarp šių naujų atrinktų EOB verčių ir numatomų EOB gretų, kad būtų sugeneruotas Scorno randas . Mes pakartojame šį žingsnį 10 000 kartų, sukurdami 10000 skirtingų scorr randų ir pagaliau apskaičiuojame visų 10 000 scorr rand vidurkį , kad kiekvienam dalyviui būtų suteiktas galutinis rezultatas - scorr .

P vertės įvertinimas.

Mes įvertinome statistinį balų, gautų tiek iš tikimybinio c-indekso, tiek iš naujo imtų Spearman koreliacijos metodų, reikšmingumą, kiekvienam balui priskiriant P vertę. Norėdami apskaičiuoti P vertę, mes sugeneravome 10 000 atsitiktinių prognozių ir jas nepriklausomai įvertinome, naudodami PC indeksą ir įbrėžimą, todėl gavome empirinį nulinį pasiskirstymą (PC indeksas null ir scorr null ). Mes panaudojome šį empirinį nulinį pasiskirstymą, kad įvertintume kiekvieno dalyvio P vertes, kurios apskaičiuojamos kaip balų dalis null paskirstyme didesnė nei dalyvio rezultatas

Image

Palikite vieną testą.

Norėdami įsitikinti, kad dalyvių reitingai yra patikimi, mes apskaičiavome kiekvieno dalyvio balą sistemiškai pašalindami vieną junginį ir įvertinę 13 junginių balus bei priskirdami jiems naujas gretas. Kiekvienam dalyviui buvo atlikti 14 skirtingų testų, kiekvienam pašalinus vieną iš 14 junginių. Galų gale kiekvienai komandai buvo paskirta 14 rangų, remiantis jos rezultatyvumu, naudojant likusius 13 junginių.

AUC ir tikslumo / jautrumo analizė.

Mes įvertinome sinergetinių ir antagonistinių junginių porų numatymo reikšmę, naudodamiesi plotu po imtuvo veikimo charakteristikų kreive (AUC), kuris pagrindiniame tekste buvo vadinamas jautrumo ir specifiškumo analize. Norėdami apskaičiuoti sinergetinių prognozių AUC, pirmiausia suskirstome kiekvieno dalyvio prognozes iš labiausiai į mažiausiai sinergetines (numatomų sąrašų). Antra, iš aukso standarto mes apibūdiname junginių poras, kurios yra sinergetinės ir antagonistinės. Norėdami nustatyti tokias junginių poras, mes apskaičiavome kiekvienos junginių poros signalo ir triukšmo santykį ( SNR ), apibrėžtą kaip vidutinio pertekliaus per palaimą (EOB) santykis per EOB. Mes apibrėžėme bet kurią junginių porą kaip sinergetinę, jei jos vidutinis EOB buvo teigiamas, o jos snr yra didesnis nei 2, o tai davė 16 sinergetinių junginių porų. Panašiai junginių pora yra apibrėžta kaip antagonistiška, jei jos EOB yra neigiama, o jos snr yra didesnė kaip 2, gaunant 36 antagonistinių junginių poras. Likusios poros laikomos papildančiomis. Iš numatomų sąrašų pasirenkame populiariausias i prognozes ir apskaičiuojame tikrąją teigiamą normą ( TPR i ) ir klaidingai teigiamą normą ( FPR i ). Norėdami įvertinti TPR i ir FPR i , apskaičiuojame tikrųjų teigiamų ( TP i ) skaičių, apibrėžtą kaip teisingų sinergetinių porų skaičių viršutinėse i prognozėse, klaidingų teigiamų ( FP i ) skaičių, apibrėžtą kaip klaidingų skaičių sinergetinės prognozės viršutinėse i prognozėse - tikrų negatyvų ( TN i ) skaičius, apibrėžtas kaip teisingų nesinnergistinių junginių porų, prognozuojamų žemiau viršutinės i prognozės, skaičius ir klaidingų negatyvų ( FN i ) skaičius, apibrėžtas kaip sinergetinio skaičiaus junginių poros, numatytos žemiau viršutinės i prognozės.

Galiausiai TPR i ir FPR i apskaičiuojami taip:

Image

Mes kintame i nuo 1 iki 91 ir nubraižome TPR i (arba jautrumą), palyginti su FPR i (arba 1 - specifiškumu), kad gautume imtuvo veikimo charakteristikų (ROC) kreivę. Galiausiai apskaičiavome plotą pagal ROC kreivę, naudodami trapecijos metodą, kad integruotume ROC kreivę. Antagonistinių junginių porų AUC yra įvertinamas įvertinant prognozes nuo mažiausio iki mažiausio antagonistiškumo ir iš aukso etalono pasirenkant tikrąsias antagonistinių junginių poras.

Tikslumo / jautrumo analizė buvo atlikta taip. Išrūšiavę kiekvieno dalyvio prognozes nuo didžiausios iki mažiausiai sinergetinės, apskaičiuojame sinergetinių prognozių tikslumą kaip sinergetinių junginių porų dalį 16-oje geriausių prognozių, tai yra

Image

Panašiai buvo apskaičiuotas antagonistinių junginių porų tikslumas, rūšiuojant kiekvieno dalyvio prognozes nuo mažiausiai antagonistinių ir apskaičiuojant antagonistinių junginių porų dalį iš 36 geriausių prognozių. Jautrumas yra apibrėžiamas kaip TP (tikrųjų teigiamų) skaičius, padalytas iš bendro teigiamų P, skaičiaus (pvz., Sinergetinių ar antagonistinių vaistų porų). Kadangi tikslumui apskaičiuoti pasirinkome svarbiausias P vaistų grupes, mūsų tikslumo apskaičiavimas sutampa su jautrumo įvertinimu.

Kryžminiai ansamblių modeliai.

Norėdami sukurti ansamblio modelius, naudodamiesi skirtingų metodų prognozėmis, mes įvertinome kiekvienos junginių poros, numatytos visų modelių sujungimo metu, vidurkį ir sujungėme junginių poras pagal vidutinį reitingą. Norėdami įvertinti apibendrinimo pranašumus, naudojome modelio atrankos vertinimo metodą. Atsitiktinai atsitiktinai padalijome visas sudėtines poras į tris vienodo dydžio pogrupius ir pirmąją grupę S1 panaudojome modeliams rūšiuoti nuo geriausių iki blogiausių, o antroji grupė - S2, norėdama įvertinti modelių, kuriuos derinti, kad būtų pasiektas geriausias našumas, skaičių, ir, galiausiai, trečioji grupė S3, skirta nešališkam individualių ar agreguotų modelių testavimui. Mes pakartojome šį procesą 1 000 kartų, kad įvertintume statistinį skirtumų tarp agreguotų ir individualių našumų reikšmingumą. Tiksliau tariant, i -ame padalijime (kur i skiriasi nuo 1 iki 1 000) apskaičiuojame kiekvieno dalyvio PC indeksą, naudodamiesi sudėtinėmis poromis S1 i, ir, remdamiesi jų rezultatyvumu, sudarome komandų sąrašą T1 i, užsakytą iš geriausios ir blogiausios komandos. Toliau apibendriname K geriausius metodus T1 i ir panaudojame pogrupį S2 i, kad apskaičiuotume PC indeksą (naudodami junginių poras S2i), PC2 ik , ir keičiame k nuo 1 iki 31. Mes nustatome k * taip, kad PC2 ik ≥ PC2 ik visiems k , nurodant dalyvių skaičių, kurių visuma suteikia didžiausią PC indeksą (S2 i ). Galiausiai, naudodamiesi S3 i, mes apskaičiuojame PC indeksą, PC3 ik * , kad nustatytume aukščiausių k * dalyvių, nurodytų ankstesniame žingsnyje, našumą, tačiau naudodami junginių poras poaibyje S3i. Tokiu būdu S1 pogrupiai buvo naudojami nustatant, kuriuos modelius derinti kartu, S2 pogrupiai buvo reikalingi tik siekiant nustatyti optimalų metodų skaičių maksimaliam našumui pasiekti, o S3 pogrupiai buvo naudojami tik norint įvertinti nešališką agregato, apie kurį galiausiai buvo pranešta, veikimą. 4 paveiksle. Norėdami įvertinti palyginamą vieno metodo našumą, mes pasirinkome geriausią atlikėją, nustatytą pagal S1, ir įvertinome jo našumą S3.

Plotas po atšaukimo kreivės (AURC).

Kiekvieno junginio plotas po atšaukimo kreivės (AURC) sukuriamas pirmiausia apskaičiavus 13 derinių, kuriuose gali dalyvauti pasirinktas junginys, frakcijas, esančias viršutinėse i junginių porose, suskirstytas nuo sinergetiškiausių iki antagonistiškiausių porų. . Mes varijavome i nuo 1 iki 91 ir nubraižėme tą frakciją, palyginti su i, kad susidarytume atšaukimo kreivę, ir pagaliau apskaičiavome plotą po atšaukimo kreivės, naudodami trapecijos metodą. Aukštas plotas po atšaukimo kreivės yra junginio polinkio į sinergiją prognozė, tuo tarpu mažas plotas po atšaukimo kreivės yra priešiškumo prognozė.

Hanley-McNeil metodas.

Mes įvertinome statistinį našumo skirtumo reikšmingumą bet kuriais dviem metodais ( i , j ), apskaičiuodami skirtumo reikšmę plote pagal jų ROC kreivę, naudodami Hanley ir McNeil 49 metodą. Šią reikšmę atskirai apskaičiavome sinergetinėms ir antagonistinėms prognozėms. Norėdami įvertinti šią reikšmę bet kuriam i metodui, pirmiausia apskaičiavome plotą po ROC kreivės A i , naudodami trapecijos metodą. Toliau mes įvertinome standartinę paklaidą SE i , kuri greičiausiai bus susijusi su įvertinant A i

Image

n p = sinergetinių arba antagonistinių junginių porų skaičius ir n n = 91 - n p .

Galiausiai panaudojome normalią kaupiamojo paskirstymo funkciją

Image

įvertinti P vertę, kur klaidos funkcija yra „erf“. Atkreipkite dėmesį, kad ši procedūra įgyja numatomo AUC nepriklausomumą - prielaidą, kurią galima pažeisti, jei junginių poros yra paslėptos.

Junginių porų aktyvumas MCF7 ir LNCAP ląstelių linijose.

Mes išbandėme porų 71 junginių derinius su proteasomų inhibitoriumi MG 132 ir HDAC inhibitoriumi Trichostatin A (iš viso 142 derinius) MCF7 krūties vėžio ląstelių linijoje ir LNCAP prostatos ląstelių linijoje, naudodami ląstelių gyvybingumo testą. Kiekvienai junginių porai atlikome 16 eksperimentų su keturiomis skirtingomis dozėmis kiekvienam junginiui. Norėdami apskaičiuoti kiekvienos poros sinergiją, mes apskaičiavome Bliss balų perteklių kiekviename iš 16 eksperimentų ir kaip junginių poros sinergijos balą paėmėme vidutiniškai 16 balų.

Prisijungimo kodai.

Visiems šio iššūkio dalyviams pateiktus duomenis galima atsisiųsti iš //www.the-dream-project.org/challenges/nci-dream-drug-sensitivity-prediction-challenge. Neapdoroti CEL failai, skirti genų ekspresijos profiliams, yra GEO: GSE51068.

Prisijungimai

Pirminės prieigos

Genų ekspresijos omnibusas

  • GSE51068

Papildoma informacija

PDF failai

  1. 1.

    Papildomas tekstas ir figūros

    Papildomi 1–15 paveikslai, papildoma byla ir 1 ir 2 papildomos pastabos

„Excel“ failai

  1. 1.

    1 papildoma lentelė

    Kiekvieno dalyvio naudojamų metodų, funkcijų ir duomenų santrauka.

  2. 2.

    2 papildoma lentelė

    Eksperimentiškai nustatytas visos 91 junginio poros palaimos perteklius.

  3. 3.

    3 papildoma lentelė

    Junginių porų, kurių sinergetinis aktyvumas buvo patikrintas MCF7 ir LNCAP ląstelių linijose, sąrašas. Visos junginių poros yra klasifikuojamos nuo sinergetiškiausios iki antagonistiškiausios kiekviename kontekste.

ZIP failai

  1. 1.

    Papildoma programinė įranga