Ani-1, 20 milijonų duomenų rinkinys, apskaičiuotas organinių molekulių pusiausvyros nesuderinimais | moksliniai duomenys

Ani-1, 20 milijonų duomenų rinkinys, apskaičiuotas organinių molekulių pusiausvyros nesuderinimais | moksliniai duomenys

Anonim

Dalykai

  • Kombinatorinės bibliotekos
  • Kompiuterinė chemija
  • Tankio funkcinė teorija
  • Metodo kūrimas

Anotacija

Vienas didžiausių šiuolaikinės teorinės chemijos iššūkių yra suprojektuoti ir įgyvendinti aproksimacijas, kurios paspartina ab initio metodus neprarandant tikslumo. Atsiranda mašininio mokymosi (ML) metodai, kaip galingas požiūris į įvairių formų perkeliamų atominių potencialų konstravimą. Jie buvo sėkmingai pritaikyti įvairiose srityse chemijoje, biologijoje, katalizėje ir kietojo kūno fizikoje. Tačiau šie modeliai labai priklauso nuo jų įrengimui naudojamų duomenų kokybės ir kiekio. Labai lanksčių ML potencialų, tokių kaip neuroniniai tinklai, pritaikymas kainuoja: norint tinkamai apmokyti šiuos modelius, reikia milžiniškų referencinių duomenų. Mes patenkiname šį poreikį suteikdami prieigą prie didelės skaičiavimo DFT duomenų bazės, kurią sudaro daugiau kaip 20 M pusiausvyros pokyčių 57 462 mažoms organinėms molekulėms. Mes tikime, kad tai taps nauju standartiniu etalonu palyginti dabartinius ir būsimus metodus ML potencialioje bendruomenėje.

Metaduomenų santrauka

Dizaino tipas (-ai)
  • duomenų bazės kūrimo tikslas
Matavimo tipas (-ai)

  • fizikocheminis apibūdinimas
Technologijos tipas (-ai)

  • skaičiavimo modeliavimo technika
Faktoriaus tipas (-ai)

  • organinė maža molekulė
Charakteristikos pavyzdys (-iai)

Atsisiųsti metaduomenų failą

Mašinų pasiekiamas metaduomenų failas, apibūdinantis pateiktus duomenis (ISA skirtuko formatas)

Pagrindiniai faktai ir santrauka

Tikslūs atominės ir tarpmolekulinės sąveikos aprašymai yra patikimos kompiuterinės simuliacijos biofizikoje, chemijoje ir medžiagų moksle pagrindas. Per pastaruosius 50 metų pastebėjome didžiulę pažangą plėtojant teorinius metodus ir programines įrankius, kuriais siekiama aprašyti sudėtingesnes sistemas ir leisti ilgesnį laiko tarpą. Kohn-Shamo tankio-funkcinė teorija (trumpai tariant, KS-DFT arba DFT) tapo bene populiariausiu elektroninės struktūros metodu skaičiavimo fizikoje ir chemijoje 1 . DFT rado taikymo daugelyje sistemų organinėje chemijoje 2, 3, biologijoje 4, katalizėje 3, 5 ir kietojo kūno chemijoje 6, 7 . Jis taip pat dažnai derinamas su molekuline dinamika (AIMD) ir klasikiniais jėgos laukais (kvantinė mechanika-molekulinė mechanika (QM-MM)), kad apibūdintų chemines reakcijas išplėstose sistemose.

Nors DFT skaičiavimai tapo įperkami šiuolaikiniuose superkompiuteriuose, susiduriame su dilema: standartiniams skaičiavimo algoritmams, vaizduojantiems N elektronų sistemą, reikia O (N 2 ) kaupimo ir O (N 3 ) aritmetinių operacijų. Šis O (N 3 ) sudėtingumas tapo kritine kliūtimi, ribojančia galimybes studijuoti didesnes realistiškas fizines sistemas, taip pat ilgesnes realiam eksperimentui reikalingas laiko skales. Taigi, atominio potencialo plėtojimas naudojant mašininį mokymąsi (ML) 8, 9 padarė didelę pažangą. Mažas mašininio mokymosi algoritmų skaitmeninis sudėtingumas ir didelis tikslumas daro juos labai patrauklius kaip pragmatišką ab-initio ir DFT metodų pakaitalą. Dėl savo nepaprasto sugebėjimo rasti sudėtingus ryšius tarp duomenų, daugeliu atvejų šie „mašinomis išmokti“ modeliai atlieka daugiau fiziškai pagrįstų aproksimacijų (pvz., Jėgos laukų) ir metodų, tuo pačiu sumažindami skaičiavimo laiką, reikalingą konkrečiai programai 9, 10, 11, 12, 13, 14, 15 . Šie modeliai labai priklauso nuo jų įrengimui naudojamų duomenų kokybės ir kiekybės, dar vadinamų mokymu. Dėl savo lanksčios funkcinės formos neuroniniai tinklai yra labai veiksmingi ir efektyvūs modeliuojant pamatinius treniruočių duomenis. Tačiau šis lankstumas kainuoja brangiai: norint tinkamai išmokyti šiuos modelius, reikia labai daug referencinių duomenų.

„Cheminės erdvės projektas 16“ skaičiavimais išvardijo visas įmanomas organines molekules iki tam tikro dydžio, todėl buvo sukurtos GDB duomenų bazės. Jų naujausioje GDB-17 duomenų bazėje 17 yra 166, 4 milijardo molekulių, turinčių iki 17 C, N, O, S ir halogenų atomų. Visos molekulės laikosi valentingumo taisyklių ir filtruojamos dėl nestabilių struktūrų, nesintetinamų ir įtemptų topologijų. GDB molekulės saugomos kaip SMILES [www.opensmiles.org] eilutės, vaizduojančios molekulės sudėtį ir ryšį.

GDB duomenų bazės buvo labai svarbios kuriant QM7 duomenų rinkinį 18, vieną iš pirmųjų etaloninių duomenų rinkinių, skirtų mokyti atomines ML galimybes. QM7 duomenų rinkinį sudaro 7165 minimizuotos energijos (pusiausvyros) molekulės, apskaičiuotos naudojant funkcinį PBE0. Visos struktūros yra nedidelis GDB-13 (senesnės beveik 1 milijardo organinių molekulių GDB duomenų bazės) pogrupis, sudarytas iš molekulių, turinčių iki 7 sunkiųjų atomų C, N, O ir S. Vėliau QM7 buvo išplėstas įtraukiant 13 papildomų savybių, kaip pasienio molekulinės orbitalinės energijos, dipolio momentai, poliarizuotumas ir sužadinimo energijos 19 . Pirmasis ML modelis, treniruotas naudojant QM7, panaudojo branduolio keteros regresiją su Kulono matricos vaizdavimu, kuris numatė atomizacijos energijas, kurių vidutinė absoliuti paklaida (MAE) yra 9, 9 kcal × mol −1 . Ši klaida buvo greitai sumažinta iki 3, 3 kcal × mol- 1 (nuoroda 20) ir galiausiai buvo mažesnė nei 1 kcal × mol −1 (nuoroda 21).

QM9 yra bene labiausiai žinomas palyginimo duomenų rinkinys 17, 22 . Jį sudaro 133 885 pusiausvyros organinės molekulės, turinčios iki devynių sunkiųjų atomų (CONF) iš GDB-17 duomenų bazės. Be energijos minimumų, jis nurodo atitinkamus harmoninius dažnius, dipolio momentus, poliarizuotumą, taip pat energijas, entalpijas ir laisvas atomizacijos energijas. Visos savybės buvo apskaičiuotos B3LYP / 6–31 G (2df, p) kvantinės chemijos lygiu. Taip pat buvo apskaičiuotas 6 095 konstitucinių izomerų pogrupis QM9, atitinkantis brutto formulę C7H10O2, tikslesniu G4MP2 teorijos lygiu. Įvairūs molekuliniai vaizdai ir ML metodai buvo palyginti su QM9 duomenų rinkiniu 20, 21, 23, 24. Taip pat žiūrėkite naujausią metodų apžvalgą 23 . Vėliau „Message Passing Neural Network“ (MPNN) 10 pasiekė cheminį tikslumą 11 iš 13 tikslinių savybių QM9 duomenų rinkinyje. Galiausiai hierarchiškai sąveikaujantis dalelių nervų tinklo (HIP-NN) 15 modelis Lubbers et. al . prognozuojamas bendrosios energijos tikslumas - tik 0, 26 kcal × mol −1 MAE.

Bendras visų QMx duomenų rinkinių bruožas yra tas, kad jie tiria tik cheminius laisvės laipsnius, pateikdami informaciją apie minimizuotos energijos (pusiausvyros) molekulines konfigūracijas. Šiose molekulėse visų atomų jėgos yra lygios nuliui. Todėl buvo imtasi didelių pastangų siekiant sukurti pusiausvyros duomenų rinkinius, naudojant ab initio molekulinės dinamikos (AIMD) modeliavimą. Į C7O2H10–17 duomenų rinkinį įeina 113 C7O2H10 izomerų AIMD trajektorijų energija (kiekviena po 5 k kadrus). Visuose modeliavimuose buvo naudojamas DFT / PBE teorijos lygis ir jie buvo atlikti esant 500 K temperatūrai. Visai neseniai Schutt et al. 21 ir Chmiela ir kt. 25 išleistas MD17 duomenų rinkinys, aštuonių AIMD / PBE + vdW-TS modelių rinkinys mažoms organinėms molekulėms. Kiekvieną iš jų sudaro MD trajektorija vienai molekulei, besitęsiančiai nuo ~ 100 K iki 900 K kadrų. Priešingai nei QMx duomenų rinkiniai, šie MD duomenų rinkiniai tiria konformacinę erdvę išlaikydami fiksuotą kompoziciją.

Neseniai pristatėme neuroninio tinklo potencialą (NNP), vadinamą ANI-1, kuris yra pirmasis organinių molekulių NNP, parodytas, kad perkelia į molekulines sistemas gerokai už savo treniruočių komplekto ribų. Kaip buvo pristatyta, ANI-1 potencialas buvo išmoktas duomenų rinkinyje, apimančiame ir konformacinę, ir konfigūracinę erdvę, sudarytą iš mažų organinių molekulių, turinčių iki 8 sunkiųjų atomų. Mes parodome jo pritaikomumą daug didesnėms sistemoms, iki 50 atomų, įskaitant gerai žinomas vaistų molekules ir atsitiktinį molekulių pasirinkimą iš GDB-11 (nuorodos 26, 27) duomenų bazės su 10 sunkiųjų atomų. ANI-1 rodo išskirtinę numatomą galią 10 sunkiųjų atomų bandymo rinkinyje, kai RMSE ir DFT santykinė energija yra mažiausia - 0, 57 kcal × mol −1, kai atsižvelgiama tik į molekulines konformacijas, kurios yra 30 kcal × mol −1 ribose nuo minimalios energijos kiekviena molekulė. Visai neseniai Gastegger ir kt. al. 28, parodė panašius rezultatus didelėms organinėms sistemoms, kurios buvo suskaidytos į mažesnes molekules, o DFT duomenys buvo sugeneruoti mokant. Tai buvo padaryta aktyvaus mokymosi būdu, kurio tikslas yra išmokyti potencialą konkrečioje sistemoje MD modeliavimo metu. Neilgai trukus Huangas ir Von Lilienfeldas 29 panaudojo fragmentacijos schemą, mokydami ML modelį, kad nuspėtų didelių standžiųjų narkotikų molekulių energijas. Abu tyrimai patvirtina argumentą, kad informacijos apie didelių sistemų fiziką galima sužinoti iš mažų molekulių duomenų rinkinių.

Šiame duomenų apraše pateikiamas didelis organinių molekulių nebalansinės DFT bendrosios energijos apskaičiavimo duomenų rinkinys. Iš viso GDB duomenų bazėje 26, 27, iš kurios imami cheminiai ir konformaciniai laisvės laipsniai, mes suteikiame prieigą prie 57, 462 molekulių bendros ~ 20 M molekulinės konformacijos energijos. Kadangi QM9 etalono pusiausvyros molekulių šiuolaikinių ML metodų tikslumas pasiekė 1 kcal × mol −1, ANI-1 pateikia 100x daugiau duomenų ir daug sudėtingesnę užduotį. Todėl tikimės, kad tai taps nauju standartiniu dabartinių ir būsimų metodų palyginimo etalonu išmoktoje potencialioje bendruomenėje. Dar svarbiau yra tai, kad jis yra tinkamas būsimų bendrosios paskirties mašinų išmoktų galimybių plėtros pagrindas, suteikiantis išsamų duomenų generavimo pradžią, kurį galima papildyti būsimais duomenų rinkiniais, apimančiais atitinkamus cheminės erdvės regionus.

Metodai

QM skaičiavimai

Visi elektroninės struktūros skaičiavimai atlikti naudojant funkciją ωB97x (nuoroda 30) ir 6–31 G (d) bazę 31, esančią „Gaussian 09“ (nuoroda 32) elektroninės struktūros pakete. 97B97x yra hibridinis meta-GGA funkcinis 30, kuris buvo įrodytas chemiškai tiksliai, palyginti su aukšto lygio CCSD (T) skaičiavimais 33, 34, 35, 36, 37 .

Molekulinės geometrijos generavimas

GDB-11 duomenų bazėje 26, 27 pateikiama išsami stabilių ir chemiškai perspektyvių molekulių, pateiktų SMILES [www.opensmiles.org] eilutės formatu, turinčių C, N, O ir F atomus, turinčius iki 11 iš šių molekulių, paieška “. sunkieji 'atomai. Vandenilio atomai pridedami per „RDKit“ cheminformatikos programinės įrangos paketą [www.rdkit.org], kad molekulių struktūros, kurios krūvio atžvilgiu yra neutralios ir turinčios atskirą elektroninę pagrindinę būseną. Čia pateiktas ANI-1 duomenų rinkinys yra sudarytas iš išsamių pavyzdžių atrankos iš GDB-11 duomenų bazės pogrupio, kuriame yra molekulės, turinčios nuo 1 iki 8 sunkiųjų atomų ir ribojančios atomines rūšis C, N ir O. Tai palieka pogrupį 57 947 pradinės molekulės. Visos molekulės yra neutralios ir turi atskirą elektroninę pagrindinę būseną. Konformacijos generavimo procesas vykdomas penkiais etapais, pradedant nuo šių 57 947 molekulių. Žingsniai yra išvardyti žemiau ir kokybiškai pavaizduoti 1 pav.

Image

57 462 molekulių nebalansinių konformacijų generavimo iš GDB-11 duomenų bazė. Šios schemos tikslas yra sukurti potencialaus paviršiaus „langą“ aplink kiekvieną optimizuotą pusiausvyros struktūrą.

Visas dydis

Aukščiau aprašyto GDB-11 pogrupio šypsenų stygos yra naudojamos 3D konformacijoms generuoti naudojant RDKit. Taip pat naudojant RDKit, visos struktūros yra prisotintos vandeniliais taip, kad kiekviena jų turi 0 įkrovą ir daugybę 1. Tada 3D struktūros iš anksto optimizuojamos iki nejudamo taško, naudojant MMFF94 jėgos lauką 38, kaip įdiegta RDKit.

Pasirinktu DFT arba ab-initio teorijos lygiu geometrijos yra optimizuojamos, kol energijos minimumai suartės. Optimizavimas atliekamas naudojant Gaussian 09 numatytąjį metodą ir konvergencijos kriterijus. Gautos geometrijos atitinka pirmą nejudamą tašką, pasiektą potencialiame paviršiuje, ir atitinka kai kuriuos vietinius minimumus arba retais atvejais - balno tašką. Jei konvergencija nepavyksta, struktūra nėra įtraukta į duomenų rinkinį. Šiame etape 485 (0, 84% visų) molekulių nesugebėjo suartėti konstrukcijos optimizavimo metu. Galutinis duomenų rinkinys yra sudarytas iš šių 57 462 pusiausvyros geometrijų. Galiausiai kiekvienai iš 57 462 struktūriškai optimizuotų molekulių normalus režimas apskaičiuojamas „Gaussian 09“ pakete, kad būtų gautos normaliojo režimo koordinatės ir su jomis susijusios jėgos konstantos. Tai atliekama naudojant „UltraFine DFT“ tinklelio variantą su 97B97x tankio funkciniu.

Atranka įprastu režimu (NMS)

Normaliam režimui imti N a atomų molekulę, kurioje minimizuota energija, pirmiausia nustatykite N f normaliojo režimo koordinates, Q = {q1, q2, q3,

.

qNf}, apskaičiuojamas norimu ab-initio teorijos lygiu, kur N f = 3 N a −5 linijinėms molekulėms ir N f = 3 N a −6 visoms kitoms. Atitinkamos jėgos konstantos K = {K1, K2, K3, ⋯, KNf} gaunamos kartu su Q. Tada sukuriamas Nf tolygiai paskirstytų pseudoatsitiktinių skaičių ci rinkinys, kad ∑iNfci yra [0, 1] intervale. Toliau kiekvienos įprasto režimo koordinatės poslinkis R i apskaičiuojamas nustatant harmoninį potencialą, lygų dalelių sistemos vidutinei energijai, apskaičiuotai pagal C i skalės vidutinę energiją tam tikroje temperatūroje. T. Poslinkio sprendimas suteikia, (1) Ri = ± 3ciNakbTKi, kur k b yra Boltzmanno konstanta. R i ženklas nustatomas atsitiktine tvarka iš Bernelio paskirstymo, kur P = 0, 5, siekiant užtikrinti, kad abiejų harmoninio potencialo pusių pavyzdžiai būtų vienodi. Kiekvienas R i naudojamas normalizuoto normaliojo režimo koordinatėms išmatuoti qiR = Riqi. Tada sukuriama nauja molekulės konformacija, išstumiant struktūriškai optimizuotas koordinates Q R - visos qiR padėties atžvilgiu. Pagaliau apskaičiuojama vieno taško energija norimame teorijos lygyje, naudojant naujai išstumtas koordinates kaip įvestį.

Sugeneruojama N duomenų taškų (naujų konfigūracijų), kurie atspindi potencialaus paviršiaus langą. N apskaičiuojamas S × K, kur S yra empiriškai pasirinkta reikšmė (žr. 1 lentelę), remiantis sunkiųjų atomų skaičiumi kiekvienoje molekulėje, o K - molekulės laisvės laipsnių skaičius. Bendra energijos energija, atominiai simboliai ir dekarto koordinatės yra saugomos, kaip aprašyta skyriuje „Duomenų formatas“.

Pilno dydžio lentelė

Duomenų įrašai

Duomenų rinkinys pateikiamas HDF5 pagrindu sukurtame faile „Figshare“ duomenų saugykloje (1 duomenų citata: Figshare //doi.org/10.6084/m9.figshare.c.3846712). „GitHub“ saugykla, kurioje yra README failas su išsamia technine naudojimo informacija ir prieigos prie duomenų rinkinio pavyzdžiais, tiekiama internetu (//github.com/isayev/ANI1_dataset).

Failo formatas

Duomenys saugomi apie molekulę, kaip aprašyta 2 pav. Kiekvienos X molekulės duomenys saugomi python dict tipo, kuriame yra visi duomenys apie konformerį. 2 pav. Pavaizduoti klavišai: koordinatės, energija ir rūšys suteikia prieigą prie pavaizduoto tipo konteinerių, kuriuose yra rakto aprašyti duomenys. Rūšis yra python stygų sąrašas, kuriame yra kiekvieno atomo atominis simbolis, ir jo eiliškumas teisingai atitinka koordinatės numpy masyvo 1 matmenį. Pridėjus „HE“ prie koordinačių ir energijos klavišų galo, bus gautos aukštos energijos struktūros, kaip aprašyta techninio patvirtinimo skyriuje.

Image

Žodyne saugomų talpyklų, grąžintų kartojant HDF5 failo formatu saugomas molekules, aprašymas. Mygtukas „Koordinatės“ suteikia prieigą prie 3D matricos, kurioje kiekvienas molekulės konformeris yra dekarto koordinatėmis, o raktas „energija“ suteikia 1D matricų energiją konformeriams. Pirmasis kiekvieno „koordinačių“ ir „energijos“ masyvo matmuo teisingai parodo atitinkamą struktūrą. „Rūšis“ klavišą sudaro atomų atomų simbolis ir nurodoma, kad jie atitiktų teisingus atomus antrame masyvo matmenyje, kurį grąžina raktas „koordinatės“. Kiti klavišai grąžintame žodyne yra: 'koordinatėsHE', 'energijosHE' ir 'šypsenos', skirtos atitinkamai aukštos energijos koordinatėms, didelės energijos energijai ir SMILES eilutei.

Visas dydis

Techninis patvirtinimas

Kadangi ne pusiausvyros struktūroms generuoti naudojamas atranka įprastu režimu, duomenų rinkinyje yra didelės energijos conformerių. Šios didelės energijos konformacijos įvyksta tais atvejais, kai harmoninis normaliųjų režimų aproksimavimas žlunga anharmoniniuose potencialo regionuose ir yra atsirandantis dėl atominių susidūrimų ar kitų labai nepalankių molekulių pokyčių. Paskirstymas, parodytas 3b pav., Vizualizuoja energijas duomenų rinkinyje, kuriame yra struktūros, kurių energija siekia net 15 Ha. Dėl šios priežasties į ANI-1 potencialo treniruotes nebuvo įtraukta energija, didesnė kaip 275 kcal × mol −1, didesnė už žemiausią energijos konformatorių. Tai pašalino 2 630 435 (10, 7% pradinio viso) konstrukcijų, gaunančių 22 057 374 konstrukcijas. Į biocheminius tyrimus paprastai neatsižvelgiama į regionus, kuriuose yra daug energijos. Tačiau šie duomenys gali būti naudingi kai kuriais tikslais. Todėl mes įtraukiame ir didelės energijos, ir mažai energijos reikalaujančius duomenų rinkinius, kaip aprašyta duomenų aprašymo skyriuje. 3c paveiksle parodytas naujas energijos pasiskirstymas, kuris niekada neviršija 0 Ha bendros energijos, atėmus atominių indėlių sumą į bendrą energiją.

Image

a ) Bendrosios energijos pasiskirstymas padalytas iš elektronų skaičiaus, paimto iš įprastinio režimo mėginių ėmimo kiekviename „GDB-11“ aibės rinkinyje (nuo 04 iki 08). Kiekvienas paskirstymas keičiamas taip, kad jo plotas būtų lygus. b ) Atomų energijos pasiskirstymas pagal užpildytą duomenų rinkinį su įterpimu, kurio ilgoji uodega siekia daugiau kaip 12 Ha. c ) Atomazgos energijos pasiskirstymas sutrumpinus visas energijas, viršijančias 275 kcal × mol −1, nuo kiekvienos molekulės minimalios energijos.

Visas dydis

Konstrukcijų optimizavimo etape mes neskiriame optimizuotų konstrukcijų, kurios gali nusileisti balno potencialo paviršiaus taške, nuo tų, kurios nusileidžia esant tam tikriems konstrukcijos minimumams. Atsižvelgiant į tikslą imti konformacinę erdvę, tai, kad kai kurios struktūros gali nusileisti esant nelygioms pusiausvyros geometrijoms (balnelio taškams), iš tikrųjų galėtų padėti panaudoti šiuos duomenis potencialiems paviršiams pritaikyti, nes tai padės apimti konformacinės erdvės sritis, kurių neapima pusiausvyra. molekulės normaliojo režimo mėginių ėmimas. Tačiau jei optimizacijos nepavyksta pasiekti nejudančiame taške, kaip tai padarė 485 molekulės, tada šios struktūros nebuvo įtrauktos į treniruočių rinkinį, nes jų konfigūracijos pagrįstumo nebuvo galima iš karto patvirtinti. Tačiau atsižvelgiant į daugybę duomenų rinkinyje esančių struktūrų, tikėtina, kad bet kokią šių 485 molekulių sąveiką galima rasti kitur duomenų rinkinyje.

Panašus procesas, kai informacija neįtraukiama į neginčijamus skaičiavimus, naudojamas generuojant bendrą energiją. Tam tikriems labai pailgintiems ryšiams molekulinės orbitos optimizavimo procesas, savaime nuoseklus lauko metodas, naudojamas norint gauti bendrą konformacijos energiją, gali nepavykti susilieti su sprendimu, kai du orbitaliai yra per arti energijos. Dėl šios priežasties, jei struktūros vieno taško energijos skaičiavimas nepavyko suvienodėti, šie duomenys neįtraukiami į duomenų rinkinį.

Pagrindinė ne pusiausvyros duomenų įtraukimo koncepcija yra atrinkti cheminės erdvės regionus, kurie būtų retai aprėpti tik pusiausvyros duomenų rinkiniuose. 3a paveiksle pateiktas energijos ėminių ėmimo įteisinimas, parodant bendrosios energijos pasiskirstymą, padalytą iš bendro kiekvienos molekulės elektronų skaičiaus GDB pogrupiuose nuo 4 iki 8 sunkiųjų atomų. 3b, c paveiksle parodytas bendrosios energijos pasiskirstymas atėmus visų atskirų atominių energijų sumą (lentelė pateikta 1 papildomos informacijos lentelėje), kai visa ir „maža energija“ (mažesnė kaip 275 kcal × mol- 1 iš minimalios energijos) duomenų rinkiniai, atitinkamai.

Tolesnis netolygaus mėginių ėmimo patvirtinimas turi parodyti, kad duomenų rinkinys apima didelę cheminių laisvės laipsnių sritį konformacinėje erdvėje. 4 paveiksle yra penkios plokštės, vaizduojančios atominių atstumų pasiskirstymą gautame ne pusiausvyros duomenų rinkinyje (mėlyna linija), palyginti su tos pačios molekulės tik pusiausvyros konformacijų (raudona) duomenų rinkiniu. Kaip ir tikėtasi, normalios būsenos atrankos metodas, naudojamas ne pusiausvyros konformacijoms generuoti, aplanko tas konformacijos erdvės sritis, kuriai netaikomi tik pusiausvyros duomenys. Panašus grafikas, papildoma informacija 1 pav. Parodo likusių atominių porų atstumo pasiskirstymą. 5 paveiksle parodytas pasiskirstymas, apimantis duomenų rinkinių kampus, ir pasakojama panaši istorija, kalbant apie aprėptį erdvės kūne trims sąveikoms. Mėlynas fono tankio grafikas rodo, kad ANI-1 duomenų rinkinys apima daug daugiau kampo erdvės nei pusiausvyros duomenų rinkiniai (raudona ir oranžinė). Likę sklypai yra įtraukti į papildomos informacijos 2–4 pav.

Image

Atominių atstumų pasiskirstymas duomenų rinkinio, sudaryto iš molekulių, turinčių nuo 4 iki 8 sunkiųjų atomų (GDB-04 iki 08) C, N ir O, pogrupyje. Y ašis yra bazinis 10 logaritmas, skaičiuojant atstumai kiekvienoje šiukšliadėžėje, normalizuojami visame domene, kad būtų galima palyginti du rinkinius. X ašis parodo mažiausios įmanomos molekulės, turinčios pavaizduotą tipo jungtį, atomo atstumą (r), padalytą iš vienos jungties pusiausvyros atstumo ( r 0 ), apskaičiuoto naudojant functionalB97x tankį, funkcinį su 6–31 g ( d) bazinis rinkinys. Raudona histograma rodo visą atstumų pasiskirstymą duomenų rinkinyje, kuriame yra tik pusiausvyros atstumai. Mėlyna linija rodo mūsų ne pusiausvyros duomenų rinkinio pasiskirstymą, kai atstumai atsitiktine tvarka paimami iš 1% greičio. Kaip parodyta paveiksle, net 1% nesubalansuoto duomenų rinkinio apima didelius atstumo tarp atominių erdvių plotus, kur pusiausvyros duomenų rinkinio nepavyksta imti.

Visas dydis

Image

Paveikslėlyje parodytas pasiskirstymas, apimantis duomenų rinkinių kampus, ir pasakojama panaši istorija, kalbant apie aprėptį konformacinėje erdvėje trims kūno sąveikoms. Mėlynas fono tankio grafikas rodo, kad ANI-1 duomenų rinkinys geriau uždengia kampo erdvę nei pusiausvyros duomenų rinkiniai (raudona ir oranžinė). Likę kampinių pasiskirstymų skaičiai yra įtraukti į papildomą informaciją.

Visas dydis

Naudojimo pastabos

Norėdami užtikrinti, kad visi skaitytojai galėtų lengvai pasiekti ANI-1 duomenų rinkinį, sukūrėme python biblioteką su lengvai naudojama sąsaja duomenims išgauti. Šios bibliotekos naudojimo pavyzdžiai yra aplanke „skaitytojai“.

Duomenų šaltiniai

  1. 1.

    Smithas, J. S., Isajevas, O., ir Roitbergas, AE Figshare //doi.org/10.6084/m9.figshare.c.3846712 (2017)

Papildoma informacija

PDF failai

  1. 1.

    Papildoma informacija