Dalykas apie duomenis | gamtos fizika

Dalykas apie duomenis | gamtos fizika

Anonim

Dalykai

  • Tyrimų duomenys
  • Moksliniai duomenys

Didžiųjų duomenų atsiradimas suteikia galimybę fizikams. Vis dėlto, norint visiškai išnaudoti pranašumus, jiems reikia subtilių, bet svarbių minčių pokyčių.

Pripažinkime, kad mes visi ten buvome: ekonomistas prognozavo - iki dešimtosios procento BVP - kokią įtaką tam tikra politika turės ekonomikai. Socialinis psichologas padaro prieš intuityvias tyrimo išvadas, pagrįstas mažu imties dydžiu. Tinklalapių kūrėjas pateikia abejotiną A / B testo rezultatus kaip aiškų įrodymą, kad skaitytojai renkasi Gamtos fizikos svetainės versiją be nuorodos į dabartinę problemą. „Šie žmonės nežino, apie ką kalba“, - manome. „Jei jie tik žinotų, kaip tinkamai analizuoti duomenis.“

Fizikai, teisinga sakyti, mėgsta manyti, kad supranta duomenis. Jie turi matematines priemones ir empirinę ekspertizę priežastiniams ryšiams tarp dalykų išsiaiškinti. Žinoma, tam tikros sistemos yra sudėtingesnės nei kitos - daugiausia tos, kurias sudaro cheminiai, biologiniai ar socialiniai komponentai -, tačiau tinkamai suprojektuotas eksperimentas, tinkamai atliktas, turėtų duoti švarius duomenis, kuriuos galima analizuoti, kad būtų padarytos aiškios, mokslinės išvados apie vidinį gamtos darbai.

Image

Didelių grafikų, parodančių sudėtingas duomenų struktūras, galerija. Vaizdas: © 2011 ACM. Atgaminti iš „TA Davis & Y. Hu“, „ACM Trans“. Matematika. Programinė įranga. 38, 1; 2011 metai.

Kaip savo komentare 718 psl. Pabrėžia Jeffas Byersas, vis dėlto tai galbūt rožinės spalvos vaizdas. Visų pirma, jis linkęs sumenkinti eksperimentinio dizaino vaidmenį. Tai yra tas aspektas, kuriuo fizikai iš tikrųjų pasižymi išskirtinumu ir, dirbdami gamtos režime, kur įmanoma atlikti švarius eksperimentus, taip pat turi pakankamai laimės. Aišku, gerai supranta skaičiavimus, statistiką ir programavimą - žvelgiant iš techninės perspektyvos, fizikai turi palyginti pranašumą, palyginti su savo kolegomis iš kitų gamtos mokslų. Bet faktas yra tas, kad statistikai, informatikai, biologai, psichologai ir ekonomistai dažnai neturi prabangos tvarkyti švarius duomenis.

Iš tiesų, vis daugiau problemų įvairiose srityse susidaro tokiu būdu, kuris yra priešingas tam, ką įpratę matyti fizikai. Analizuojama vartotojų sąveika atskirose svetainėse ar socialinėje žiniasklaidoje, nustatoma epidemijų dinamika, nustatomas ekonominės politikos poveikis, kurį galima prasmingai įvertinti kiekybiškai: tai dažnai yra problemos, kai „eksperimentai“, kuriuos galima atlikti, toli gražu nėra idealūs, tačiau gana lengva atlikti. Rezultatas yra labai sudėtingos struktūros duomenų išblukimas.

„Sėkmingai užpulti šias labai nesvarbias problemas - discipliną, kuri, taip sakant, yra savotiška antifizika - hubris nenaudingas“.

Norint sėkmingai užpulti šias labai nesvarbias problemas - discipliną, kuri, taip sakant, yra savotiška antifizika - hubris nėra naudingas. Kaip teigia Byersas, fizikai turi išmokti naują leksiką, kad galėtų išversti savo žinias taip, kad jos galėtų būti naudingos nepažįstamoje aplinkoje. Svarbus žingsnis šia linkme yra pripažinti, kad nors modeliai yra labai pritaikomi didelių duomenų rinkinių analizei, jų naudojimas yra tik vienas iš būdų tai padaryti. Statistikos ir mašinų mokymosi kalba fizikai linkę rinktis generacinius modelius; būtent tie, kurie leidžia generuoti sintetinius duomenis prieš bet kokį stebėjimą. Prognozuojamoji Heisenbergo feromagnetizmo modelio galia yra vienas iš tokių pavyzdžių: iki tinkamo parametro, nustatančio energijos skalę, šis modelis veikia tiek, kiek jis tinka eksperimentiniams duomenims, susijusiems su feromagnetizmo skaičiavimu, tarkime, geležies vienkarte. Bet tai išlieka tikrovės karikatūra, kuri remiasi daugybinėmis prielaidomis ir artėjimais.

Atvirkščiai, diskriminaciniai modeliai nenumato duomenų generavimo būdo. Vietoj to, naudodamiesi metodų rinkiniu, kuris geriausiai suprantamas kaip prižiūrimas mokymosi metodas, jie traktuoja eksperimentinius duomenis kaip tiesioginį įvestį, kuris vėliau naudojamas pakartotinai patobulinti jam tinkantį modelį. Byersas nurodo šį nurodymą kaip „leidimą modeliui svyruoti aplink duomenis“ - požiūrį, kuris įmanomas Bayes'o teoremos dėka.

Iš tikrųjų yra daug to, ko fizikai gali išmokti iš mašinų mokymosi, ir, norėdamas užpildyti šią spragą, Byersas pasisako už didesnį fizikos studentų susidomėjimą statistika ir tikimybe bei informacijos teorija. Juos papildžius keliomis pagrindinėmis šių disciplinų sąvokomis, metodai, kurių fizikai jau mokosi iš statistinės mechanikos ir lauko teorijos, gali būti pertvarkyti naudoti sudėtingiausiose duomenų analizės užduotyse, su kuriomis susiduria kitos mokslo disciplinos ir pramonės šakos. Tarp jų yra galia per mūsų modelius atsigręžti atgal - tam tikra statistinės fizikos rūšis, atvirkščiai - leidžiant modeliui svyruoti aplink duomenis, kaip rodo Bajeso požiūris į statistinius padarinius.

Kai kuriems tai gali nustebinti, kad iš pradžių fizikoje sukurti matematikos būdai, tokie kaip tie, kurie reikalingi skaidymo funkcijai apskaičiuoti, buvo eksportuoti į kitas tyrimų sritis ir tobulinami toliau. Ko gero, laikas fizikams sužinoti apie šiuos pokyčius ir juos priimti. Išmokta dirbti su nepatogiais duomenimis yra ta, kad yra daugybė įdomių problemų, kurias tokiu būdu reikia išspręsti, ir yra daugybė kompanijų, norinčių mokėti mokslininkams, galintiems tai padaryti.

Kadangi sudėtingumas vis labiau išryškėja fizikos srityje, mums reikalinga nauja fizikų karta, aprūpinta priemonėmis, kad būtų galima įveikti iškylančius iššūkius.

Autoriai