Atvirojo universiteto analizės duomenų rinkinys | moksliniai duomenys

Atvirojo universiteto analizės duomenų rinkinys | moksliniai duomenys

Anonim

Dalykai

  • Kompiuterių mokslas
  • Išsilavinimas
  • Moksliniai duomenys
  • Statistika

Anotacija

„Learning Analytics“ pagrindinis dėmesys skiriamas besimokančiųjų duomenų rinkimui ir analizei, siekiant pagerinti jų mokymosi patirtį teikiant pagrįstas rekomendacijas ir optimizuojant mokymosi medžiagą. Norėdami paremti šios srities tyrimus, mes sukūrėme duomenų rinkinį, kuriame yra duomenys iš kursų, pristatytų Atvirame universitete (OU). Duomenų rinkinį daro unikalų tuo, kad jame yra demografiniai duomenys ir apibendrinti studentų sąveikų virtualioje mokymosi aplinkoje (VLE) paspaudimų duomenys. Tai leidžia analizuoti studentų elgesį, kurį atspindi jų veiksmai. Duomenų rinkinyje yra informacija apie 22 kursus, 32 593 studentus, jų vertinimo rezultatus ir jų sąveikos su VLE žurnalus, vaizduojamus studentų paspaudimų kasdienėmis suvestinėmis (10 655 280 įrašų). Duomenų rinkinį laisvai galima rasti //analyse.kmi.open.ac.uk/open_dataset pagal CC-BY 4.0 licenciją.

Metaduomenų santrauka

Dizaino tipas (-ai)
  • laiko eilučių dizainas •
  • duomenų integravimo tikslas •
  • stebėjimo dizainas
Matavimo tipas (-ai)

  • mokymosi elgesys
Technologijos tipas (-ai)

  • skaitmeninė kuracija
Faktoriaus tipas (-ai)

  • temporal_interval
Charakteristikos pavyzdys (-iai)

  • Homo sapiens

Atsisiųsti metaduomenų failą

Mašinų pasiekiamas metaduomenų failas, apibūdinantis pateiktus duomenis (ISA skirtuko formatas)

Pagrindiniai faktai ir santrauka

Sparčiai tobulėjant informacinėms technologijoms, aukštojo mokslo sektoriuje smarkiai išaugo surinktų duomenų apie studentus skaičius. Be to, atsirado virtuali mokymosi aplinka, kuri perkėlė kursus į internetą. Šį perkėlimą dar labiau palaikė masinių atvirų internetinių kursų (MOOC) bumas. Per pastarąjį dešimtmetį daugiau nei 200 mokslinių tyrimų ištyrė studentų duomenų analizės poveikį 1 . Tai rodo atvirų duomenų rinkinių, kurie suteikia standartizuotą rezultatų pateikimo ir palyginimo būdą, svarbą.

Kiek mums yra žinoma, yra dar du atviri mokymosi analizės duomenų rinkiniai. Pirmasis yra „KDD Cup 2010“ 2 duomenų rinkinys, kuriame pateikiami duomenys kaip sąveikos įrašai tarp studentų ir kompiuterinės mokymo sistemos. Antrasis duomenų rinkinys yra „KDD Cup 2015“ 3 duomenų rinkinys, išgautas iš „XuetangX MOOC“ platformos. Šiame duomenų rinkinyje yra duomenų apie 40 kursų struktūrą ir studentų bei VLE sąveiką. Čia nėra jokių demografinių ir istorinių ankstesnių kursų duomenų.

Palyginus su aukščiau paminėtais duomenų rinkiniais, Atvirojo universiteto mokymosi analizės duomenų rinkinyje (OULAD) yra OU studentų duomenų pogrupis nuo 2013 ir 2014 m. Į jį įtraukiami tiek studentų demografiniai duomenys, tiek sąveikos su universiteto VLE duomenys.

Norint geriau suprasti duomenis, pateiktas OU ir jo mokymosi bei mokymo sistemos aprašymas. Atvirasis universitetas yra vienas didžiausių nuotolinio mokymosi universitetų visame pasaulyje. Šiuo metu įvairiose programose yra užsiregistravę apie 170 000 studentų. Mokymo medžiaga ir kitas turinys studentams pristatomi per VLE. Studentų sąveika su mokomąja medžiaga yra įrašoma ir saugoma universiteto duomenų saugykloje.

OU kursai vadinami moduliais. Moduliai gali būti pateikiami kelis kartus per metus. Norint atskirti skirtingus modulio pristatymus, kiekvienas pateikiamas pagal metus ir mėnesį, nuo kurių jie prasideda. Pavyzdžiui, sausio mėn. Prasidedantys pristatymai baigiasi A, vasario mėn. - B ir panašiai; taigi „2013J“ reiškia, kad pristatymas prasidėjo 2013 m. spalio mėn.

Universitetas siūlo kelis šimtus modulių. Kiekvienas iš jų gali būti studijuojamas kaip atskiras kursas arba kaip universiteto programos dalis. Ankstesnės kvalifikacijos nereikia.

Priėmimo metu studentai informuojami apie duomenų apsaugos politiką ir etiško studentų duomenų naudojimo mokymosi analitikai politiką. Jie apima svarbią informaciją apie jų asmeninių duomenų naudojimą. Studentai yra informuoti, kad jie naudojami moksliniams tyrimams ir jais gali būti dalijamasi su kitais tyrėjais. Be to, OU žada neišleisti duomenų, kurie gali būti naudojami individualiems studentams identifikuoti. Tai nėra OULAD atvejis, nes šis duomenų rinkinys yra anonimizuotas ir negali būti naudojamas susieti duomenis su atskirais studentais. Šiuo metu OU nesuteikia galimybės atsisakyti duomenų naudojimo „Learning Analytics“ tyrimams.

Studentai modulio pristatyme yra suskirstyti į maždaug 20 žmonių grupes. Kiekviena grupė turi paskirtą dėstytoją, kuris vadovauja ir palaiko studentus viso modulio pristatymo metu.

1 paveiksle pavaizduota tipinė vieno modulio pristatymo struktūra. Paprastai pristatymų trukmė yra 9 mėnesiai. Modulio išteklius galima gauti iš VLE sistemos likus kelioms savaitėms iki pristatymo pradžios. Studentai gali užsiregistruoti modulyje nuo kelių mėnesių iki pristatymo pradžios iki dviejų savaičių nuo oficialios modulio pradžios dienos. Kiekvienas modulis apima kelis vertinimus. Modulio pabaigoje paprastai laikomas baigiamasis egzaminas.

Image

Modulio pristatymo turinys paprastai pateikiamas VLE likus kelioms savaitėms iki oficialaus modulio pradžios. Pristatymo metu studentų žinios yra vertinamos įvertinimo seka, apibrėžiančia modulio gaires. Pabaigoje paprastai būna baigiamasis egzaminas.

Visas dydis

Kaip minėta anksčiau, OULAD yra lentelių apie 2013 ir 2014 metus studentų duomenų lentelė. Kiekvienoje lentelėje yra skirtingos informacijos, kurią galima susieti su kitų lentelių duomenimis, naudojant identifikatorių stulpelius. Duomenų rinkinyje esantys duomenys yra susisteminti taip, kaip parodyta 2 pav. Duomenų rinkinys orientuotas į studentą, taigi studentas yra pagrindinis taškas. Studentų duomenys apima informaciją apie jų demografinius duomenis ir modulių registraciją. Duomenų rinkinyje yra kiekvieno studento modulio-pristatymo trejetuko duomenys. Studentų bendravimas su VLE registruojamas kaip jų kasdienės veiklos santrauka. Duomenų rinkinyje yra 22 modulių pristatymai, kuriuose dalyvavo 32 593 studentai. Jis laisvai prieinamas adresu //analyse.kmi.open.ac.uk/open_dataset. OULAD yra sertifikuotas Atvirų duomenų institute (//theodi.org/).

Image

Studentas yra susietas su informacija apie jo demografinius duomenis ir modulių registraciją. Duomenų rinkinyje yra kiekvieno studento modulio-pristatymo trejetuko duomenys apie studentų įvertinimus ir studentų sąveikos su VLE registravimo žurnalai.

Visas dydis

Duomenų rinkinys gali būti naudojamas įvairiais atvejais. Tai leidžia įvertinti numatomus modelius, skirtus numatyti studentų vertinimo rezultatus ir galutinius kursų rezultatus, ir palyginti modelius su kitais tyrėjų sukurtais modeliais. LMA duomenys leidžia studijuoti kurso struktūrą mokymosi perspektyvoje, o patys duomenys gali būti naudojami vertinant VLL įtaką mokymosi rezultatams.

Metodai

Šiame skyriuje aprašomi duomenų rinkinio rengimo etapai: rinkimas, atranka, anonimiškumas ir išleidimas. Visas procesas pavaizduotas 3 pav.

Image

Duomenys buvo paimti iš OU duomenų saugyklos. Tada pasirinktas pogrupis buvo anonimizuotas, patvirtintas Atvirų duomenų instituto ir išleistas.

Visas dydis

Atviras universiteto duomenų rinkimo procesas

OU veikia įvairios studentų ir modulių palaikymo informacinės sistemos. Dėl kiekvienoje sistemoje renkamos informacijos kintamumo OU įdiegė duomenų saugyklą, kurioje kaupiama informacija iš visų galimų sistemų. Sandėlis pastatytas naudojant SAS technologiją (//www.sas.com).

Apskritai, mes išskiriame tris skirtingus duomenų tipus:

  • Demografinė - nurodo pagrindinę informaciją apie studentus, įskaitant jų amžių, lytį, regioną, ankstesnį išsilavinimą ir kt.

  • Spektaklis - atspindi studentų rezultatus ir pasiekimus studijų metu OU.

  • Mokymosi elgesys - tai studentų veiklos žurnalas VLE.

Duomenų pasirinkimas

Duomenų saugykloje yra informacijos apie studentus: jų demografija, moduliai ir VLE veikla nuo 2012 m. Mes pasirinkome kelis reprezentacinius modulius, dėstomus OU 2013 ir 2014 m. Atrankos procesas vyko pagal šias taisykles:

  • Studentų skaičius pasirinktame modulyje-pristatyme yra didesnis nei 500.

  • Yra bent du modulio pristatymai.

  • VLE duomenys pateikiami modulio pristatymui (nes ne visi moduliai tiriami naudojant VLE).

  • Modulyje yra nemažai nesėkmingų studentų.

Iš visų šiuos kriterijus tenkinančių modulių pasirinkome 7 modulius: 4 mokslo, technologijos, inžinerijos ir matematikos (STEM) modulius ir 3 socialinių mokslų modulius. Bendras studentų skaičius pasirinktuose moduliuose yra 38 239.

Duomenų anonimiškumas

Duomenų rinkinio anonimiškumo procesas buvo suprojektuotas atsižvelgiant į etikos ir privatumo reikalavimus, taikomus OU. Visą duomenų rinkinio kūrimo ir išleidimo procesą prižiūrėjo OU vadovybė ir patvirtino kanclerio pavaduotojo vykdomasis komitetas. Pats anonimizavimas buvo atliekamas keliomis pakopomis. Pirmasis žingsnis pašalino asmeninę informaciją apie studentus ir modulius. Tai apima socialinio draudimo numerį, gimimo datas ir unikalius identifikatorius, naudojamus OU studentams. Modulių pavadinimai buvo pakeisti simboliais, kuriuose nėra semantikos, ir visa laikina informacija buvo išreikšta santykinai pateikimo pradžios atžvilgiu. Be to, visi skaitiniai identifikatoriai (ty „student_id“, „code_module“ ir kt.) Buvo perskirstyti ir visiškai atsitiktiniai.

Toliau mes identifikavome kvazidentifikuojančius požymius 4 . Sitie yra:

  • Lytis,

  • Daugelio nepriteklių grupės indeksas (IMD juosta) 5,

  • Aukščiausias išsilavinimas,

  • Amžius,

  • Regionas, kuriame gyvena studentas, ir

  • Negalia.

Šie požymiai galėtų būti naudojami asmeniui identifikuoti naudojant kitus viešai prieinamus šaltinius, todėl norint išsaugoti anonimiškumą reikia taikyti papildomus anonimiškumo nustatymo metodus. Tam tikslui mes panaudojome ARX anonimizacijos įrankį 6, kuris yra plačiai naudojamas medicinos srityse. Naudodamiesi srities informacija ir ekspertų žiniomis, mes sukūrėme kiekvieno kvazidentifikuojančio požymio anonimiškumo hierarchiją ir pritaikėme keletą duomenų rinkinio anonimiškumo taisyklių, naudodamiesi ARX.

Pagrindinis mūsų pasirinktas anonimiškumo matas buvo k-anonimiškumo matas, kai k buvo nustatytas 5. Mes nustatome slopinimo ribą iki 0, 7, tai reiškia, kad ARX įrankis labiau linkęs pašalinti „pašalinius dalykus“, o ne kvazi-identifikatoriaus anonimiškumą. Taip pat nustatėme, kad maksimalus pašalintų „pašalinių“ skaičius būtų 20% visų įrašų. Paskutinis nustatomas parametras yra vidutinis pakartotinio identifikavimo rizikos kriterijus, kuris yra nustatytas kaip 0, 05. Anonimizacijos procesas sumažino studentų skaičių iki 32 593 ir apibendrino grupės „Age“ ir „IMD“ atributus.

Kodo prieinamumas

Anonimizavimui mes naudojome ARX anonimizacijos įrankio (//arx.deidentifier.org/) 3.2.1 versiją.

Duomenų įrašai

Duomenų rinkinys (1 duomenų citata: figshare //doi.org/10.6084/m9.figshare.5081998.v1) galimas kaip atskirų CSV failų rinkinys (kableliais atskirtos vertės, kiekviena vertė yra kabutėse, o pirmoji eilutė nurodo stulpelių pavadinimus) ). Kiekviename faile yra viena „duomenų bazės“ lentelė. Lenteles galima sujungti naudojant unikalius identifikatorius (stulpelius).

4 paveiksle parodyta išsami duomenų rinkinio struktūra. Lentelę „ studentInfo“ galima susieti su „ studentAssessment“, „ studentVle“ ir „ studentRegistration“ lentelėmis, naudojant stulpelį „ id_student“ . Lentelės kursų nuorodos į vertinimus, „ studentRegistration“, „ vle“ ir „ studentInfo“ naudojant identifikatorių stulpelius „ code_module“ ir „ code_presentation“ . Galiausiai įvertinimo lentelės nuorodos į „ studentAssessment“ naudojant id_assessment ir vle to studentVle naudojant id_site .

Image

Lentelė „studentInfo“ yra susieta su kursų ir vertinimų lentele per pagrindinę „studentų“ lentelę.

Visas dydis

Tolesni poskirsniai išsamiai apibūdina kiekvieną lentelę. Stulpelių identifikatoriai paryškinti kursyvu.

Stalas studentInfo

Šioje lentelėje pateikiama studentų demografinė informacija ir kiekvieno jų modulio rezultatai. Jį sudaro 32 593 eilutės su šiomis kolonomis:

  • code_module - modulio identifikavimo kodas, į kurį studentas yra užregistruotas.

  • code_presentation - pristatymo atpažinimo kodas, kurio metu studentas registruojamas modulyje.

  • id_student - unikalus studento identifikacijos numeris.

  • lytis - studento lytis.

  • regionas - geografinis regionas, kuriame studentas gyveno pristatydamas modulį.

  • „aukščiausiasis išsilavinimas“ - aukščiausias studentų išsilavinimo lygis atvykus į modulio pristatymą.

  • imd_band - vietos, kurioje studentas gyveno modulio pristatymo metu, IMD juosta.

  • age_band - studentų amžiaus grupė.

  • num_of_prev_attempts - skaičius, kiek kartų studentas bandė šį modulį.

  • studijuojami kreditai - bendras modulių, kuriuos studentas studijuoja, kreditų skaičius.

  • negalia - nurodo, ar studentas paskelbė negalią.

  • galutinis rezultatas - studento galutinis modulio pristatymo rezultatas.

Stalo kursai

Lentelėje yra visų galimų modulių sąrašas ir jų pristatymai. Jį sudaro 22 eilutės su šiais stulpeliais:

  • code_module - modulio, kuris naudojamas kaip identifikatorius, kodas.

  • code_presentation - kodas, pateikties pavadinimas.

  • ilgis - modulio pristatymo trukmė dienomis nuo modulio pradžios dienos iki modulio pabaigos dienos.

B ir J pristatymų struktūra gali skirtis, todėl rekomenduojama analizuoti B ir J pristatymus atskirai. Šioje lentelėje (1 lentelė) pateikiama informacija apie studijų sritį, studentų skaičių ir kiekvieno modulio, įtraukto į duomenų rinkinį, pristatymų skaičių.

Pilno dydžio lentelė

Stalo studentasRegistracija

Pateikiama informacija apie laiką, kada studentas užsiregistravo modulio pristatymui. Neįregistravusiems studentams taip pat įrašoma išregistravimo data. Jį sudaro 32 593 eilutės su šiomis kolonomis:

  • code_module - modulio identifikavimo kodas.

  • „code_presentation“ - pristatymo identifikacijos kodas.

  • id_student - unikalus studento identifikacijos numeris.

  • data_registration - studento registracijos į modulio pristatymą diena.

  • data_reregistration - studentų išregistravimo iš modulio pristatymo diena. Studentams, baigusiems kursą, šis laukas tuščias. Neužsiregistravusiems studentams „studentInfo“ lentelėje galutinio rezultato reikšmė yra Pasitraukimas.

Lentelės vertinimai

Šioje lentelėje yra informacijos apie vertinimus modulių pristatymuose. Paprastai kiekvienoje prezentacijoje yra keletas įvertinimų, po kurių eina baigiamasis egzaminas. Lentelę sudaro 206 eilutės su šiais stulpeliais:

  • code_module - modulio identifikavimo kodas, kuriam priklauso vertinimas.

  • code_presentation - pristatymo identifikacijos kodas, kuriam priklauso vertinimas.

  • id_assessment - įvertinimo identifikacijos numeris.

  • assessment_type - vertinimo rūšis. Egzistuoja trys įvertinimo tipai: dėstytojo pažymėtas vertinimas (TMA), kompiuteriu pažymėtas vertinimas (CMA) ir baigiamasis egzaminas (egzaminas).

  • data - informacija apie galutinę vertinimo dieną.

  • svoris - įvertinimo svoris. Paprastai egzaminai laikomi atskirai ir jų svoris lygus 100%; visų kitų įvertinimų suma taip pat yra 100 proc.

Jei trūksta informacijos apie baigiamąją egzamino dieną, ji vyksta paskutinę modulio pristatymo savaitę.

Stalo studentasVertinimas

Lentelėje pateikiami studentų įvertinimų rezultatai. Jei studentas nepateikia įvertinimo, joks rezultatas neįrašomas. Paprastai trūksta baigiamojo egzamino rezultatų (nes jie įskaitomi ir naudojami galutiniam pažymėjimui iškart modulio pabaigoje). Jį sudaro 173 912 eilutės su šiais stulpeliais:

  • id_assessment - įvertinimo identifikacijos numeris.

  • id_student - unikalus studento identifikacijos numeris.

  • data_submissions - įvertinimo pateikimo diena.

  • is_banked - būsenos vėliava, rodanti, kad vertinimo rezultatas buvo perkeltas iš ankstesnio pristatymo.

  • balas - studento balas šiame įvertinime. Diapazonas yra nuo 0 iki 100. Mažesnis nei 40 balų aiškinamas kaip nesėkmingas. Ženklai yra nuo 0 iki 100.

Stalo studentasVle

„StudentVle“ lentelėje yra informacijos apie studentų sąveiką su VLE. Jį sudaro 10 655 280 eilučių su šiais stulpeliais:

  • code_module - modulio identifikavimo kodas.

  • „code_presentation“ - pristatymo identifikacijos kodas.

  • id_student - unikalus studento identifikacijos numeris.

  • id_site - VLE medžiagos identifikavimo numeris.

  • data - studento sąveikos su medžiaga diena.

  • sum_click - kiek kartų studentas bendravo su medžiaga.

Stalo vle

Lentelių lentelėje yra informacijos apie VLE esančias medžiagas. Paprastai tai yra HTML puslapiai, pdf failai ir pan. Jį sudaro 6364 eilutės su šiais stulpeliais:

  • id_site - medžiagos identifikavimo numeris.

  • code_module - modulio identifikavimo kodas.

  • „code_presentation“ - pristatymo identifikavimo kodas.

  • activity_type - vaidmuo, susijęs su modulio medžiaga.

  • week_from - savaitė, nuo kurios planuojama naudoti medžiagą.

  • week_to - savaitė, iki kurios planuojama naudoti medžiagą.

Techninis patvirtinimas

OULAD yra 2013 ir 2014 metų duomenys. Siekėme įvertinti, ar duomenys duomenų rinkinyje vis dar atspindi dabartinę studentų populiaciją. Tuo tikslu mes palyginome OULAD duomenis su atitinkamais 2015 m. Duomenimis. Pasirinkome vieną modulį, būtent CCC, ir palyginome jį su 2015 m. Duomenimis. Palyginimui mes panaudojome Chi-kvadratinį geros valios 7 testą arba Wilcoxon rango sumą. 8 testas (priklauso nuo atributo tipo) ir pritaikė pasirinktą testą atributams iš „studentInfo“ lentelės. Nulinė bandymo hipotezė yra ta, ar 2013/4 ir 2015 m. Duomenų pasiskirstymas yra tas pats, palyginti su alternatyvia hipoteze, kad pasiskirstymai yra skirtingi. Paremdami statistinio testavimo rezultatus, mes taip pat parengėme histogramas vizualiam palyginimui.

Rezultatų suvestinė yra pavaizduota 2 lentelėje. Galime pastebėti, kad P vertė svyruoja nuo 0, 15 iki 0, 93, darydami išvadą, kad nėra statistiškai reikšmingo skirtumo tarp OULAD pasiskirstymo ir bandymo duomenų. Tai leidžia daryti išvadą, kad duomenų rinkinys vis dar yra aktualus ir gerai atspindi dabartinę studentų populiaciją.

Pilno dydžio lentelė

5 paveiksle pateiktas CCC modulio atributų palyginimas iš OULAD duomenų rinkinio ir 2015 m. Duomenų. Galime pastebėti nedidelius duomenų skirtumus. Daugelį jų lemia skirtingas studentų skaičius, studijuojantis kiekvienais metais. Iš paveikslėlio aišku, kad parametrų pasiskirstymas yra panašus. Didžiausias skirtumas (histogramoje) gali būti stebimas IMD. Šis kintamasis yra susijęs su studentų namų kodu, taigi greitai kinta. Nepaisant to, statistika rodo, kad nėra reikšmingo skirtumo tarp OULAD ir testavimo duomenų, todėl galima daryti išvadą, kad duomenų rinkinys vis dar yra atnaujintas studentų populiacijos atžvilgiu.

Image

Tarp OULAD CCC modulio ir atitinkamų 2015 metų duomenų galime pastebėti nedidelius skirtumus. Didžiąją jų dalį lemia skirtingas studentų skaičius, registruojamas moduliui kiekvienais metais. Didžiausias skirtumas pastebimas IMD, kurio tikimasi, nes IMD yra susijęs su studentų namų kodu, kuris greitai keičiasi.

Visas dydis

Naudojimo pastabos

Rekomenduojame vartotojui apsilankyti OULAD tinklalapio skiltyje Pavyzdžiai, kurioje yra duomenų rinkinio naudojimo pavyzdys. „OULAD“ duomenų rinkinį taip pat galima rasti UCI kompiuterių mokymosi saugykloje (// archive.ics.uci.edu/ml/) kaip CSV failą ir iš „GitHub“ (// github.com/) kaip R paketą, kurį galima įdiegti tiesiai į R naudodamiesi komanda: devtools :: install_github ('jakubkuzilek / oulad').

Papildoma informacija

Kaip pacituoti šį straipsnį: Kuzilek, J. et al. Atidarykite universiteto mokymosi analizės duomenų rinkinį. Mokslas. Duomenys 4: 170171 doi: 10.1038 / sdata.2017.171 (2017).

Leidėjo pastaba: „ Springer Nature“ išlieka neutralus paskelbtų žemėlapių jurisdikcijos reikalavimų ir institucinių ryšių atžvilgiu.

Duomenų šaltiniai

  1. 1.

    Kuzilek, J., Hlosta, M., & Zdrahal, Z. figshare //doi.org/10.6084/m9.figshare.5081998.v1 (2017)