Andmed ja kood

Kinokroonika veebilehel kasutatud andmed põhinevad Eesti Rahvusarhiivi Eesti Filmiarhiivi (RA) ja Eesti Filmi Andmebaasi (EFA) digiteeritud ringvaadete videotel ja nende metaandmetel. Nende andmekogude sisu kattub suurel määral, kuid neil on ka mõningaid erinevusi. RA digiteeris ringvaated digitaalselt juurdepääsetavateks videoteks ja muutis arhiivikirjeldused ringvaadete metaandmeteks. Pärast seda pääses EFA ligi RA kogus olevatele ringvaadetele ning rikastas andmeid üksikasjalikumate sisukirjelduste, filmitootmise, tehniliste probleemide ning pildi ja tekstiga seotud märksõnadega.

Teine erinevus nende andmekogumite vahel seisneb selles, et kui RA käsitleb üksustena terveid umbes kümne minuti pikkused ringvaadete numbreid, siis EFA on need jaganud eraldi uudislugudeks, mille keskmine pikkus on 2,23 minutit. Andmekogum sisaldab kokku 9902 individuaalset uudist. See tähendab, et meil on umbes 24 000 minutit ringvaateid.
Sissejuhatus kasutatud koodi

Kinokroonika veebilehel oleme kasutanud ringvaadete andmete visualiseerimiseks valikut EFA metaandmete sisust, keskendudes tootmisaastatele, filmikompaniidele, filmitegijatele, kinožurnaalide pealkirjadele, väljaande numbritele ja ringvaate sisu tekstilistele kirjeldustele ning ringvaadete kaadritele. Me ei ole kasutanud kõiki EFA pakutavaid metaandmeid, vaid võtsime fookusesse andmed, mis võimaldavad meil uurida, kuidas ringvaated ümbritsevat maailma kujutasid.

Eesti ringvaadete interaktiivse visualiseerimise võimaldamiseks oleme rikastanud nende aluseks olevaid metaandmeid. Selleks viisime läbi Eesti Rahvusarhiivi ja Eesti Filmi Andmebaasi töötajate poolt käsitsi kommenteeritud ringvaadete sisu tekstiliste kirjelduste nimeliste üksuste tuvastamise (NER). NER-i abil saime eraldada isikute, organisatsioonide ja asukohtade nimed eraldi üksustena. See võimaldas meil täiendavalt lisada ringvaadetes mainitud asukohtadele geograafilised koordinaadid ja paigutada need kaardile. Oleme esialgseid andmeid veelgi rikastanud automaatse sootuvastuse ja käsitsi rikastamise kaudu, lisades andmetele režissööride, operaatorite ja teiste spetsialistide sünnikohad. See võimaldab analüüsida Eesti ringvaateid tootvate inimeste soolist osakaalu ja päritolu. Lisaks oleme originaalseid ringvaadete videoid töödelnud automaatse kaadrituvastuse abil, tuvastades kaadrites olevaid objekte.

Metaandmed sisaldavad teavet ligikaudu 560 filmitegija kohta. Nagu kõik inimeste koostatud andmestikud, sisaldab ka see andmestik ebakõlasid ja vigu. Kuid vigadest ja infoaukudest hoolimata, räägib andmestik huvitava loo Eesti ringvaadetest.

 


Pikk andmete kirjeldus

Kood

Andmete rikastamiseks kasutatud koodi jagame projekti lõpus.

Github

Sissejuhatus kasutatud meetoditesse

Kinokroonika veebiliides kasutab Eesti ringvaadete ajaliste muutuste illustreerimiseks erinevaid andmete visualiseerimise meetodeid. Kasutame graafikuid ja tulpdiagramme, sotsiaalvõrgustike analüüsi, geograafilisi kaarte ja interaktiivseid graafikuid mis, kasutades masinõpet, võimaldavad grupeerida ja filtreerida kaadreid visuaalse sarnasuse järgi. Oleme jaganud analüüsi nelja kategooriasse: filmitegijate võrgustikud, käsitletud teemad, asukohad ja pildid. Kasutatud meetodite täpsemad kirjeldused ja allikate viited leiate iga analüüsiosa lõpust.

Sissejuhatus DataDOI

Rikastatud andmeid jagame projekti lõpus DataDOI hoidla kaudu. DataDOI on avatud juurdepääsuga andmehoidla, mis säilitab ja levitab Eesti teadusandmeid. See töötab FAIRi andmete FAIRi põhimõtete kohaselt, muutes need leitavaks, juurdepääsetavaks, koostalitlusvõimeliseks ja taaskasutatavaks. DataDOI lisab kõikidele seal salvestatud andmetele digitaalse objekti identifikaatori (DOI).

DataDOI