Otvorené dáta a FAIR dáta

Otvorené dáta a FAIR dáta

Otvorené dáta

Otvorené dáta charakterizujeme ako údaje, ktoré môže ktokoľvek slobodne používať a následne aj redistribuovať, no s výhradnou podmienkou priznania autorstva a citácie. Považujeme ich za digitálne informácie, ktoré sú k dispozícií kedykoľvek a akémukoľvek používateľovi. Ide o dáta alebo obsah, ktoré sú voľne prístupné bez akýchkoľvek obmedzení.

Kľúčovými vlastnosťami otvorených dát sú:

  • Dostupnosť a prístup: dáta musia byť dostupné, v maximálne možnej miere zrozumiteľné a ľahko stiahnuteľné.
  • Opätovné použitie a redistribúcia: dáta musia byť pod podmienkou opätovného použitia a redistribúcie.
  • Univerzálna participácia: každý musí byť schopný využívať a redistribuovať informácie bez diskriminácie.

Vedecké výstupy by však mali byť tak otvorené, ako je možné a zároveň tak zatvorené, ako je nutné. V niektorých prípadoch môže byť prístup k dátam obmedzený z dôvodu národnej bezpečnosti, dôvernosti dát, ochrany súkromia alebo rešpektu k objektu štúdia. To zahŕňa napríklad právne procesy, výrobné tajomstvá, práva duševného vlastníctva, osobné údaje, ochranu ľudských subjektov či ohrozených a vzácnych druhov (UNESCO Recommendation 2020).

Open Data and social impact. OGP Summit 2013.
Otvorené dáta a spoločenský dopad. OGP 2013. CC BY 2.0 Deed. Zdroj: Flickr

FAIR dáta

V súvislosti s pojmom otvorené dáta sa spájajú FAIR dáta, ktoré sú podstatnou súčasťou otvorenej vedy a popisujú niektoré z centrálnych zásad dobrého manažmentu dát a otvoreného prístupu k výskumným dátam. Tieto princípy sa zameriavajú hlavne na strojovú čitateľnosť dát, ale aj na ľudské pochopenie výskumných dát s cieľom umožniť ich opätovné použitie. FAIR princípy boli prvýkrát zverejnené v roku 2016. Prijala ich Európska únia, ale aj množstvo ďalších organizácií vrátane univerzít a rôznych výskumných inštitúcií.

FAIR je skratka pozostávajúca zo štyroch slov, ktoré znamenajú, že údaje musia byť:

FINDABLE

Prvým krokom pri využívaní je dát je ich nájditeľnosť. Metadáta a dáta by mali byť jednoducho nájditeľné pre človeka aj pre počítač.

  • Metadátam by mal byť priradený trvalý identifikátor. Trvalý identifikátor napomáha odstrániť nejednoznačnosť publikovaných dát.
  • Dáta by mali byť popísané metadátami, ktoré zahŕňajú informácie o kontexte, kvalite a podmienkach alebo charakteristike dát. Toto napomáha k lepšej lokalizácii dát a k ich opätovnému použitiu a vyššej citovanosti.
  • Metadáta by mali byť registrované alebo indexované v nájditeľnom zdroji, pretože identifikátory a metadátové popisy samotné, nezaručujú ich jednoduchú vyhľadateľnosť na internete.

ACCESSIBLE

Ak používateľ nájde požadované dáta, potrebuje vedieť, ako sú prístupné.

  • Metadáta je možné nájsť podľa ich identifikátora a získať prístup k nim pomocou štandardizovaného komunikačného protokolu (http). Tento protokol je otvorený a univerzálne implementovateľný.
  • Metadáta by mali byť dostupné, aj keď dáta už dáta nie sú k dispozícií. Dátové súbory môžu v priebehu času degradovať alebo zmiznúť a uchovávanie metadát je vo všeobecnosti jednoduchšie a lacnejšie.

INTEROPERABLE

Metadáta by mali využívať formálny, dostupný, zdieľaný a široko aplikovateľný jazyk pre znalostnú reprezentáciu. Aby bolo možné zabezpečiť automatickú nájditeľnosť a interoperabilitu dátových súborov, je potrebné využívať ontológie, tezaury a dátové modely.

  • Metadáta by mali zahŕňať aj referencie k iným metadátam. Cieľom vytvárania spojení medzi metadátovými zdrojmi je lepšie pochopenie dátového kontextu.

REUSABLE

Hlavným cieľom FAIR princípov je optimalizovať opätovné použitie dát. Preto by mali byť dáta aj metadáta dobre opísané.

  • Metadáta by mali byť bohato opísané presnými a relevantnými atribútmi, aby sa dali využiť v danom konkrétnom kontexte. Jedným z dôležitých atribútov sú jasné a dostupné licencie o použití dát. Aby ostatní mohli dáta opätovne využívať, aby vedeli, odkiaľ dáta prišli a ako ich citovať, je podstatnou aj presná informácia o pôvode dát.
  • Ak sú dáta podobné, tak je aj jednoduchšie ich opätovne využívať. To znamená rovnaký typ dát, dáta organizované v štandardizovanej podobe, zavedené a udržateľné formáty a využívanie kontrolovaných slovníkov. Preto, ak tieto „komunitné“ štandardy alebo príklady dobrej praxe existujú, mali by sa nasledovať.

Obrázok z RDA.