Avoin tieto on tiedon uusi valtatie

Internet on helpottanut valtavasti tiedonhankintaa ja mahdollistanut tiedon avoimuuden. Avointa tietoa ei kuitenkaan vielä osata täysin hyödyntää, vaikka saatavilla on jo valtava määrä jatkuvasti karttuvaa tietoa.

Avoimella datalla tarkoitetaan julkishallinnon, organisaatioiden tai yritysten tuottamaa tai niille kertynyttä julkista tietoa, joka on avattu vapaasti ja maksutta kaikkien hyödynnettäväksi. Data on digitaalista raaka-ainetta: tilastoja, taloustietoja, karttoja, kuvia, videotallenteita ja 3D-malleja.

Avoin data ei ole sama asia kuin julkinen tieto. Julkiseen tietoon kaikilla on pääsy esimerkiksi kaupungin kirjaamossa tai verkkosivuilla. Avoin julkinen tieto eli avoin data puolestaan tarkoittaa sitä, että kansalaiset ja yritykset voivat käyttää tietoja omiin tarkoituksiinsa tasavertaisesti julkisen hallinnon kanssa.

Avoimen datan kriteerit

Avoin data on julkista, koneluettavassa muodossa ja maksutta uudelleen käytettävissä, myös kaupallisesti.

1. Julkisuus

Datan on oltava julkista tietoa, jotta se voidaan avata. Kenenkään yksityisyydensuoja tai yleinen turvallisuus ei saa vaarantua dataa avattaessa. Datassa ei saa olla esimerkiksi henkilötietoja tai liikesalaisuuksia.

2. Koneluettavuus

Data on avattu sellaisessa muodossa, että sitä on helppo käsitellä tietokoneohjelmistoilla. Helppolukuiset PDF-dokumentit tai HTML-sivun tiedot on vaikea lukea ohjelmallisesti. Datan koneelliseen tarkasteluun ja hyödyntämiseen sopivat esimerkiksi CSV-, XLS- tai XML-muodot sekä erilaiset rajapinnat suoraan datalähteeseen.

3. Uudelleenkäytön sallivat lisenssiehdot

Datan avaaja sallii aineiston uudelleenkäytön, mikä kerrotaan selkeästi datan yhteydestä löytyvissä käyttöehdoissa.

4. Maksuttomuus

Dataa voi käyttää maksutta. Maksuttomuus helpottaa erityisesti ensikosketuksen saamista dataan. Se mahdollistaa datan hyödyntämiseen liittyvät kokeilut ilman budjettibyrokratiaa.

Näiden neljän kriteerin lisäksi datan rakenne ja merkitys pitää kuvata käyttäjille ymmärrettävästi. Kuvailu eli metadata auttaa käyttäjää hahmottamaan datan sisällön, sekä tulkitsemaan ja käyttämään dataa. Myös datan olemassaolon ja sijainnin tulee olla yleisesti tunnettu. Datan löydettävyyttä parantaa sen lisääminen julkisiin datakatalogeihin.

Avoimuuden edistäminen

Opetus- ja kulttuuriministeriö (OKM) kannustaa tutkimuskenttää avoimuuteen ja yhteistyöhön. Suomalainen tiedeyhteisö on vakiinnuttanut asemansa avoimen tieteen toteuttajana, mutta edelleen tarvitaan toimia avoimuuden ylläpitämiseksi ja kehittämiseksi tutkimuksen ja yhteiskunnan muuttuviin tarpeisiin.

Tilannekuvan saamiseksi OKM on selvittänyt vuoden 2019 aikana avoimuuden toimintakulttuuria tutkimustoimijoiden osalta. Selvitys kohdistui tutkimusorganisaatioihin (korkeakoulut ja tutkimuslaitokset), tutkimusrahoittajiin, ulkomailla toimiviin tiedeinstituutteihin sekä tiedeyhteisöjen kattojärjestöihin.

Aiemmista arvioinneista poiketen kysely kohdennettiin organisaatioiden sisällä aiempaa laajemmalle vastaajajoukolle, jotta saataisiin kattavampi kuva avoimuuden haasteista ja sen edistämisen esteistä.

Korkeakoulujen osalta selvitys laadittiin edellisen kerran vuonna 2016, rahoittajien ja tutkimuslaitosten osalta 2017.

Århusin sopimus

Vuonna 1998 solmittu Århusin sopimus toi avoimuuden periaatteen eurooppalaiseen ympäristöhallintoon ja ympäristöala onkin ollut avoimuuden edelläkävijä. Samalla kun lukuisien maiden perustuslakeihin kirjattiin 1990-luvulla oikeus puhtaaseen ja turvalliseen ympäristöön, lisättiin myös oikeus osallistua ympäristöä koskevaan päätöksentekoon. Myös Suomen perustuslakiin on kirjattu, että julkisen vallan on pyrittävä turvaamaan jokaiselle mahdollisuus vaikuttaa elinympäristöään koskevaan päätöksentekoon.

Århusin sopimus on kansainvälinen yleis- ja ympäristösopimus, joka Euroopan yhteisö allekirjoitti yhdessä kaikkien jäsenvaltioidensa kanssa Tanskan Århusissa 25. kesäkuuta 1998. Sopimuksen tavoitteena on edistää kansalaisten vaikutusmahdollisuuksia: sopimuksessa mukana olevat valtiot takaavat kansalaisilleen oikeuden saada tietoa ja osallistua päätöksentekoon, sekä oikeuden vireillepanoon ja muutoksenhakuun.

Suomessa sopimus astui voimaan 30. marraskuuta 2004, mutta lainsäädäntö täytti sopimuksen vaatimukset jo aikaisemmin. Huhtikuuhun 2017 mennessä sopimuksen oli ratifoinut tai hyväksynyt 46 valtiota.

Kansalaisten ja yhteisöjen osallistuminen päätöksentekoon olisi merkityksetöntä, ellei osallistujilla olisi käytettävissään tietoa niistä asioista, joihin he haluavat vaikuttaa. Tieteellisten seurain valtuuskunta myönsi tänä vuonna Avoimuuden edistäjät -palkinnon Suomen ympäristökeskukselle, mikä toi ansaittua huomiota ja kunniaa avoimelle ympäristötiedolle.

Suomen ympäristökeskus edelläkävijänä

Suomen ympäristökeskus SYKE oli yksi ensimmäisistä valtion organisaatioista, joka alkoi jakaa ympäristön tilaa kuvaavia aineistojaan avoimena jo vuonna 2008. Kun ympäristöhallinto 1990-luvulla lähti edistämään avoimutta, sitä pidettiin jopa radikaalina vaihtoehtoisliikehdintänä, joka ajateltiin hidastavan liiketoimintaa ja rakentamista. Muut alat ovat kuitenkin seuranneet perässä ja avoimuutta pidetään yhä enemmän jokapäiväisenä toimintatapana. Tässä ajassa luotettavan tiedon merkitys on entisestään korostunut ja siksi avoin tieto on tullut entistäkin tärkeämmäksi.

Nykyään tutkimuksen lähtö- ja tulosaineistot sekä näiden metatiedot julkaistaan SYKEn avoin tieto -palvelussa tai tutkimustietoalustalla. SYKE on myös edistänyt avointa julkaisemista vastaten näin vaatimuksiin tutkimusaineistojen käsittelystä, säilyttämisestä, saavutettavuudesta ja hyödynnettävyydestä. SYKE on ollut myös aktiivinen EU:n INSPIRE-direktiivin kehittämisessä, jonka tavoitteena on paikkatiedon yhtenäistäminen. Yhteentoimivuutta SYKEn ja muiden tiedon julkaisualustojen välillä kehitetäänkin jatkuvasti yhdessä muiden kansallisten ja kansainvälisten toimijoiden kanssa.

Maailmalla yrityksillä, tai edes tutkijoilla, ei usein ole pääsyä omien toimintaympäristöjensä aineistoihin. SYKE edistää kestävää kehitystä sekä esimerkillä että toimimalla yhteistyössä eri toimijoiden kanssa kaikissa tiedon elinkaaren vaiheissa: tietotarpeiden tunnistamisessa, aineiston tuotannossa ja tulosten tarkastelussa. Avointa tietoa käytetäänkin laajasti julkisen päätöksenteon tukena, tutkimuksessa sekä yksityisessä liiketoiminnassa.

Yhteiskunnallisen vaikuttavuuden lisäksi avoimuus parantaa myös SYKE:n oman tutkimuksen laatua, lisää tutkijayhteistyötä ja tiedon rajapinnoilla tapahtuvaa keksimistä. Avoimuutta edistetään tutkimuksessa, viestinnässä ja teknisten alustojen yhteensopivuutta kehittämällä.

Luomuksen avoin lajitieto

Luonnontieteellinen keskusmuseo Luomus vastaa Lajitietokeskuksen ylläpidosta. Lajitietokeskus on digitaalinen, tietoverkossa toimiva tiedonhallinnan palvelukokonaisuus. Lajitieto koostetaan pääasiassa kumppaniorganisaatiolta, ympäristöhallinnon ja luonnonvarahallinnon tutkimuslaitoksilta, muilta lajitietoa hallinnoivilta ja tuottavilta valtion organisaatiolta, luonnontieteellisten museoiden kokoelmista ja kansalaistieteen lähteistä. Lähteiden tietosisältö kopioidaan tiedonvaihtorajapintojen kautta mahdollisimman reaaliaikaisena eri organisaatioiden tietojärjestelmistä.

Luomuksessa hyönteis- ja putkilokasvinäytteiden digitointityötä tehdään vuorotyönä kahdella linjastolla. Luonnontieteellisten kokoelmien siirtäminen avoimeksi tiedoksi tarkoittaa näytteen etikettitietojen kirjaamista tietokantaan, näytteen valokuvaamista tai joissain tapauksissa jopa näytteen 3D-mallintamista. Kuva: Jani Järvi.

Tietovaraston havaintotiedoista tärkeimpiä ovat lajinimet, paikkatiedot, havaintoaika sekä havainnoijien nimet. Näiden lisäksi eri tarkoituksiin kerätyistä havaintoaineistoista julkaistaan metatiedot, eli tietoa tiedosta, jotka liittyvät esimerkiksi havainnointimenetelmään ja -olosuhteisiin. Metatiedot auttavat arvioimaan kunkin aineiston käyttökelpoisuutta.

Lajitieto on käytettävissä sekä alkuperäisessä muodossa että jalostettuina luetteloina, tilastoina, karttoina ja kaavioina. Myös arkaluontoisen lajitiedon käsittelyyn on Lajitietokeskuksessa varauduttu: luonnonvaraisen lajin säilymistä uhkaavaa tietoa ei julkaista. Havaintotiedon laatuun panostetaan ja menetelmiä tiedon paikkansapitävyyden varmistamiseksi kehitetään jatkuvasti. Kaikki havaitut ja todetut virheet korjataan ennen jakelua tai epävarma tieto jätetään julkaisematta.

Lajitietokeskus hyödyntää myös kansalaistiedettä (engl. Citizen Science), jossa tavalliset ihmiset edistävät vapaaehtoisesti tieteellistä tutkimusta esimerkiksi keräämällä uutta tai jalostamalla olemassa olevaa ajantasaista tietoa tutkimuksen käyttöön. Tutkimukseen osallistuakseen ei tarvitse olla koulutettu tieteentekijä.

Monimuotoisuustietokeskus GBIF

Lajitietokeskus toimii myös maailmanlaajuisen luonnon monimuotoisuustiedon keskuksen GBIF:n (Global Biodiversity Information Facility) yhteistyökumppanina ja jakaa tietovarastossa olevan havaintoaineiston kansainväliseen käyttöön. Lajitietokeskuksella on valmiudet toimia porttina myös muihin biodiversiteettitietoa jakaviin ja käyttäviin verkostoihin maailmalla.

Suomi on ollut GBIF:n jäsenmaa vuodesta 2001 lähtien. GBIF syntyi vuonna 1999 kun havaittiin, että tarvitaan kansainvälinen mekanismi, joka voisi tehdä biologista monimuotoisuutta koskevista tiedoista maailmanlaajuisesti käyttökelpoisia. Arveltiin, että mekanismi voisi tuottaa monia taloudellisia ja sosiaalisia etuja ja tukea kestävää kehitystä tarjoamalla vankkaa tieteellistä näyttöä.

GBIF on kansainvälinen organisaatio, joka tarjoaa biologista monimuotoisuutta koskevaa tieteellistä tietoa yhden portaalin kautta. Tiedot ovat pääasiassa kasvien, eläinten, sienten ja mikrobien levinneisyyttä sekä tieteellisiä nimiä koskevia tietoja. Portaalin tehtävänä on helpottaa pääsyä biologista monimuotoisuutta koskeviin tietoihin. Painopisteinä ovat biodiversiteettitiedon mobilisointi, menetelmien kehittäminen yhteentoimivuuden takaamiseksi, rakenteiden luominen erilaisten tietotyyppien linkittämiseksi ja analyyttisten välineiden kehittämisen edistäminen päätöksenteon parantamiseksi.

Portaali pyrkii muodostamaan yhteydet digitaalisten tietolähteiden välille geeneistä ekosysteemeihin ja yhdistämään ne tieteen, yhteiskunnan ja kestävyyden kannalta tärkeisiin kysymyksiin georeferenssien ja paikkatietojen, kuten GIS-työkalujen avulla. Järjestelmä toimii yhteistyössä muiden kansainvälisten organisaatioiden kanssa, kuten Catalogue of Life ja Encyclopedia of Life (EOL).

GBIF-verkostoa koordinoi Kööpenhaminassa sijaitseva sihteeristö. Osallistujasolmujen välityksellä järjestelmään on koottu tietoja monista lähteistä, aina 1800-luvulla kerätyistä museonäytteistä lähtien tuoreisiin geotunnisteisiin ja älypuhelinkuviin, joita amatööri-luonnontieteilijät ovat jakaneet maidensa lajitietopalveluissa. Verkko kerää kaikki lähteet yhteen käyttämällä tietostandardeja, kuten Darwin Core, joka muodostaa perustan suurimmalle osalle GBIF-hakemiston sadoista miljoonista lajien esiintymätietueista.

Kustantajat tarjoavat avoimen pääsyn tietoaineistoihinsa koneellisesti luettavilla Creative Commons -lisenssimerkinnöillä, joiden avulla tutkijat, tutkijat ja muut kiinnostuneet voivat käyttää tietoja vertaisarvioitujen julkaisujen ja politiikka-asiakirjojen yhteydessä. Aiheet vaihtelevat ilmastonmuutoksen vaikutuksista ja tuholaisten leviämisestä suojelualueiden, elintarviketurvan ja ihmisten terveyden prioriteetteihin. Analyysit eivät olisi mahdollisia ilman yhteenkoottua tietoja.

Suomessa SYKE vetää naapuruusohjelman puitteissa DIAS-hankketta, jonka projektipäällikkönä toimii Hanna Koivula. Tavoitteena on hyödyntää ja kehittää Suomen ja EU:n alueella jo toiminnassa olevia GBIF-infrastruktuureja ja perustaa myös Venäjälle GBIF-portaali. Samalla kerätään tietoa vieraslajeista ja sovelletaan vapaaehtoistyön menetelmiä niin Suomessa kuin Venäjälläkin. Hanke järjestää torjuntatalkoita molemmin puolin rajaa, luo verkostoa tutkijoiden ja vapaaehtoisten välille, välittää tietoa ja osaamista vieraslajeista Suomen ja Venäjän Karjalan välillä GBIF-verkostoa hyödyntäen. (lisätietoa: https://www.kareliacbc.fi/fi/projects/vieraslajit-osaamisen-ja-aineistojen-vaihdon-yhteistyoverkosto-dias)

Kaikki hyötyvät avoimesta datasta

Avointa tietoa voi hyödyntää kuka tahansa, journalisteista ja sovelluskehittäjistä aina aktiivisiin kansalaisiin. Datakatalogeista löytyvää tietoa voi hyödyntää lukemattomin tavoin: esimerkiksi numerodataa havainnollistavina visualisointeina, karttaesityksinä tai datajournalistien tarinoina.

Myös opiskelijat saavat avoimesta datasta maksutonta, ajantasaista ja paikallista materiaalia esimerkiksi opinnäytetöihinsä.

Myös kartat ja niiden taustadata ovat avoimuuden piirissä. Kansalaisille yhteys on mahdollista tavallisesti rajapintaan perustuvan katselupalvelun (View Service) kautta, jonka avulla paikkatietoaineistoa voi katsella karttakuvina. Palvelu mahdollistaa vähintään kartan vierityksen, katselumittakaavan muuttamisen, paikkatietojen esittämisen päällekkäin sekä palvelua ja aineistoa kuvaavan metatiedon katselun. Usein myös selitetiedot ovat nähtävillä karttaa klikattaessa.

Avoin tieto muuttaa maailmaa ja sen hyödyntäminen on jokaiselle mahdollista.


Sanastoa

Avoin data (open data) on julkishallinnon, organisaatioiden tai yritysten tuottamaa tai niille kertynyttä julkista tietoa, joka on avattu rakenteisessa muodossa vapaasti hyödynnettäväksi.

Avoin lähdekoodi (open source) tarkoittaa tietokoneohjelmien avoimia tuottamis- ja kehitysmenetelmiä.

Avoin rajapinta (open API) on ohjelmointirajapinta, jonka kaikki ominaisuudet ovat julkisia ja jota voi käyttää ilman rajoittavia ehtoja.

CKAN on Open Knowledge Foundationin kehittämä avoimen lähdekoodin tiedonhallintajärjestelmä, joka on suunniteltu erityisesti avoimen datan julkaisemiseen ja hakemiseen. Kts. datakatalogi.

Creative Commons on ei-kaupallinen organisaatio, joka edistää luovuuden ja tiedon jakamista ja käyttöä. CC-lisenssit ovat standardoitu ja kansainvälisesti tunnettu tapa myöntää oikeuksia muun muassa datan hyödyntämiseen, jatkojalostamiseen ja jakamiseen.

Data on koneellisesti käsiteltävässä muodossa olevaa tietoa.

Datakatalogi (data catalog) on verkkopalvelu, johon on koottu avointen tietoaineistojen meta- eli kuvailudatat helposti haettavaan muotoon. Monissa avoimen datan palveluissa käytetään CKAN-datakatalogia.

Dataportaali (data portal) on verkkopalvelu, joka sisältää datakatalogin sekä usein myös muuta aihepiiriin liittyvää sisältöä.

Koneluettavuus (machine readability) tarkoittaa, että tieto on systemaattisessa muodossa (esim. JSON, XML, CSV) siten, että kone pystyy käsittelemään tietoja.

Metadata eli metatieto kuvailee aineiston tietoja.

Tietomalli kuvaa, mitä tietokenttiä tietoaineistossa on ja miten ne liittyvät toisiinsa. Standardien mukaiset tietomallit parantavat eri tietojärjestelmien yhteentoimivuutta. Avoimia tietomalleja ovat esimerkiksi schema.org tai Popolo.

WFS-rajapinta WFS (Web Feature Service) on standardoitu ohjelmistoriippumaton tekniikka ja rajapinta, jonka kautta paikkatietoaineistoja voidaan jakaa käyttäjille vektorimuodossa.

WMS-rajapinta WMS (Web Map Service) on standardoitu ohjelmistoriippumaton rajapinta, jonka kautta paikkatietoaineistoja voidaan jakaa käyttäjille katselupalveluna (rasterimuoto).

Teksti: Tapio Lindholm, avauskuva:https://www.gbif.org/
Artikkeli on julkaistu Naturan numerossa 1/2020.