Tiedonlouhintaa ja tekoälyä

Kirsi Mononen

Osallistuin toukokuussa Suomen tieteellisen kirjastoseuran järjestämään seminaariin, jossa esiteltiin mitä on tiedonlouhinta ja kurkattiin tulevaisuuden tiedonhankintaan.

Tiedonlouhinta ja sen mahdollisuudet

Tutkija Henry Joutsijoki Tampereen yliopistosta puhui tiedonlouhinnasta ja koneoppimisesta. Tiedonlouhinnan avulla pyritään löytämään suurista tietomassoista ja raakadatasta oleellista ja uutta tietoa; jotakin mitä ei ole ennen havaittu. Tiedonlouhinta lisää tietämystä: ymmärrys datasta lisääntyy ja dataa voidaan hyödyntää uusilla tavoilla.

Arkipäivän esimerkki tiedonlouhinnasta on ostoskorianalyysi. Jos asiakas ostaa ruokakaupassa kurkkua, hän ostaa myös tomaattia, ja kauppa tietää järjestää tuotteet sen mukaan, että ne löytyvät helposti lähekkäisistä hyllyistä. Myös tiedonhankinta avainsanojen perusteella on tiedonlouhintaa.

Tiedonlouhinta vie aikaa ja sisältää myös riskejä, kaikki data ei aina tuota uutta tietoa. Haasteena on tiedon visualisointi: mitä enemmän muuttujia on, sen vaikeampaa visualisointi on. Kuvittele tuhatulotteinen avaruus ja miltä se näyttäisi!

Koneoppimisessa keskeistä on yleispätevyys. Koneoppiminen hyödyntää algoritmien kykyä tehdä ennustuksia. Sovelluskohteita löytyy joka alalta. Koneoppimista hyödynnetään mekaanisen työn korvaamisessa, turvallisuuden parantamisessa, diagnostiikassa ja kohdennettujen palvelujen tarjoamisessa eri asiakasryhmille. Pörssikurssien ennustaminen ei vielä onnistu, joten kannattaa harkita miten rahansa sijoittaa.

Uhkakuvia ovat yksityisyyden rajojen rikkominen, liian älykkäät algoritmit ja  vastuukysymykset. Kuka vastaa, jos robottiauto kolaroi: ostaja, koodari vai auton valmistaja?

Tekoälyä tiedonhankintaan

Karita Kasurinen esitteli tekoälypohjaista tutkimusassistenttia nimeltään Iris.ai. Arvioiden mukaan maailmassa julkaistaan joka päivä yli 3000 tutkimuspaperia eri tieteenaloilta. Tiedonhankinnan ongelmia ovat oikeiden hakusanojen löytäminen, isot tulosjoukot ja epärelevantit, aiheeseen liittymättömät aineistot.

Iris perustuu neuromalleilla rakennettuun algoritmiin ja auttaa löytämään tietoa sekä säästämään aikaa tiedonhankinnassa. Tavoitteena on että tutkijoilla on enemmän aikaa käytettävissä sisältöjen ymmärtämiseen. Iriksen avulla voidaan myös hakea tutkimuksia monilta eri tieteenaloilta, koska tekoäly osaa yhdistellä eri alojen tutkimuksia toisiinsa.

Asiakas antaa tutkimusongelmansa Irikselle, tai vaihtoehtoisesti hyvän artikkeli, jota vastaavia haluaisi löytää (find similar). Iris alkaa etsiä sisältöä tutkimusongelman perusteella. Iris tunnistaa avainsanoja, ottaa mukaan synonyymit, luokittelee aiheita ja suodattaa epärelevantit aineistot pois. Iris luo tutkimusongelman pohjalta sormenjäljen, johon se vertaa aineistoja. Asiakas saa lukulistan niistä aineistoista, joihin kannattaa tutustua.

Iris toimii Core -tietokannassa (https://core.ac.uk/), joka on laaja, monialainen, tieteellisiä open access -artikkeleja sisältävä tietokanta, mutta Iris voidaan integroida mihin tahansa tietokantaan. Iris toimii toistaiseksi vain englanniksi.

 

Lisätietoa Iriksestä https://iris.ai/
Linkki Iriksen avoimeen versioon https://the.iris.ai/ (edellyttää rekisteröitymistä)
Seminaariohjelma http://www.stks.fi/news/2325

Kirsi Mononen
informaatikko
Karelia-ammattikorkeakoulu

Kuva: Pixabay