Hei! Verkkopalvelussamme käytetään evästeitä ja muita vastaavia työkaluja. Lisäksi seuraamme kävijäliikennettä anonyymisti. Voit sallia välttämättömät evästeet, tietyt evästeet tai kaikki evästeet. Lue lisää tietosuojaselosteestamme
Tekstilouhinta auttoi analysoimaan miljoona tupakointikirjausta
Tekstilouhinta vähensi kliinisten asiantuntijoiden työtä ja nopeutti tutkimusprosessia.
Medaffcon halusi selvittää tosielämän tiedon perusteella, kuinka tupakointi vaikuttaa leikkauskomplikaatioihin. Vastauksia tähän kysymykseen etsittiin akateemisena yhteistyönä tutkimalla leikkauksessa käyneiden potilaiden potilaskertomuksia. Potilaskertomuksiin lääkärit kirjaavat potilaasta erilaisia tietoa, muun muassa sen, tupakoiko potilas.
Tupakointietoa ei kuitenkaan löydy potilaskertomuksista rakenteisena tietona. Se tarkoittaa, että potilastietojärjestelmissä ei ole omaa kenttää, johon lääkäri merkitsisi tupakoiko potilas vai ei. Sen sijaan lääkärit kirjaavat tiedon potilaan tupakoinnista vapaamuotoisesti laajemman potilastekstin joukkoon. Merkinnälle ei ole mitään yhtenäistä tapaa, joten kirjauksissa oli valtavasti erilaisia ilmauksia.
Miljoona lausetta tupakoinnista
Kun aineistoa käytiin läpi, erilaisia tupakointiin liittyviä lauseita löytyi kaikkiaan miljoona. Kuinka käydä miljoona lausetta läpi ja analysoida ne? Mahdollisuuksia on erilaisia. Yksi mahdollisuus on todella monen kliinisen asiantuntijan palkkaaminen tiedon analysointiin. Toinen taas aineiston raju karsiminen työmäärän kaventamiseksi.
Näitä kumpaakaan ei kuitenkaan käytetty, vaan Medaffcon kehitti aineiston analysoinnin avuksi koneoppimiseen perustuvan luokittelijan. Sen opettamiseksi kliiniset asiantuntijat luokittelivat yhteensä 20 000 tupakointiin liittyvää lausetta. Tämän työn kaksi kliinistä asiantuntijaa teki päivässä Medaffconin esikäsittelyn ja aputyökalujen tukemana. Tämän jälkeen koneoppimiseen perustuvan algoritmin avulla analysoitiin ja luokiteltiin loput miljoona lausetta.
– Ilman algoritmia tällainen analyysi olisi ollut mahdoton tehdä. Potilasmäärä jäisi ihan erilaiseksi. Aiemmin vastaaviin tutkimuksiin saatiin mukaan tuhansia potilaita, nyt satojatuhansia potilaita, Medaffconin data scientist Juhani Aakko sanoo.
Kirjaamisen laatu on olennaista
Tämän kaltainen tekstilouhinta on arkipäivää rakenteettoman datan käsittelyssä ja se mahdollistaa laajojen aineistojen käytön. Juhani Aakko arvioi, että erilaisten koneoppimiseen perustuvien algoritmien käyttö kasvaa terveydenhuollon tiedon analysoinnissa.
– Koneoppimisen menetelmien käyttöä rajoittaa se, että ne tarvitsisivat valtavasti dataa opettamiseen. Terveydenhuollossa dataa on olemassa, mutta kliinikoiden pitäisi käydä sitä läpi suuria määriä, jotta algoritmiä voidaan opettaa.
Vaikka datan analysoinnin menetelmät kehittyisivät kuinka hienoiksi tahansa, yksi vanha perusasia kuitenkin pysyy ja se on kirjaamisen hyvä laatu.
– Pystymme analysoimaan vain sellaista tietoa, joka on kirjattu. Kirjaamisen laatuun ja yhtenäisiin kirjauksen periaatteisiin olisi hyvä kiinnittää huomiota. Toivottavasti terveydenhuollon arkeen saadaan uusia keinoja, joilla kirjaamista voidaan helpottaa ja jotka poimivat jo kirjaamisvaiheessa osan tiedosta suoraan rakenteiseen muotoon, Aakko sanoo.
Iiro aloitti Medaffconilla tilastotieteen asiantuntijatehtävissä maaliskuussa 2017. Ennen tätä hän on toiminut neljä vuotta tutkimusassistenttina akateemisessa tutkimusryhmässä analysoiden kliinistä ja geneettistä potilasdataa. Koulutukseltaan Iiro on bioinformaatioteknologian diplomi-insinööri.
Iiron vahvuuksiin kuuluu tilastotieteen ja data-analyysin vahva tuntemus ja hands-on kokemus sensitiivisen potilasdatan kanssa työskentelystä, sekä poikkitieteellinen kommunikaatio eri alan asiantuntijoiden välillä. Alalla Iiroa kiinnostaa erityisesti teknologian murroksen avaamat suuret datamäärät ja se, kuinka tästä datasta saatavaa tietoa voidaan potentiaalisesti hyödyntää konkreettisten johtopäätösten tekoon, niin sairauksien luonteen ymmärtämiseksi kuin lääketeollisuuden tavoitteiden ja potilaiden hoidon edistämiseksi.
”Koneoppiminen ja tekoälypohjaiset työkalut mullistavat terveydenhuoltoa nyt ja tulevaisuudessa, mutta näitäkin tärkeämpää on saattaa jo olemassa oleva terveysdata tehokkaaseen käyttöön terveyden edistämiseksi.”
Juhani liittyi Medaffconiin lokakuussa 2020 datatietelijänä. Ennen Medaffconille tuloa Juhani on työskennellyt kaksi vuotta globaalissa IT-yrityksessä datatietelijänä ja tätä ennen tutkijana Turun yliopistolla Lääketieteellisen bioinformatiikan keskuksessa (MBC) sekä Funktionaalisten elintarvikkeiden kehittämiskeskuksessa (FFF). Koulutukseltaan Juhani on tekniikan tohtori (2017) ja hänen väitöskirjansa käsitteli suolistomikrobiston kehittymistä varhaislapsuudessa.
Juhanilla on kokemusta tilastollisten ja koneoppimiseen liittyvien menetelmien soveltamisesta lääketieteessä ja monipuolisen taustansa takia keskustelee sujuvasti analytiikkaan liittyvistä asioista erilaisten ammattiryhmien, kuten kliinikoiden ja it-ammattilaisten kanssa. ” Kiinnostus tiedolla johtamista kohtaan kasvaa jatkuvasti sosiaali- ja terveydenhuollossa. On mielenkiintoista olla mukana valjastamassa sosiaali- ja terveydenhuollon järjestelmiin kertyvää valtavaa tietomäärää päätöksenteon tueksi. Sekä perinteiset tilastolliset menetelmät että edistynyt analytiikka ja keinoäly tulevat olemaan keskeisiä työkaluja tässä työssä.”