Menetelmien maailma | Rakenteeton data ja koneoppiminen Real-World Evidence -tutkimuksessa
Vuoden 2022 menetelmien maailma aloittaa kuumalla aiheella, eli kertomalla rakenteettoman datan hyödyntämisestä Real-World Evidence (RWE) -tutkimuksessa. Kirjoittajana toimii Medaffconin tekstidatan ja koneoppimisen asiantuntija Junior Data Scientist Olivia Hölsä. Tervetuloa tutustumaan rakenteettoman datan – ja erityisesti tosielämän tekstidatan – erityispiirteisiin.
Aiemmissa blogikirjoituksissa Medaffconin Data Analysis Lead Iiro Toppila on valottanut koneoppimista ja koneoppimiseen perustuvaa luokittelua. Koneoppimisessa malli oppii esimerkkien kautta suorittamaan itsenäisesti tietyn tehtävän. Siksi koneoppimisen menetelmien hyödyntämiseen tarvitaan paljon eri esimerkkejä eli dataa. Tosielämän tietoa on saatavilla varsin monenlaisissa muodoissa – datan määrän ja kattavuuden lisäksi siis myös muodolla on väliä.
”Tosielämän tieto tallennetaan rekistereihin erittäin vaihtelevissa muodoissa, mikä haastaa RWE-tutkimuksen tekijöitä.”
RWE-tutkimuksissa hyödynnetään yleisesti rakenteista, eli rekistereihin ennalta määritellyssä muodossa tallennettua dataa. Syitä rakenteisen datan suosiolle on sen kustannustehokas saatavuus ja käyttö (kts. ”rakenteinen tieto” RWE-sanastosta). Rakenteista dataa ovat esimerkiksi potilaalle kirjatut diagnoosit, terveydenhuollon kontaktit ja lääkeostot.
Rakenteettoman datan mahdollisuudet
Osa potilastietojärjestelmiin tallennetuista tiedoista on kuitenkin rakenteettomassa muodossa. Rakenteetonta dataa ovat rekisteriin tallennetut merkkijonot, kuten potilaan riskitekijöihin, hänelle tehtyihin toimenpiteisiin tai annetun hoidon vasteeseen liittyvä potilastekstin osa (kts. ”rakenteeton tieto” RWE-sanastosta). Myös rekisteriin tallennettu kuvantamismenetelmin tuotettu kuva on rakenteetonta dataa.
”Kansalliset rekisterit ja sairaaloiden tietoaltaat ovat rakenteettoman tiedon aarrearkkuja.”
Rakenteetonta tietoa hyödynnetään RWE-tutkimuksessa, mutta siinä on haasteensa, alkaen tiedon poiminnasta. Tekstimuodossa oleva rakenteeton, tutkimuksen kannalta hyödyllinen, potilastieto on perinteisesti poimittu potilastiedoista manuaalisesti. Toisaalta potilastietojen manuaalinen selaaminen vie paljon aikaa, minkä vuoksi tekstimuotoinen tieto päädytään usein jättämään pois tutkimuksesta.
Koneoppiminen on noussut tärkeään osaan rakenteettoman tiedon poiminnassa ja systemaattisessa muuttamisessa rakenteiseksi. Manuaalista poimimista on näin onnistuttu automatisoimaan koneoppimisen avulla. Koneoppimispohjaista tekstiluokittelijaa voidaan hyödyntää rakenteettoman tiedon, kuten tupakointistatuksen, päivätyön kuormittavuuden tai syöpämetastaasien sijainnin, poimimiseen potilasrekistereistä.
Luonnollisen kielen prosessointi (NLP) ja koneoppiminen
Menetelmien maailmassa koneellista tekstilouhintaa kutsutaan luonnollisen kielen prosessoinniksi, mitä kutsun tässä tekstissä lyhenteellä NLP (natural language processing) (kts. ”luonnollisen kielen prosessointi” RWE-sanastosta). Se on kattotermi kaikille laskennallisille menetelmille, joita hyödynnetään tekstinkäsittelyssä tai analysoinnissa.
Koneoppimismenetelmien huima kehitys kuluneen vuosikymmenen aikana on näkynyt myös NLP-menetelmien kehityksessä, kun koneoppimista on alettu hyödyntämään NLP-kontekstissa.
Koneoppimiseen perustuvat NLP-menetelmät noudattavat useimmiten kolmea vaihetta:
1. Tekstin esikäsittely
Teksti esikäsitellään lähes aina ennen tekstin analysoimista. Esikäsittelyn yleisimmät vaiheet ovat tekstin pilkkominen osiin (esim. sanoihin), erikoismerkkien poisto, isojen kirjainten muuttaminen pieniksi, sanojen muuttaminen perusmuotoon ja tavallisimpien sanojen poistaminen (esimerkiksi pronominit, konjunktiot ja apuverbit). Tämän tarkoituksena on yksinkertaistaa ja samankaltaistaa tekstin sanoja ja ilmauksia keskenään, koska tietokone ei ymmärrä lukemaansa, vaan käsittelee tekstejä merkkijonoina. Esimerkiksi ilmaukset “Lääkkeet”, ”Lääke” ja “lääke” ovat eri merkkijonoja ja näin tietokoneen näkökulmasta eri sanoja.
2. Tekstin vektorisointi
Vektorisoinnilla muutetaan rakenteeton tekstidata rakenteiseen muotoon koneoppimismallia varten (kts. ”tekstin vektorisointi” RWE-sanastosta). Yksinkertaisimmillaan vektorisoinnissa lasketaan tietyn sanan esiintymiskerrat tekstissä. Monimutkaisemmat menetelmät vektorisoivat tekstin koneoppimisen keinoin luoden vektoriavaruuden perustuen sanojen samankaltaisuuteen. Kyllä ymmärsit oikein, koneoppimista voidaan hyödyntää tekstin vektorisoinnissa seuraavaa koneoppimismallia varten.
3. Koneoppimismallin valinta ja opettaminen
Esikäsittelyn ja vektorisoinnin jälkeen tekstidataa voidaan hyödyntää koneoppimismalleissa kuten mitä tahansa rakenteista dataa. Seuraavaksi siis valitaan koneoppimismalli ratkaistavan ongelman perusteella ja opetetaan malli esimerkkidataa käyttäen. Mallin tulee ratkaista määritelty NLP-ongelma mahdollisimman hyvin.
Yleisesti tunnettuja NLP:n koneoppimissovelluksia ovat muun muassa chatbotit, kielten käännösohjelmat ja sähköpostien roskapostiluokittelijat. Chatbotit ja käännösohjelmat tekevät välillä huvittaviakin virheitä, mutta ovat silti hyödyllisiä työkaluja – sanonta ”hyvä renki mutta huono isäntä” soveltuu siis hyvin koneoppimiseen ja sen NLP-sovelluksiin.
RWE-tutkimus, tekstidata ja NLP
Kerroin esimerkkejä rakenteettomasta tosielämän tekstidatasta tämän kirjoituksen alussa. Tällaista potilaskertomuksiin tallennettua tekstidataa on saatavissa RWE-tutkimuskäyttöön – tietyt rajoitukset huomioon ottaen (kts. ”potilaskertomus” RWE-sanastosta). Tutkijalle voidaan luovuttaa tietyt osat potilastekstistä, jolloin tutkija voi hyödyntää NLP-menetelmiä esimerkiksi taustatietojen poiminnassa tai kohortin muodostamisessa.
Myös rekisterinpitäjä voi hyödyntää NLP:tä (kts. ”rekisterinpitäjä” RWE-sanastosta). Rakenteetonta tietoa voidaan muuttaa systemaattisesti rakenteiseksi rekisterin sisällä ja näin luoda esimerkiksi uusia muuttujia, mikä mahdollistaisi laajemmin uusia RWE-tutkimusasetelmia.
Lopuksi
Koneoppimista voidaan hyödyntää laajasti tosielämän tekstidatan valjastamisessa helpommin analysoitavaan muotoon. Tämä mahdollistaa uusia muuttujia RWE-tutkimukseen ja vähentää manuaalisen työn määrää.
Tekstidatan lisäksi tosielämän tiedon tutkimuksissa voidaan hyödyntää muutakin rakenteetonta dataa, kuten magneetti- tai röntgenkuvia. Saatte lukea lisää muista datatyypeistä ja niiden hyödyntämisestä RWE-tutkimuksessa tulevista blogikirjoituksistamme.