IKKE OVERBEVIST: Generativ KI har stort potensial, men krever strenge rammer når den kombineres med legemiddelinformasjon. Slik teknologien brukes i dag, er vi ikke overbevist om at medisinske kunnskapschatter er egnet for formidling av faktabasert legemiddelinformasjon, skriver Bente Cecilie By Jansen.

Kunstig intelligens i kliniske verktøy – når tilgang til fagkilder gir dårligere svar

Medisinske kunnskapschatter fremstår som trygge fordi de viser til troverdige fagkilder. Forskning og våre egne erfaringer viser imidlertid at selv tilgang til pålitelig legemiddelinformasjon kan gi feil svar, med potensielt alvorlige konsekvenser for pasientsikkerheten.

Publisert Sist oppdatert

Generativ kunstig intelligens (KI) er på full fart inn i nye kliniske beslutnings- og støtteverktøy. Blant disse finner vi såkalte medisinske kunnskapschatter, KI-løsninger som ligner ChatGPT, men som er avgrenset til medisinske spørsmål og ofte basert på utvalgte fagkilder.

Flere aktører ønsker nå å bruke informasjon fra Felleskatalogen i slike KI-løsninger. Intensjonen er god, å gi helsepersonell svar basert på oppdaterte og troverdige kilder, med økt faglig kvalitet og færre hallusinasjoner.

Vår største bekymring er at henvisninger til troverdige kilder skaper en falsk trygghet, der helsepersonell antar at svarene er korrekte, selv når de ikke er det.

Våre erfaringer viser imidlertid at utfordringene ved å utvikle slike medisinske kunnskapschatter er langt større enn mange antar. I praksis kan kvaliteten på svarene bli så svak at pasientsikkerheten settes i fare, særlig ved spørsmål om dosering av legemidler.

Kildebasert generering

Retrieval-augmented generation (RAG) og search-augmented generation løftes frem som lovende metoder for å gjøre oppdaterte fagkilder tilgjengelige for språkmodeller, slik at svarene kan forankres i pålitelig kunnskap.

Studier1,2 og våre erfaringer viser imidlertid at store språkmodeller ofte underpresterer når de får tilgang til fagkilder gjennom ulike metoder for kildebasert generering. Et sentralt problem ligger i hvordan kildene gjøres tilgjengelige for språkmodellene.

Utfordringene oppstår i samspillet mellom språkmodell og fagkilde: manglende kontroll på om informasjonen som hentes er relevant, komplett, oppdatert, og ikke minst tilstrekkelig strukturert.

Når strukturen forsvinner

Felleskatalogtekstene inneholder detaljert og nøye strukturert informasjon, i form av tabeller, overskrifter og avsnitt som gir innholdet presis mening.

I mange KI-løsninger brytes denne strukturen ned. Tekstene splittes i mindre fragmenter, før de sendes til språkmodellen for generering av svar. Når tabeller, punktlister og seksjoner blir til lineære tekstbiter, mister språkmodellen oversikten.

Den vet ikke lenger hvilken dose som gjelder hvilken pasientgruppe eller hvilken indikasjon. Resultatet er at selv informasjon hentet fra pålitelige fagkilder kan bli gjengitt på nye, uforutsigbare og feilaktige måter.

Manglende struktur i informasjonsgrunnlaget er trolig en hovedårsak til mange av de alvorlige feilene vi har sett i testing av medisinske kunnskapschatter. Eksempler inkluderer sammenblanding av doseringer på tvers av indikasjoner og doseanbefalinger gitt for feil pasientgruppe. Slike feil utfordrer pasientsikkerheten direkte.

Leverandører plasser som oftest ansvaret fullt og helt hos helsepersonell med ansvarsfraskrivelser, der det understrekes at helsepersonell selv må kontrollere at svarene er korrekte.

Det finnes metoder for å bevare mer av strukturen i informasjonsgrunnlaget, og forskning viser at dette kan redusere risikoen for generering av feil svar³. Samtidig viser forskning og bred erfaring at struktur alene ikke gir noen garanti for korrekte svar. For å oppnå høy kvalitet kreves KI-løsninger som evner å vurdere relevans, forstå kontekst og ha kontroll over hvordan eksterne fagkilder brukes i genereringen.

Når KI-løsninger er medisinske kalkulatorer

Vi har også erfart under testing at kunnskapschatter utfører doseberegninger. I praksis fungerer de dermed som medisinske kalkulatorer, uten å være regulert eller godkjent for dette formålet.

Dette reiser viktige regulatoriske spørsmål. Skal slike KI-løsninger klassifiseres som medisinsk utstyr og CE-merkes? Hvilken risikokategori vil de falle inn under i EUs kommende KI-forordning? Dersom de regnes som høyrisikoløsninger, utløses krav til dokumentasjon, risikostyring og kontinuerlig overvåkning. Hvordan sikres dette i praksis, når de teknologiske mulighetene utvikler seg raskere enn regelverket?

Hvem har ansvaret?

Leverandører plasser som oftest ansvaret fullt og helt hos helsepersonell med ansvarsfraskrivelser, der det understrekes at helsepersonell selv må kontrollere at svarene er korrekte.

Samtidig har helsepersonell en forventning om at verktøyene de får tilgang til er kvalitetssikret og regulert. Leverandørene bør derfor ta ansvar for at KI-løsningene fungerer forsvarlig, og at risikostyring og overvåkning er på plass.

Innholdsleverandører som Felleskatalogen har ikke et formelt ansvar for hvordan Felleskatalogens informasjon brukes i eksterne løsninger. Likevel mener vi at vi har et ansvar når Felleskatalogen trekkes inn som troverdig fagkilder i KI-genererte svar. Dette ansvaret forutsetter aktiv involvering i utviklingen av slike KI-verktøy.

Samarbeid for pasientsikkerheten

Vi ønsker å bidra til at Felleskatalogens informasjon brukes på forsvarlig måte. Derfor samarbeider vi med leverandører gjennom testing, med faglige tilbakemeldinger og forslag til begrensninger der det er nødvendig, for eksempel at slike KI-løsninger ikke bør svare på doseringsspørsmål eller utføre doseberegninger.

Parallelt utforsker vi hvordan økt struktur i Felleskatalogens informasjon kan veilede språkmodeller til å gi presise og korrekte svar. De foreløpige resultatene er lovende, i tråd med nyere forskning³.

Generativ KI har stort potensial, men krever strenge rammer når den kombineres med legemiddelinformasjon. Slik teknologien brukes i dag, er vi ikke overbevist om at medisinske kunnskapschatter er egnet for formidling av faktabasert legemiddelinformasjon.

Vår største bekymring er at henvisninger til troverdige kilder skaper en falsk trygghet, der helsepersonell antar at svarene er korrekte, selv når de ikke er det. Inntil slike medisinske kunnskapschatter faktisk gir pålitelige svar, er det viktigere enn noen gang at helsepersonell utøver faglig skjønn, er kritiske og kontrollerer svarene opp mot de opprinnelige kildene.

 

1 Rethinking Retrieval-Augmented Generation for Medicine: ALarge-Scale, Systematic Expert Evaluation and Practical Insights

2 Benchmarking Retrieval-Augmented Generation for Medicine

3 TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning

 

 

 

Powered by Labrador CMS