Voorzichtig met apps die huidkanker 'herkennen'
Publicatie in Oxford University Press

De populaire app SkinVision analyseert via een smartphone huidletsels bij meer dan 3 miljoen gebruikers en geeft advies over eventuele opvolging. Daarbij gebruikt de app artificiële intelligentie. In een studie van de dienst Dermatologie van het UZ Gent gaf de app bij 15 procent van de analyses een fout resultaat. Bijna 1 op 8 goedaardige huidletsels kreeg een vals alarm en 1 op 4 huidkankers werden gemist.
De resultaten betekenen niet noodzakelijk dat de app altijd slecht presteert, zeggen de onderzoekers. De prestatie van een test hangt niet alleen af van de test zelf, maar ook van de context waarin de test gebruikt wordt. Doordat de app nog altijd het vaakst gebruikt zal worden bij goedaardige letsels is een negatieve test meestal erg geruststellend, terwijl een positieve test vaak vals alarm zal zijn.
Over SkinVision
SkinVision is een betalende applicatie die huidkanker nauwkeurig en op een eenvoudige manier wil detecteren. Aan de hand van een foto van een huidletsel maakt de app een inschatting van het risico op huidkanker en geeft geruststelling of het advies om een arts te raadplegen. De app maakt hiervoor gebruik van AI-technologie en voor een deel van letsels ook van de input van een teledermatoloog verbonden aan de app. Die kan het advies nog bijstellen.
Verschillende Belgische ziekenfondsen betalen de kost van de app terug aan hun leden.
Onafhankelijke controlestudie
De bedoeling van de studie (ARTIS trial, ClinicalTrials.gov NCT05246163) was de prestatie van de app te beoordelen in een onafhankelijke, prospectieve setting.
De studie werd uitgevoerd door doctoraatsstudent dr. Julie Kips van het team van prof. Lieve Brochez en prof. Evelien Verhaeghe van de dienst Dermatologie van het UZ Gent en het Skin Cancer Research Institute Ghent (Skin CRIG) van de UGent en werd gesponsord door het Fonds voor Wetenschappelijk Onderzoek en Kom op tegen Kanker.

Hoe ging de studie te werk?
Personen die zich op de dienst Dermatologie van het UZ Gent aanboden voor dringende evaluatie van een mogelijk verdacht huidvlekje konden deelnemen. In totaal namen ±1400 personen deel die bezorgd waren over in totaal ±1900 letsels, waarvan uiteindelijk ± 10 procent (185) huidkanker bleek.
Deelnemers werden direct na de consultatie gevraagd of zij bereid waren te bekijken wat het resultaat van de Skinvision-app was voor de letsel(s) waarover ze bezorgd waren. De foto werd genomen door de onderzoeker. Het resultaat van de app werd vergeleken met de diagnose na de consultatie.
Resultaten van de studie
In optimale omstandigheden bleek dat de app 16 tot 19 procent van de letsels niet kon detecteren, waaronder ook 10 procent huidkankers. Dat heeft vaak te maken met factoren zoals beharing, de locatie van het letsel in plooien en letsels die weinig gepigmenteerd zijn en dus weinig contrasteren met de huid. Het percentage liep op tot 71 procent als de persoon zelf gevraagd werd om de app te gebruiken, wat aantoont dat het voor gebruikers zelf heel moeilijk is om de app zelfstandig adequaat te kunnen gebruiken.
Globaal kon de app met de AI-technologie en teledermatologie goedaardige letsels in 87 procent van de gevallen correct herkennen. Dat wil zeggen dat er bij 13 procent van de goedaardige letsels (bijna 1 op 8) een vals alarm zal zijn. 75 procent van de huidkankers werden dan correct geklasseerd als verdacht, wat betekent dat 25 procent (1 op 4) werd gemist.
Teledermatologie-advies gebeurde bij 2 op de 3 letsels. Bij letsels met een verdachte AI-score werd vaker teledermatologie-advies uitgevoerd dan bij letsels met een niet-verdachte score. Op basis van de teledermatologie-input verminderde het aantal valse alarmen significant, maar dat ging in deze studie gepaard met een stijging van het aantal gemiste huidkankers.
De resultaten voldoen wellicht niet aan de verwachtingen van potentiële gebruikers. In een bevraging van 400 potentiële gebruikers zei bijna 90 procent open te staan voor een dergelijke app. Dat was meer het geval bij personen jonger dan 50 en bij hoger opgeleiden. Daarbij vonden deelnemers het niet missen van huidkanker belangrijker dan de mogelijkheid op vals alarm: 85 procent van de ondervraagden gaf aan maximum 15 procent gemiste huidkankers te aanvaarden tegenover 30 procent vals alarm.
Implicaties van de studie
Dit is de eerste onafhankelijke, grotere prospectieve studie met deelnemers die gelijkenis vertonen met mogelijke gebruikers van de app, met name personen die bezorgd zijn over een specifiek huidletsel. Het is ook de eerste studie die de prestatie van de app bekijkt na input van de teledermatoloog.
De resultaten betekenen niet noodzakelijk dat de app op bevolkingsvlak altijd slecht presteert, zeggen de onderzoekers. De prestatie van een test hangt niet alleen af van de test zelf, maar ook van de context waarin de test gebruikt wordt. Doordat de app nog altijd het vaakst gebruikt zal worden bij goedaardige letsels is een negatieve test meestal erg geruststellend, terwijl een positieve test vaak vals alarm zal zijn.
Een concreet voorbeeld: als per 100 huidletsels waarvoor de app gebruikt wordt 1 een huidkanker zou zijn (1 procent) zal een geruststelling door de app met meer dan 99 procent zekerheid huidkanker uitsluiten, terwijl een positieve test (verdacht) in bijna 95 procent vals alarm zal zijn. Vals positieven kunnen op maatschappelijk vlak zorgen voor onterechte angst bij gebruikers, overbevraging van het zorgsysteem en eventueel onnodige medische interventies en kost.
De resultaten tonen het belang van goede onafhankelijke studies van nieuwe veelbelovende AI-technologieën in hun gebruikscontext. Bij voorkeur gebeurt dat voor hun lancering. Die gegevens zijn belangrijk voor gezondheidsautoriteiten om de voordelen maar ook de potentiële nadelen binnen een specifiek zorgsysteem in te inschatten. Voor de potentiële gebruikers kunnen deze gegevens helpen om te beslissen of ze de technologie al dan niet willen gebruiken.
Een belangrijk aandachtspunt is dat de disclaimer van de app vermeldt dat het oordeel van de app een klinische beoordeling niet vervangt en dat de gebruiker de volledige verantwoordelijkheid draagt. Dat is een bezorgdheid die terugkomt bij meerdere AI-tools.
De Europese regulering rond deze apps werd in 2021 verstrengd in Europa (EU Medical Device Regulation). Toch zijn er in die regulering nog altijd geen hoogkwalitatieve onafhankelijke studies vereist.
Karlien Wouters
Elien Valcke

