De app VisualDx wordt veel gebruikt als diagnostisch instrument waarmee patiënten foto’s delen en dermatologen deze beoordelen, met een second opinion op basis van AI-technologie. Maar het blijft wel opletten, vooral met foto’s van een rijker gepigmenteerde huid.
Diagnostische AI-modellen, zoals VisualDx, zijn vaak getraind op bestaande beelddatabases. Helaas is de gekleurde huid in die databases ondervertegenwoordigd. Om de diversiteit van de dataset te verbeteren, zijn met kunstmatige intelligentie (AI) realistische beelden gegenereerd van dermatologische aandoeningen bij patiënten met een rijk gepigmenteerde huid. Werkt dat? Dat hebben Canadese onderzoekers getest. Ze hebben gekeken of VisualDx anders zou presteren bij het classificeren van 16 ziektebeelden bij verschillende huidfenotypen.
16 ziektebeelden
De beelddataset (n = 480) bevatte beelden van 16 aandoeningen: acanthosis nigricans, constitutioneel eczeem, basaalcelcarcinoom, hidradenitis suppurativa (HS), keloïd, melasma, melanoom, pityriasis rosea, postinflammatoire hyperpigmentatie, prurigo nodularis, psoriasis, seborroïsche keratose, plaveiselcelcarcinoom, tinea versicolor, verruca vulgaris en vitiligo. Voor elke aandoening waren 3 subgroepen samengesteld: Fitzpatrick I-III, Fitzpatrick IV-VI en AI. De AI-subgroep bestond uit gemodificeerde Fitzpatrick I-III-afbeeldingen.
Lager dan origineel
In alle subgroepen was de sensitiviteit het hoogst voor HS, prurigo nodularis en tinea versicolor (97%) en het laagst voor constitutioneel eczeem, postinflammatoire hyperpigmentatie en basaalcelcarcinoom (respectievelijk 23%, 23% en 26%). Voor Fitzpatrick I-III was de diagnostische sensitiviteit significant hoger (p < 0,001). Verder was de gevoeligheid voor Fitzpatrick IV-VI significant hoger ten opzichte van de AI- beelden (p < 0,001). Bij alle AI-beelden waren de sensitiviteit en specificiteit lager dan bij de originele beelden.
Bias
Voor de meerderheid van de geanalyseerde aandoeningen liet VisualDx een diagnostische bias zien voor beelden uit de Fitzpatrick I-III-subgroep. Dit kan te wijten zijn aan een ondervertegenwoordiging van beelden van huid van kleur in de AI-trainingsset. Een tweede conclusie is dat het genereren van beelden met een transformatietechniek de nauwkeurigheid van AI-diagnosemodellen niet verbetert.
Deze bevindingen benadrukken het belang van het uitbreiden van beelddatabases met meer afbeeldingen van huid van kleur, zodat diagnostische AI-modellen goed zijn te trainen om aandoeningen bij alle huidtypen te diagnosticeren.
Bron: