De studie die op de preprint-server van medRxiv is gepubliceerd, heeft het superieure prestatievermogen aangetoond van GPT-4, het nieuwste taalmodel van OpenAI, ten opzichte van GPT-3.5 en Google Bard in een neurochirurgisch mondeling examen. De studie werd uitgevoerd door onderzoekers in de Verenigde Staten die de prestaties van de drie algemene Large Language Models (LLMs) beoordeelden op hogere-orde vragen die het mondelinge examen van de American Board of Neurological Surgery (ABNS) vertegenwoordigen.
Het ABNS-neurochirurgisch mondeling examen wordt beschouwd als een strengere beoordeling dan de schriftelijke tegenhanger en wordt afgelegd door artsen twee tot drie jaar na het afronden van de opleiding. Het omvat drie sessies van elk 45 minuten, en de slagingspercentage heeft sinds 2018 niet meer dan 90% overschreden. De studie beoordeelde de prestaties van GPT-3.5, GPT-4 en Google Bard op een module van 149 vragen die het neurochirurgisch mondeling examen nabootst.
Alle drie de LLM’s die in deze studie werden beoordeeld, hebben de mogelijkheid getoond om medische examens met meerkeuzevragen te halen. Er zijn echter geen eerdere studies geweest die de prestaties van meerdere LLM’s hebben getest of vergeleken op overwegend hogere-orde vragen uit een medische subspecialiteit, zoals neurochirurgie.
De studie vond dat GPT-4 een score van 82,6% behaalde op de module van 149 vragen, waarmee het de score van ChatGPT van 62,4% overtrof. Bovendien vertoonde GPT-4 betere prestaties dan ChatGPT in de subspecialiteit van de wervelkolom, met een score van 90,5% in vergelijking met ChatGPT’s 64,3%. Google Bard genereerde correcte antwoorden voor 44,2% van de vragen, terwijl GPT-3.5 en GPT-4 nooit weigerden om een tekstuele vraag te beantwoorden.
De studie bevindingen onderstrepen de dringende behoefte aan neurochirurgen om op de hoogte te blijven van opkomende LLM’s en hun verschillende prestatieniveaus voor mogelijke klinische toepassingen. Met de vooruitgang in het AI-domein kunnen neurochirurgische stagiairs LLM’s gebruiken en erop vertrouwen voor board-voorbereiding, nieuwe klinische inzichten bieden en dienen als gespreksaanvulling om verschillende klinische scenario’s te oefenen over uitdagende onderwerpen voor de boards.
Er is echter een dringende behoefte om meer vertrouwen te ontwikkelen in LLM-systemen, daarom moet de strenge validatie van hun prestaties op steeds hogere-orde en open-einde scenario’s doorgaan. Het zou zorgen voor de veilige en effectieve integratie van deze LLM’s in klinische besluitvormingsprocessen. De studie benadrukt het belang van methoden om hallucinaties te kwantificeren en te begrijpen, en uiteindelijk zullen alleen die LLM’s worden geïntegreerd in de klinische praktijk die hallucinaties minimaliseren en herkennen.
De studiebevindingen suggereren ook dat meervoudige keuze-examens in medisch onderwijs wellicht achterhaald worden, terwijl mondelinge beoordelingen meer belang zullen krijgen. Verder wijst de studie erop dat GPT-4 een verminderd percentage hallucinaties toonde en in staat was om uitdagende concepten zoals het verklaren van medische zinloosheid te navigeren. Maar het had moeite in andere scenario’s, zoals het in aanmerking nemen van patiëntkenmerken op niveau, bijvoorbeeld kwetsbaarheid.
Tot slot toonde de op medRxiv preprint server geposte studie aan dat GPT-4 beter presteerde dan GPT-3.5 en Google Bard in een neurochirurgisch mondeling examen. De studiebevindingen benadrukken de noodzaak van een grondige validatie van de prestaties van taalmodellen op steeds hogere-orde en open-einde scenario’s. Bovendien benadrukt de studie het belang dat neurochirurgen op de hoogte blijven van opkomende taalmodellen en hun verschillende prestatieniveaus voor potentiële klinische toepassingen.