Selectical

Een whitepaper over sneller en effectiever literatuur reviewen, met behulp van AI.

Introductie

De uitdaging

De oplossing: Selectical

Achtergrond: Active Learning

Performance

Conclusie

AI-geassisteerde Literatuurreviews

Het werk van systematische reviewers in academische literatuurstudies is tijdrovend, duur en repetitief. Het is tot nu toe lastig gebleken om hierbij effectieve hulp van de computer te krijgen. We hebben een tool ontwikkeld, op basis van AI-technologie, die assisteert bij het selecteren van relevante teksten: Selectical.

In dit whitepaper leggen we uit wat precies de uitdaging is van systematisch literatuuronderzoek in het medische domein en hoe Selectical hier een oplossing voor biedt we de problemen met automatisering hebben opgelost. Met Selectical kan 66% van het werk van reviewers bespaard worden, door gebruik te maken van nieuwe, realtime zelflerende AI-technologie. Het is hiermee mogelijk om in een fractie van de tijd alsnog meer dan 99% van relevante papers bij een studie te identificeren.

De uitdaging: veel werk en hoge eisen
De casus van literatuurrevies in het medische domein

Het selecteren van wetenschappelijke artikelen die relevant zijn voor een specifieke studie is geen gemakkelijke opgave. Omdat in een literatuurreview alle relevante artikelen moeten worden gevonden moet elk afzonderlijk artikel (titel en abstract) goed bestudeerd worden. Dat kost per artikel gemiddeld enkele minuten. Voor een studie met duizenden potentiële papers kost dit meerdere werkdagen, mogelijk zelfs hele werkweken van hoogopgeleide onderzoekers.

Waarom gebeurt dit nog niet automatisch?

Er zijn goede redenen waarom dit soort reviews nog niet machinaal gebeuren:

  • Er is weinig marge voor fouten. Meer dan 99% van de relevante papers moet worden geselecteerd.
  • Natuurlijke tekst interpreteren is moeilijk voor computers. Keyword analyse is niet genoeg gebleken om alle relevante (en überhaupt voornamelijk relevante) papers terug te vinden.
  • Bij elke nieuwe review zijn nieuwe selectiecriteria van toepassing. Een algoritme kan dus niet bouwen op kennis of resultaten van vroeger.
  • In sommige gevallen zijn titel en abstract niet genoeg om een beoordeling te geven. Zo’n twijfelgeval moet wel worden meegenomen. Dit bemoeilijkt geautomatiseerde selectie.

De inzet van Artificial Intelligence (AI) wordt door deze punten erg bemoeilijkt, o.a. omdat AI modellen vaak alleen effectief zijn als ze vooraf zijn getraind op vergelijkbare situaties. Het vereist een hele speciale soort AI-technologie om met de randvoorwaarden hierboven een werkend systeem te bouwen dat de menselijke taak van reviewen (deels) overneemt.


De oplossing: Selectical
Hoe werkt het?

Selectical is een AI-gedreven tool die bij elke literatuurstudie automatisch leert wat relevante papers zijn op basis van wat de onderzoeker invoert. Na korte tijd neemt Selectical het grootste deel van het werk van het selecteren over. Zo wordt in 34% van de tijd meer dan 99% van alle relevante papers gevonden.

Selectical werkt in elke browser en is eenvoudig in gebruik:

  1. Upload een set artikelen
    • Het systeem verwerkt de artikelen en bereidt het zelflerende proces voor.
  2. Aan de slag: Selectical geeft de reviewer artikelen om te beoordelen of ze voor deze studie relevant zijn. De reviewer klikt simpelweg op een van de drie knoppen (of gebruikt de sneltoetsen). Daarna verschijnt direct een nieuw artikel in beeld.
    • Selectical leert direct van wat de reviewer doet – dit gebeurt volautomatisch.
    • Na een aantal beoordelingen (dit varieert per studie) is de reviewer klaar en heeft Selectical bepaald wat alle relevante en niet-relevante artikelen zijn!
  3. Exporteer en download de resultaten!

Toepassingsmogelijkheden

Er zijn verschillende toepassingsmogelijkheden van Selectical binnen het review proces. Als ‘tweede reviewer’ bij een dubbele selectie (standaard bij systematisch literatuuronderzoek), als ‘controle tool’ en als ‘primaire selector’.

  1. Tweede review: na een 100% handmatige selectie door een eerste reviewer, kan Selectical dienen als tweede reviewer. Wat de tijdsinvestering van een tweede reviewer tot een derde reduceert. Bij het uploaden van de artikelen worden ook de resultaten van de eerste review meegegeven. Selectical ondersteunt dan de tweede review via het zelflerend proces en geeft na afloop de mogelijkheid om eventuele verschillen tussen de eerste en tweede review te vergelijken.
  2. Inzet als controle-tool: Het is ook mogelijk om Selectical in te zetten als controle van een eerdere review. Selectical leert van de eerder toegekende labels en identificeert artikelen waarbij de kans aanwezig is dat ze verkeerd gelabeld zijn. De reviewer hoeft vervolgens slechts deze kleine selectie artikelen te controleren. Na eventuele correcties kunnen de resultaten weer geëxporteerd worden.
  3. Uiteraard kan Selectical ook als primaire selector gebruikt worden. Als je de betrouwbaarheid van Selectical ervaren heeft in het gebruik als tweede reviewer, kun je Selectical meteen inzetten als hulp bij het selecteren van relevante literatuur.

Selectical: onder de motorkap
Hoe en waarom werkt dit als automatisch systeem?

Voorbereiding

De geüploade artikelen worden ingelezen door Selectical. De beschikbare informatie (titel, abstract, Pubmed/Embase velden) wordt verwerkt en geoptimaliseerd om het zelflerend algoritme snel en efficiënt mee te laten werken. Deze opstartstap kost wat tijd en rekenkracht, maar vereist geen enkele input van reviewers na de initiële upload. Wanneer dit is afgerond kan de reviewer aan de slag met het labelen van artikelen.

Real-time zelflerende AI

Zodra het menselijke werk van artikelen selecteren is begonnen, begint ook de AI met leren. Aan de hand van de handelingen van de reviewer, wordt de AI getraind om het onderscheid te kunnen maken tussen artikelen die ‘relevant’, ‘niet relevant’ en als ‘twijfelgeval moeten worden gelabeld. Dit proces noemen we Active Learning. (Zie het kader voor een uitleg in meer detail waarom dit werkt.)

Uiteindelijk is de AI slim genoeg om van een groot aantal artikelen te bepalen of ze relevant zijn of niet, zonder dat de reviewer deze hoeft te bekijken.

Eindpunt bepalen

Als we niet alle artikelen laten bekijken door de menselijke reviewer, hoe weten we dan zeker dat we alle relevante artikelen terugvinden? Die vraag is een van de belangrijkste redenen die dit tot een moeilijk probleem maakt. Selectical gebruikt een innovatieve strategie om deze ‘twijfel’ over ongeziene artikelen in te schatten en te kwantificeren. Als er uiteindelijk geen ‘meetbare twijfel’ meer is over de resterende artikelen, dan is de selectie afgerond en is de reviewer klaar om een export van alle resultaten te maken.

De techniek erachter

Active Learning

Bij active learning wordt een zelflerende Artificial Intelligence actief bijgestuurd door input van de gebruiker. De AI leert zogezegd door ‘af te kijken bij de mens’ hoe een taak uitgevoerd wordt.

Dit kan omdat het AI-algoritme een notie van zekerheid heeft bij de keuzes die gemaakt worden. De AI kan dus ‘zeker’ en ‘onzeker’ van z’n zaak zijn over een automatische beslissing.

In dit geval moet de AI leren wat relevante artikelen zijn en wat niet. Het werkt als volgt:

  1. De AI zoekt het artikel waarbij de relevantie het ‘meest relevant’ is, en legt dit voor aan de gebruiker.
  2. De menselijke gebruiker labelt dit artikel [relevant] of [niet relevant].
  3. De AI gebruikt deze nieuwe informatie om bij te leren en past waar nodig beslissingen over relevantie (en de zekerheid daarbij) aan.
  4. Herhaal vanaf 1.

Door dit een aantal keer te herhalen (hoe vaak hangt af van het probleem in kwestie), kan de AI uiteindelijk met hoge zekerheid het werk van de mens overnemen.

Selectical: Performance
Hoe goed presteert Selectical?

We kunnen de resultaten van elke review waar Selectical assisteert beoordelen op twee criteria:

  • Bespaard werk

    Welk gedeelte van het totaal aantal artikelen hoefde de reviewer niet te lezen?
  • Kwaliteit

    Welk percentage relevante artikelen werden door de AI daadwerkelijk gevonden?

Voor de beoordeling van het criterium ‘Kwaliteit’ is het nodig een test te draaien waarbij alle research papers wel al eens door een menselijke reviewer zijn beoordeeld. We kunnen vervolgens simuleren wat er zou zijn gebeurd als dit proces door Selectical werd geassisteerd, en de resultaten vergelijken.

Om dit op een rigoureuze manier te testen is deze simulatie op verschillende datasets gedraaid met verschillende (willekeurige) initiële parameters. De resultaten zijn vervolgens gemiddeld. Het betroffen datasets van literatuur reviews met uiteenlopende onderwerpen (bijvoorbeeld een groot scala aan ziekten, maar ook over alcoholgebruik, of voeding en gezondheid ), sterk gefocust (bijvoorbeeld de effectiviteit van een bepaald vaccin) tot breed (het natuurlijk beloop van een ziekte), en datasets van verschillende omvang (100 tot ruim 7000 titels).

Voor het testen zijn 36 literatuurreviews ieder 25 keer gesimuleerd. Bij elkaar tellen deze reviews 80 duizend abstracts, waarvan tweeduizend ‘relevant’.

CriteriumResultaat
Hoeveelheid bespaard werk66%
Kwaliteit99.3%

Volledige testresultaten inzien? Mail ons op hallo@wearelandscape.nl.

Opmerkingen over de resultaten

  • Bij kleine reviews, omvang minder dan 1000 titels/abstracts is het bespaarde werk gering. Maar in die gevallen biedt Selectical nog steeds een prettige interface om het selectiewerk te doen.
  • Een deel van de artikelen die de AI niet juist beoordeelde in de simulaties bleken fouten in de originele dataset te zijn: deze artikelen waren onterecht geselecteerd door menselijke reviewers, maar werden door de AI (terecht) niet als relevant beoordeeld.
  • Literatuuronderzoeken met specifiek geformuleerde doelstellingen geven een betere performance.
  • Selectical geeft betere resultaten en is meer gebruikersvriendelijk dan andere literatuurselectie tools. Een aantal van deze tools zijn door ons getest. Abstrackr includeerde veel titels/abstract die uiteindelijk niet relevant waren. Dit levert dan in de volgende selectiestap (het volledige artikel beoordelen) veel extra werk op, waardoor het gebruik van Abstrackr uiteindelijk meer tijd kostte dan een volledig handmatige selectie. Andere tools (zoals Abstrackr, Rayyan, Bioreader, Colandr, StArt, RobotAnalyst) geven niet zelf een duidelijk stopmoment aan. Er wordt dan gewerkt met ratings/inschattingen hoe relevant een artikel zal zijn en de gebruiker moet bepalen wanneer te stoppen. Dit kan ertoe leiden dat de gebruiker doorgaat met selecteren om het zekere voor het onzekere te nemen en dan alsnog geen tijd bespaart. Ook bleken de inschattingen bij onze tests van deze tools vaak niet accuraat of onderscheidend genoeg (zoals Rayyan, StArt).

Conclusie

Het automatisch selecteren van research papers voor studies was lang een onneembare horde voor Artificial Intelligence. Maar Selectical kan met real-time zelflerende AI meer dan 99% van alle relevante artikelen terugvinden terwijl de werklast van de reviewer met 66% afneemt.

Uit simulaties en gebruikerservaringen blijkt dat Selectical voor zeer uiteenlopende soorten studies een bijzonder nuttige bijdrage kan leveren. En beter presteert dan bestaande tools met een vergelijkbaar doel.

Benieuwd naar de resultaten van Selectical op uw eigen literatuur reviews? We kunnen de werking van Selectical ook op jouw literatuurreviews toetsen door simulaties te draaien.