Marco Spruit tijdens het uitspreken van zijn oratie vorig jaar: “Uiteindelijk probeer ik een open infrastructuur te creëren voor het uitvoeren van translationele datawetenschap.” | Foto: Barbra Verbij

Translationele datawetenschap in populatiegerichte zorg

Marco Spruit is sinds 2020 hoogleraar translationele datawetenschap in populatie­gerichte zorg. Dit nieuwe vakgebied, als combinatie van fundamentele en toepas­singsgerichte datawetenschap, heeft hij met zijn leeropdracht geïntroduceerd in Nederland. “Het gaat erom maatschappelijk relevante vragen als startpunt voor je onderzoek te nemen en die te koppelen aan fundamenteel-technische problemen.”

tekst • Hans van Eerden

Spruit is verbonden aan het LUMC (Leids Universitair Medisch Centrum) en het LIACS (Leiden Institute of Advanced Computer Science). Zijn praktische onderzoeksvragen haalt hij op bij de collega’s op de Health Campus Den Haag. Deze ‘buitenpost’ van het LUMC en de Universiteit Leiden wil vanuit verschillende wetenschappelijke en klinische invalshoeken bijdragen aan een gezonde levensverwachting voor iedereen. Hier vindt onder meer onderzoek plaats naar health governance en gedragsinterventies in populatiegerichte zorg. Ook is de huisartsen­opleiding er gevestigd. “Het is echt een trans­disciplinaire onderzoeksgroep. Ik ben er binnengehaald vanwege mijn specialisme in datawetenschap, in het bijzonder de inzet van artificial intelligence (AI), zoals machine learning, voor de verwerking van natuurlijke taal.”

prof. Marco Spruit
De cyclus van translationele datawetenschap die professor Marco Spruit met zijn TDS Lab volgt, onderverdeeld in drie onderzoeksgebieden: datatechniek, data-analyse en implementatie als e-health (digitale zorg) oplossing.

Rookstatus en gewicht
De onderzoekers putten vooral uit de database van ELAN (Extramuraal LUMC Academisch Netwerk). Die bevat de gegevens van patiënten en burgers uit de regio Den Haag-Leiden, in totaal 1,2 miljoen mensen, zonder onthullingsrisico. Heel veel relevante data uit deze database en andere bronnen zijn alleen beschikbaar in ongestructureerde vorm, als vrije tekst. “Onlangs heb ik bijvoorbeeld met een ziekenhuis een project gedaan om de rookstatus uit de tekstvelden in patiënten­dossiers te destilleren. Die rookstatus wordt niet gestructureerd opgeslagen, maar artsen typen wel informatie in tijdens een consult: ‘Patiënt rookt nog steeds.’ Deze gegevens zijn extreem belangrijk als je wilt voorspellen hoe groot de kans op hart- en vaatziekten over tien jaar is. Of neem het gewicht van een patiënt. Soms staat het keurig ingevuld, soms moet je de informatie uit de tekst halen.”

‘Overheid en NWO zouden moeten investeren in open-source zorgdataregistratie’

Open-source zorgdataregistratie
Het zou natuurlijk veel efficiënter zijn als data gestructureerd en goed toegankelijk worden opgeslagen. “Helaas hebben we daar niet zoveel controle over. Al die zorginformatiesystemen zijn commercieel en gesloten, de leveranciers bepalen wat er gebeurt. De overheid en NWO zouden moeten investeren in een open-source oplossing voor zorgdataregistratie. Met een klein team van extra ontwikkelaars zou ik dat in twee jaar voor elkaar hebben. Dat werkt beter dan die bedrijven miljoenen te geven om hun systemen een klein beetje open te stellen.”

Eén keer klikken
Spruit verwijst naar een project dat hij leidde toen hij nog bij Universiteit Utrecht werkte. Doel was in de praktijk bewezen effectieve en efficiënte beslissingsondersteuning te bieden bij de opsporing van problematische polyfarmacie. “Nederland telt 1,4 miljoen polyfarmaciepatiënten, die structureel vijf of meer verschillende medicijnen gebruiken. De huisarts heeft niet voldoende expertise van de interacties daartussen en kan dus niet beoordelen of ze goed samengaan. Wij wilden daarom een al werkende AI-oplossing voor het beter voorschrijven van medicatie beschikbaar stellen aan huisartsen. Zij zijn druk en willen niet van applicatie naar applicatie klikken. Het moest dus in hun reguliere proces zijn geïntegreerd: vanuit hun informatiesysteem met één keer klikken de farmaciestatus van een patiënt checken. Softwareleveranciers waren echter terughoudend om daaraan mee te werken.”

Dataminimalisatieprincipe
En dat terwijl ons land begin deze eeuw nog vooropliep met het elektronisch patiëntendossier (EPD). “Het gebruik daarvan is echter vercommercialiseerd en de overheid heeft de invoering van een landelijk schakelpunt verkeerd aangepakt, waardoor het vertrouwen is geschaad. Andere landen zijn nu veel verder.” Ook de AVG (Algemene verordening gegevensbescherming) helpt niet mee. “Bezwaren zijn vaak gebaseerd op niet-relevante of theore­tische argumenten, al is er natuurlijk ook terechte zorg. Etniciteit bijvoorbeeld is heel gevoelig, die mag je niet zomaar vastleggen. Als je medicijnen voorschrijft, kan etniciteit echter uitmaken voor de dosering. Deze cruciale informatie is daarom uiteindelijk wel in het systeem vastgelegd. Vanuit het dataminimalisatieprincipe moet je daarvoor onderbouwde redenen hebben. Toestemming vragen en zoveel mogelijk gegevens geanonimiseerd gebruiken zijn voorwaarden om op een juiste manier met die data om te gaan. Het kan dus wel. Maar vaak duren goedkeu­ringsprocedures nog steeds veel te lang, door schier eindeloze aanvullende informatieverzoeken om onzekerheden te minimaliseren.”

Meer grip op AI
De Europese AI-wet is de nieuwste uitdaging. “Op zich zijn de extra waarborgen allemaal terecht, maar het wordt nu echt krankzinnig ingewikkeld om een slim algoritme bij de arts te krijgen.” De wereldwijde discussie over AI, en de angst daarvoor, vindt Spruit vooral inte­ressant. “Iedereen ziet nu opeens dat er de afgelopen tien jaar voortgang is geboekt. Zoals onlangs het bericht dat een nieuw AI-model in beelddata borstkanker beter kan herkennen dan de radioloog. Ik ben niet zo bang voor al te slimme AI, maar we moeten er wel grip op krijgen. En dat hebben we in Europa nu niet. Dat vind ik zorgwekkend. Het moet op Europees en nationaal niveau meer prioriteit krijgen.”

Health Campus Den Haag
De Health Campus Den Haag wil vanuit verschillende wetenschappelijke en klinische invalshoeken bijdragen aan een gezonde levensverwachting voor iedereen. | © Health Campus Den Haag

Sturende rol politiek
Niet toevallig zit de Health Campus in Den Haag. “De politiek zou een meer sturende rol kunnen spelen. Er zijn allerlei tafels en praatclubjes, maar ik heb nog niet het gevoel dat ik daar goed grip op heb. Toen ik hier drie jaar geleden begon, uitte ik mijn frustratie over de gesloten systemen die innovatie hinderen. Dat was nu wettelijk geregeld en zou worden afgedwongen door de minister, kreeg ik te horen. Ik geloofde er niks van en ook de volgende minister heeft het al beloofd, maar ik heb nog steeds geen toegang tot die systemen; veelal traineren de bedrijven innovaties die niet van henzelf komen. Ik ben blij dat ik geen zorginnovatiebedrijfje heb, want ik zou gillend gek worden. Voor de rest ben ik heel optimistisch!”

Synthetische data
Want als het rechtsom niet mag, dan maar linksom, verwijst Spruit naar de opkomst van synthetische data. “Dat is nu noodgedwongen een hot topic. Omdat we moeilijk toegang krijgen tot voldoende data, gaan we die nu zelf genereren, zodat we modellen kunnen trainen met ‘nepdata’ die wel echt genoeg zijn om goede resultaten te krijgen. Als we bijvoorbeeld van de ELAN-database een geanonimiseerde digitale tweeling mogen maken, zouden we daarmee modellen kunnen ontwikkelen die we alleen nog maar hoeven te valideren met echte data. Zo zou je een factor tien sneller onderzoek kunnen doen en het ook in het onderwijs kunnen gebruiken. Studenten serieuze data uit hun eigen omgeving laten analyseren, bijvoorbeeld hoe Covid-19 zich heeft ontwikkeld.”

Open onderzoeksplatform
Spruit vreest echter dat het hem niet zal lukken om een complete digitale twin van ELAN beschikbaar te krijgen. “Daarom doe ik samen met het CBS, de ultieme dataleveran­cier van Nederland, onderzoek: ‘Als synthetischedata zijn gegenereerd op basis van echte data, kunnen we dan garanderen dat het niet mogelijk is om daaruit relevante informatie van echte mensen terug te halen?’ Daarvoor willen we een soort aanvalsscena­rio’s opstellen en onderzoeken.”
Pakt dit goed uit, dan wil Spruit op basis van synthetische data een open onderzoeks­platform opzetten. “Uiteindelijk probeer ik een infrastructuur te creëren voor het uit­voeren van translationele datawetenschap. Die wil ik ook toegankelijk maken voor huis­artsen, specialisten en geïnteresseerde burgers.”


Translational Data Science Lab

Op de Health Campus Den Haag heeft Marco Spruit het Translational Data Science (TDS) Lab opgezet. Hij wil het laten uitgroeien tot een TDS Centrum dat zich kan aansluiten bij het internationale netwerk van gerenommeerde centra op dit gebied. “Dat kan alleen als we een ‘body of evidence’ hebben. We werken in de cyclus van translationele datawetenschap met een onderverdeling in drie onderzoeksgebieden: techniek, analyse en implementatie. Met natural language processing creëren we toegang tot de EPD-tekstdata, met machine learning bouwen we datamodellen. Die evalueren we en vervolgens rollen we ze uit voor toepassing in populatiegerichte zorgpraktijken.”

Meer informatie: www.tdslab.nl


Ambities: multimodaliteit, spraakherkenning, zelfbediening

Met zijn onderzoek richt Spruit zich ambitieus op nieuwe ontwikkelingen in de datawetenschap. Een voorbeeld is multimodaliteit. “Ik wil bijvoorbeeld vrije data combineren met gestructureerde tekstdata om betere voorspellingen te kunnen doen; daarvoor ontwikkel ik multimodale algoritmes. Zo zou ik ook beeldherkenning, een vakgebied op zich, kunnen combineren met tekstanalyse.”
In opkomst is ook spraakherkenning, dat interessant kan zijn voor het automatiseren van dossiervorming, bijvoorbeeld van de gesprekken tussen arts en patiënt. “In het LUMC is een ‘proof of concept’ gemaakt en een start-up, Autoscriber, heeft al een werkende versie gebouwd voor het automatiseren van het maken van klinische notities. Spraak is sowieso de interface van de toekomst, ook voor het monitoren van patiënten. Ik ben op zoek naar taalmarkers die iets kunnen zeggen over de toestand van een patiënt. Bij een gesprekje met een chatbot kan bijvoorbeeld praten in de derde persoonsvorm een marker voor schizofrenie zijn.”
Uiteindelijk moeten artsen zelf met dit soort gereedschappen kunnen werken. “We hebben subsidies ontvangen om een infrastructuur op te zetten waarmee artsen zelf eenvoudige en betrouwbare analyses kunnen uitvoeren; self-service data science noem ik dat. Denk aan analyses van gesprekken van een alleenstaande, kwetsbare oudere met een sociale robot. Die kunnen waardevolle informatie opleveren voor huisarts en mantelzorger, en ook voor de patiënt zelf.”


Longreads zijn artikelen die wekelijks online geplaatst worden die uit het magazine komen.