Honderdduizenden variabelen naar een unieke DNA Fingerprint: een stap naar ‘personalized medicine’, (2)
16 augustus 2018 [10:31], 371 views
Door Joran Roor

Honderdduizenden variabelen naar een unieke DNA Fingerprint: een stap naar ‘personalized medicine’, (2)

SAS & Finaps dragen bij aan kankeronderzoek tijdens de Beyond Banking Hackathon
Team: Joost Huiskens, Rik de Ruiter, Turan Bulmus, Michael van Elk en Joran Roor
Artikel door: Joran Roor & Michael van Elk

Dit is een vervolg op de blog van 13-08-2018 waar een case werd beschreven hoe men met behulp van onder andere genetische eigenschappen van cellen kan bepalen wat de levensverwachting is van een longkankerpatiënt. In deze blog zal dieper worden ingegaan op de technische details van het onderzoek.

Onderzoeksvragen

Voor de Healthcare Challenge werden meerdere onderzoeksvragen geformuleerd. Deze dienden als richtlijnen, het was aan de teams om een aanpak te verzinnen die een of meerdere van deze vragen zo goed mogelijk zou beantwoorden. Deze vragen waren:

  • Is het mogelijk de correlaties tussen de verschillende datasets visualiseren?
  • Is het mogelijk om patiënten te verdelen in subtypes op basis van genetische informatie?
  •  Is het mogelijk om overleving in te schatten op basis van genetische informatie?
  •  Is het mogelijk om de respons op therapie te voorspellen op basis van de genetische informatie?

Aanpak

Voor het oplossen van deze problemen en het beantwoorden van de onderzoeksvragen is de volgende aanpak geformuleerd:

  • Inladen, schoonmaken en samenvoegen van de datasets.
  • Het reduceren van het aantal variabelen om tot een persoonlijke genetische ‘vingerafdruk’ te komen voor elke patiënt.
  • Het zoeken naar subtypes op basis van deze vingerafdruk.
  • Onderzoeken of deze subtypes verschillen in overleving of respons op chemotherapie.

Technische details

Datasets

Er werden zeven datasets over longkankerpatiënten ter beschikking gesteld: zes met genetische informatie, en één met klinische gegevens. De genetische datasets bestonden uit data over mutaties, copy number variation, methylatie, micro-RNA-expressie, messenger-RNA-expressie en proteïne-expressie. Dit alles voor ruim 1.000 patiënten, waarvan ongeveer de helft van het subtype non-small-cell longkanker, en de helft van het subtype squamous. Deze subtypes zijn sterk verschillend, en zijn daarom individueel geanalyseerd. Onderstaande analyse en resultaten betreffen de non-small-cell variant.

Samenvoegen van datasets

Niet elke patiënt komt voor in elke dataset. Vandaar dat er van de beschikbare tabellen een selectie gemaakt is waarmee de overlap van beschikbare patiënten zo groot mogelijk is. Op basis van dit criterium vervallen de micro-RNA- en de proteïne-expressiedata, sinds deze voor veel minder patiënten aanwezig waren. Indien er binnen één tabel meerdere metingen voor één patiënt voorkomen zijn deze geaggregeerd d.m.v. een gemiddelde of transponering zodat er uiteindelijk voor iedere patiënt één rij met metingen overblijft, met ongeveer 140.000 variabelen.

Datapreparatie

Oorspronkelijk bevat de tabel nog missende waarden, dus om een volledig gevulde tabel te creëren worden een aantal stappen uitgevoerd. De variabelen die meer dan 20% missende waarden bevatten worden verwijderd, waarna ongeveer 60.000 variabelen overblijven. De overige missende waarden worden geschat aan de hand van een K-Nearest Neighbor algoritme, dat de waarden bepaalt door te kijken naar patiënten met vergelijkbare eigenschappen waar de desbetreffende variabele wel van bekend is.

Omdat de algoritmes die op deze data worden toegepast gevoelig zijn voor de schaal van de waardes worden alle variabelen gestandaardiseerd, zodat ze hetzelfde gemiddelde en dezelfde variantie hebben. Hiermee wordt voorkomen dat de variabelen met een relatief grote schaal een onterecht hoge weging krijgen in het trainingsproces.

Reductie van dimensionaliteit

De volgende uitdaging is het aantal variabelen. 60.000 variabelen voor 577 patiënten gaat ongetwijfeld zorgen voor overfitting, want met een dergelijke hoeveelheid dimensies kunnen er wiskundig gezien altijd wel verbanden gevonden worden binnen de trainingsdataset terwijl deze niet generaliseren naar andere data. Binnen data science zijn er meerdere methoden om hier mee om te gaan, en het is afhankelijk van de situatie welke methode het meest geschikt is.

Van kanker is bekend dat het een gevolg is van mutaties in het genoom, en de daaruit volgende veranderingen in de processen van de cel. De beschikbare datasets geven een beeld van deze processen op meerdere punten. Gezien de hoge complexiteit van de betrokken processen lijkt het ontoereikend om individuele effecten van de variabelen te onderzoeken, aangezien de relevante patronen zullen bestaan uit combinaties van vele variabelen.

Deze situatie is uitermate geschikt voor neurale netwerken, welke bij uitstek in staat zijn om complexe verbanden te modelleren. Een auto-encoder is een type neuraal netwerk dat in staat is een grote hoeveelheid variabelen “samen te vatten” in een kleiner aantal variabelen. Het doet dit door te proberen de aangeleverde data zo goed mogelijk samen te vatten, zodanig dat de oorspronkelijke data er weer uit te reconstrueren is. Deze samenvatting van de genetische data van een patiënt is typerend als een vingerafdruk, dus hiernaar wordt verwezen als de personal multi-omics fingerprint.

Clustering

Door zijn geringer aantal variabelen is de personal multi-omics fingerprint een veel geschiktere basis voor verdere analyse. We passen op deze samenvatting de populaire k-means clustering methode toe, om zo patiënten met een op elkaar gelijkend genetisch profiel bij elkaar te groeperen. De groepen die hieruit voortkomen kunnen we verder analyseren om te kijken hoe ze van elkaar verschillen. De eerste stap hierin is kijken of er verschillende overleving is voor deze groepen, de resultaten van deze analyse komen na deze technische details. Analyse van de beste behandelmethodes voor verschillende groepen hebben we tijdens de hackathon ook uitgevoerd, helaas bleek echter dat de datakwaliteit van de behandelmethodes ontoereikend was voor presenteerbare resultaten. Verdere analyse is mogelijk om verschillen in genetische expressie te onderzoeken, hier was echter geen tijd voor tijdens de hackathon.

Voorlopige resultaten wijzen op onderscheidende methode

Op basis van enkel de Personal Multi-omics Fingerprint is onderstaande Kaplan-Meier overlevingsgrafiek gemaakt.

Er is duidelijk te zien dat er twee groepen zijn te onderscheiden die een sterk uiteenlopende overlevingsverwachting laten zien. Deze groepering is dus te maken door alleen informatie te gebruiken dat afkomstig is van de genetische informatie van de patiënt, zonder te kijken naar klinische variabelen zoals leeftijd, geslacht, stadium van de tumor etc. Sterker nog, tussen de klinische gegevens van de groepen blijkt geen significant verschil te bestaan. Dit betekent dus dat deze nieuwe methode van patiëntclassificatie op basis van de Personal Multi-omics Fingerprint niet mogelijk was op basis van enkel de klinische gegevens, waar artsen momenteel hun prognose op baseren. Dit is een sterke aanwijzing dat deze methode van toegevoegde waarde kan zijn in de klinische praktijk.

Vervolg

De resultaten wijzen op een mogelijke relevantie voor de klinische praktijk. De resultaten zijn voorgelegd aan medisch specialisten en onderzoekers, die de toegevoegde waarde bevestigd hebben. Op basis van deze feedback werken we momenteel gezamenlijk aan een wetenschappelijk artikel.

Aangezien de bevindingen het resultaat zijn van slechts één weekend onderzoek is er nog veel te doen. Het aanpassen van de instellingen van de auto-encoder kan ertoe leiden dat er nog meer informatie in de fingerprint verwerkt wordt waardoor de resultaten nauwkeuriger worden. Dit kan ook gedaan worden door het netwerk meer tijd te geven om door de data heen te spitten of door meer lagen toe te voegen zodat er complexere relaties gelegd kunnen worden. Zoals gebruikelijk bij medische datasets is de hoeveelheid patiënten beperkt, en kunnen met meer datapunten geavanceerdere patronen worden gevonden en kunnen de testresultaten op een meer betrouwbare manier gevalideerd worden. Daarnaast is het mogelijk om het netwerk voor te trainen met behulp van een grotere hoeveelheid genetische gegevens van bijvoorbeeld gezonde personen, waardoor het netwerk al begint met voorkennis van gebruikelijke patronen. De Personal Multi-omics Fingerprint kan ook gebruikt worden als verklarende input voor een supervised classificatiemodel dat voorspelt wat het effect zal zijn van chemotherapie.

Dankwoord

Het team is dankbaar voor deze kans om een kleine bijdrage te hebben kunnen leveren aan kankeronderzoek. Specifieke dank gaat uit naar de organisatoren van het de hackathon, Tjebbe Tauber van ABN-AMRO, en alle artsen en onderzoekers van het Erasmus MC en het UMC Groningen:

Prof. Dr. Ing. Peter van der Spek (Erasmus MC Rotterdam)
Prof. Dr. Harry Groen (UMCG, Groningen)
Prof. Dr. Joachim Aerts (Erasmus MC Rotterdam)
Daan Hurkmans (Erasmus MC Rotterdam)
Menno Tamminga (UMC Groningen)
Rogier van Wijck (Erasmus MC Rotterdam)

Over de auteur

Joran Roor is data scientist en is in 2017 gaan werken bij SAS, direct nadat hij afstudeerde in de Econometrie. Joran adviseert bedrijven op het gebied van data analytics, zoals datavisualisatie, statistiek, machine learning en kunstmatige intelligentie.

Reacties