Vieze data nog steeds het grootste knelpunt voor Data Scientists
27 november 2017 [11:15], 3541 views
Door Jos van Dongen

Vieze data nog steeds het grootste knelpunt voor Data Scientists

Wie in Google de zoekterm ‘dirty data’ intikt ziet dat de zoekmachine binnen een halve seconde meer dan 8 miljoen resultaten op weet te hoesten. Blijkbaar is er dus nogal wat informatie over ‘vieze data’ te vinden! Wat opvalt is dat veel van de links al wat ouder zijn; op mijn eerste pagina met resultaten staan links naar artikelen uit 2003 en 2005. Het probleem is dus blijkbaar niet nieuw, maar gegeven de recente aandacht vanuit de data science community wel weer heel actueel.

Barrières data scientists 

Onlangs publiceerde de data science competitie site Kaggle de resultaten van een groot onderzoek met maar liefst 16.000 respondenten wereldwijd. Op de vraag welke barrières men tegen komt tijdens het werk antwoordde bijna 50% ‘dirty data’, wat daarmee met stip het grootste struikelblok vormt. Er is echter meer aan de hand: 30% geeft aan dat “data unavailable or difficult to access” is, bijna 20% noemt “privacy issues”, 17,5% “multiple ad-hoc environments” en nog steeds 16,5% zegt dat “limitations of tools” een hindernis vormt. Als we dit bij elkaar optellen komt er geen fraai beeld uit; het lijkt een afgezaagd onderwerp waar onze hippe data scientists niet aan schijnen te willen, maar de oorzaak van al deze problemen zit toch echt in het gebrek aan data governance en een goede data architectuur.

Al 30 jaar lang geldt dat 80% van de tijd binnen een analytics of BI project besteed wordt aan datapreparatie en maar 20% aan analyse. In diezelfde 30 jaar zijn er allerlei hulpmiddelen op de markt gekomen die beloven dat het met behulp van nieuwe technologie naar 20% data, 80% analyse kan. In goed Nederlands zou ik zeggen: “dream on”. Wat de verhouding ook is of zou moeten zijn: het opzetten en onderhouden van een goede datahuishouding kost tijd, energie, en ja, ook geld dus. Eén van de meest kostbare fouten die momenteel gemaakt wordt is de aanname dat data scientists ook automatisch goede data engineers zijn. Ook hier weer: “dream on”. Bovendien, de meeste data scientists vinden dat ‘gepruts met data’ ook helemaal niet leuk! 

Data als centraal thema

Hoe moet het dan wel? Heel simpel: begin met je data serieus te nemen. ‘Data as an asset’, ook al zo’n afgezaagde spreuk, maar daarom niet minder relevant: iedereen wil ‘data driven’ zijn, maar niemand schijnt echt te beseffen wat daarvoor nodig is. Niet het inhuren van een paar slimme data scientists en dan verwachten dat er wonderen gebeuren, maar écht data als centraal thema binnen de bedrijfsvoering opnemen. Met een Chief Data Officer die in de Raad van Bestuur of net daaronder wordt gepositioneerd, met een integrale visie en aanpak rondom data governance, en met de goede data-architecten en data engineers die zich bezighouden met ‘science in data’ in plaats van met ‘data science’. 

Wat dat betreft is de nieuwe AVG (GDPR) wetgeving misschien wel een ‘blessing in disguise’: het wordt erg lastig om hieraan te voldoen zónder een integrale visie en aanpak rondom data governance. Om compliant te zijn met de AVG dienen onder andere zaken als rechtmatigheid van de verwerking, het gebruik van data voor profilering en inzicht in waar persoonsgegevens allemaal worden verwerkt, geborgd te zijn. Een recent door SAS uitgevoerd wereldwijd onderzoek naar GDPR compliance laat zien dat er nog een hoop te doen valt voor mei 2018, maar geeft ook aan hoe dit het beste bereikt kan worden. Tot slot valt te lezen hoe je zelfs concurrentievoordeel kunt behalen door zorgvuldig met persoonsgegevens om te gaan. Zorgvuldig betekent niet alleen dat de data veilig moet zijn, maar ook moet kloppen. Ofwel ook hier is dirty data een no go. Dus waar wacht je nog op? Ga aan de slag met data governance!

Over de auteur

Jos van Dongen is vanaf 1991 actief op het gebied van Business Intelligence, Analytics en Data Management. Jos heeft in de afgelopen +20 jaar een schat aan ervaring opgedaan in verschillende branches en met een veelheid aan tools en technieken. Hij heeft drie boeken en tientallen artikelen in vakbladen op zijn naam staan, en treedt regelmatig op als spreker op congressen in binnen- en buitenland. Sinds mei 2013 is Jos Principal Consultant binnen het pre-sales team van SAS Nederland.

Reacties

Gezondheid en sport: lekker healthy met Data Science
4 december 2018 [02:59], 155 views

Gezondheid en sport: lekker healthy met Data Science

SAS en Procam organiseerden op maandagavond 26 november de TechTalk Data Science voor studenten & young professionals met interesse in data science. [...]

 

Lees meer  

Notilyze neemt SaasNow over
10 oktober 2018 [10:01], 1059 views

Notilyze neemt SaasNow over

Met de overname van SaasNow kan Notilyze de ambitie om analytics binnen handbereik van ieder bedrijf en iedere business professional te brengen, verder vormgeven.

 

Lees meer  

Help jij SAS en Procam aan een Computable Award?
4 oktober 2018 [03:47], 918 views

Help jij SAS en Procam aan een Computable Award?

Misschien heb je het al gehoord: met onze gezamenlijke CareerCraft Academy for Data Scientists zijn Procam en SAS genomineerd als opleider van het jaar in de Computable Aw [...]

 

Lees meer  

Hoe bouw je een efficiënt data governance programma?
13 september 2018 [03:25], 1614 views

Hoe bouw je een efficiënt data governance programma?

Data governance is geen oud concept; bij SAS hebben we het al jaren over de voordelen van data governance. Het wordt echter vaak als een ‘nice to have’ gezien, ook a [...]

 

Lees meer  

SAS is benoemd tot leider in de Gartner Magic Quadrant voor data-integratie
6 september 2018 [11:55], 1247 views

SAS is benoemd tot leider in de Gartner Magic Quadrant voor data-integratie

Gartner heeft SAS voor het achtste jaar op rij uitgeroepen tot leider in data-integratie tools.

 

Lees meer  

Honderdduizenden variabelen naar een unieke DNA Fingerprint: een stap naar ‘personalized medicine’
13 augustus 2018 [10:30], 1850 views

Honderdduizenden variabelen naar een unieke DNA Fingerprint: een stap naar ‘personalized medicine’

Zijn data scientists in staat om nieuwe inzichten te halen uit genetische data van de patiënt, met als doel om kanker beter te begrijpen en behandelingen beter [...]

 

Lees meer  

Innovaties in een data gedreven samenleving
13 juni 2018 [09:00], 1814 views

Innovaties in een data gedreven samenleving

Innovaties in een data gedreven samenleving: van een grotere overlevingskans bij vroeggeboortes tot een leven lang genieten van voetbal. Op donderdag 31 mei vond de [...]

 

Lees meer  

Gepersonaliseerde zorg
28 mei 2018 [06:10], 1137 views

Gepersonaliseerde zorg

Gepersonaliseerde zorg is de focus van de huidige zoektocht in de zorg. Het Nederlandse zorgsysteem is dan wel wereldwijd één van de voorlopers, tegelijkertijd wille [...]

 

Lees meer  

GDPR/AVG: waarom reputatieschade minstens zoveel kopzorgen moet geven als een boete
28 januari 2018 [03:07], 1287 views

GDPR/AVG: waarom reputatieschade minstens zoveel kopzorgen moet geven als een boete

Vandaag is het Data Protection Day, ofwel de Internationale Dag van de Privacy. Met het in werking treden van de GDPR/AVG 25 mei dit jaar, is deze dag zo mogelijk no [...]

 

Lees meer  

Analytics in de cloud: de voordelen en voorwaarden
22 januari 2018 [08:59], 1146 views

Analytics in de cloud: de voordelen en voorwaarden

Wat zijn de voorwaarden om analytics uit te voeren in de cloud? En wat zijn de voordelen? 

 

Lees meer