Vieze data nog steeds het grootste knelpunt voor Data Scientists
27 november 2017 [11:15], 2435 views
Door Jos van Dongen

Vieze data nog steeds het grootste knelpunt voor Data Scientists

Wie in Google de zoekterm ‘dirty data’ intikt ziet dat de zoekmachine binnen een halve seconde meer dan 8 miljoen resultaten op weet te hoesten. Blijkbaar is er dus nogal wat informatie over ‘vieze data’ te vinden! Wat opvalt is dat veel van de links al wat ouder zijn; op mijn eerste pagina met resultaten staan links naar artikelen uit 2003 en 2005. Het probleem is dus blijkbaar niet nieuw, maar gegeven de recente aandacht vanuit de data science community wel weer heel actueel.

Barrières data scientists 

Onlangs publiceerde de data science competitie site Kaggle de resultaten van een groot onderzoek met maar liefst 16.000 respondenten wereldwijd. Op de vraag welke barrières men tegen komt tijdens het werk antwoordde bijna 50% ‘dirty data’, wat daarmee met stip het grootste struikelblok vormt. Er is echter meer aan de hand: 30% geeft aan dat “data unavailable or difficult to access” is, bijna 20% noemt “privacy issues”, 17,5% “multiple ad-hoc environments” en nog steeds 16,5% zegt dat “limitations of tools” een hindernis vormt. Als we dit bij elkaar optellen komt er geen fraai beeld uit; het lijkt een afgezaagd onderwerp waar onze hippe data scientists niet aan schijnen te willen, maar de oorzaak van al deze problemen zit toch echt in het gebrek aan data governance en een goede data architectuur.

Al 30 jaar lang geldt dat 80% van de tijd binnen een analytics of BI project besteed wordt aan datapreparatie en maar 20% aan analyse. In diezelfde 30 jaar zijn er allerlei hulpmiddelen op de markt gekomen die beloven dat het met behulp van nieuwe technologie naar 20% data, 80% analyse kan. In goed Nederlands zou ik zeggen: “dream on”. Wat de verhouding ook is of zou moeten zijn: het opzetten en onderhouden van een goede datahuishouding kost tijd, energie, en ja, ook geld dus. Eén van de meest kostbare fouten die momenteel gemaakt wordt is de aanname dat data scientists ook automatisch goede data engineers zijn. Ook hier weer: “dream on”. Bovendien, de meeste data scientists vinden dat ‘gepruts met data’ ook helemaal niet leuk! 

Data als centraal thema

Hoe moet het dan wel? Heel simpel: begin met je data serieus te nemen. ‘Data as an asset’, ook al zo’n afgezaagde spreuk, maar daarom niet minder relevant: iedereen wil ‘data driven’ zijn, maar niemand schijnt echt te beseffen wat daarvoor nodig is. Niet het inhuren van een paar slimme data scientists en dan verwachten dat er wonderen gebeuren, maar écht data als centraal thema binnen de bedrijfsvoering opnemen. Met een Chief Data Officer die in de Raad van Bestuur of net daaronder wordt gepositioneerd, met een integrale visie en aanpak rondom data governance, en met de goede data-architecten en data engineers die zich bezighouden met ‘science in data’ in plaats van met ‘data science’. 

Wat dat betreft is de nieuwe AVG (GDPR) wetgeving misschien wel een ‘blessing in disguise’: het wordt erg lastig om hieraan te voldoen zónder een integrale visie en aanpak rondom data governance. Om compliant te zijn met de AVG dienen onder andere zaken als rechtmatigheid van de verwerking, het gebruik van data voor profilering en inzicht in waar persoonsgegevens allemaal worden verwerkt, geborgd te zijn. Een recent door SAS uitgevoerd wereldwijd onderzoek naar GDPR compliance laat zien dat er nog een hoop te doen valt voor mei 2018, maar geeft ook aan hoe dit het beste bereikt kan worden. Tot slot valt te lezen hoe je zelfs concurrentievoordeel kunt behalen door zorgvuldig met persoonsgegevens om te gaan. Zorgvuldig betekent niet alleen dat de data veilig moet zijn, maar ook moet kloppen. Ofwel ook hier is dirty data een no go. Dus waar wacht je nog op? Ga aan de slag met data governance!

Over de auteur

Jos van Dongen is vanaf 1991 actief op het gebied van Business Intelligence, Analytics en Data Management. Jos heeft in de afgelopen +20 jaar een schat aan ervaring opgedaan in verschillende branches en met een veelheid aan tools en technieken. Hij heeft drie boeken en tientallen artikelen in vakbladen op zijn naam staan, en treedt regelmatig op als spreker op congressen in binnen- en buitenland. Sinds mei 2013 is Jos Principal Consultant binnen het pre-sales team van SAS Nederland.

Reacties

Innovaties in een data gedreven samenleving
13 juni 2018 [09:00], 713 views

Innovaties in een data gedreven samenleving

Innovaties in een data gedreven samenleving: van een grotere overlevingskans bij vroeggeboortes tot een leven lang genieten van voetbal. Op donderdag 31 mei vond de [...]

 

Lees meer  

Gepersonaliseerde zorg
28 mei 2018 [06:10], 526 views

Gepersonaliseerde zorg

Gepersonaliseerde zorg is de focus van de huidige zoektocht in de zorg. Het Nederlandse zorgsysteem is dan wel wereldwijd één van de voorlopers, tegelijkertijd wille [...]

 

Lees meer  

GDPR/AVG: waarom reputatieschade minstens zoveel kopzorgen moet geven als een boete
28 januari 2018 [03:07], 894 views

GDPR/AVG: waarom reputatieschade minstens zoveel kopzorgen moet geven als een boete

Vandaag is het Data Protection Day, ofwel de Internationale Dag van de Privacy. Met het in werking treden van de GDPR/AVG 25 mei dit jaar, is deze dag zo mogelijk no [...]

 

Lees meer  

Analytics in de cloud: de voordelen en voorwaarden
22 januari 2018 [08:59], 835 views

Analytics in de cloud: de voordelen en voorwaarden

Wat zijn de voorwaarden om analytics uit te voeren in de cloud? En wat zijn de voordelen? 

 

Lees meer  

Besteden data science opleidingen voldoende aandacht aan compliance?
18 januari 2018 [12:01], 831 views

Besteden data science opleidingen voldoende aandacht aan compliance?

Werkgevers klagen geregeld dat net afgestudeerden nog niet de juiste bagage hebben om aan de slag te gaan. Zo is er soms bijvoorbeeld te weinig beheersing van specifieke d [...]

 

Lees meer  

De 5 belangrijkste data management trends in 2018
10 januari 2018 [11:49], 2275 views

De 5 belangrijkste data management trends in 2018

Wat brengt dit jaar ons op het gebied van data management? Vanuit mijn optiek zijn dit de vijf ontwikkelingen die in 2018 bepalend zullen zijn voor het vakgebied.

 

Lees meer  

Gebruik DevOps ook voor je analytische modellen
27 december 2017 [10:48], 2235 views

Gebruik DevOps ook voor je analytische modellen

Nu bedrijven zich realiseren dat er waarde zit in hun data, willen steeds meer afdelingen een analytisch model. Maar hoe kun je aan die vraag voldoen?

 

Lees meer  

De 5 componenten van een sterke datastrategie
7 december 2017 [11:18], 2235 views

De 5 componenten van een sterke datastrategie

Datagedreven organisaties kunnen sneller beslissingen nemen, sneller innoveren, de klantervaring verbeteren en hun efficiency verhogen door processen te optimalisere [...]

 

Lees meer  

Vieze data nog steeds het grootste knelpunt voor Data Scientists
27 november 2017 [11:15], 2436 views

Vieze data nog steeds het grootste knelpunt voor Data Scientists

Wie in Google de zoekterm ‘dirty data’ intikt krijgt binnen een halve seconde meer dan 8 miljoen resultaten waarvan ook veel van jaren geleden. Het probleem is dus b [...]

 

Lees meer  

Trends en uitdagingen in data management
14 november 2017 [03:36], 3540 views

Trends en uitdagingen in data management

Data management staat hoog op de agenda bij veel bedrijven. Ze moeten complexe data beheren, integreren en real-time omzetten in betekenisvolle informatie.

 

Lees meer