Vieze data nog steeds het grootste knelpunt voor Data Scientists
27 november 2017 [11:15], 488 views
Door Jos van Dongen

Vieze data nog steeds het grootste knelpunt voor Data Scientists

Wie in Google de zoekterm ‘dirty data’ intikt ziet dat de zoekmachine binnen een halve seconde meer dan 8 miljoen resultaten op weet te hoesten. Blijkbaar is er dus nogal wat informatie over ‘vieze data’ te vinden! Wat opvalt is dat veel van de links al wat ouder zijn; op mijn eerste pagina met resultaten staan links naar artikelen uit 2003 en 2005. Het probleem is dus blijkbaar niet nieuw, maar gegeven de recente aandacht vanuit de data science community wel weer heel actueel.

Barrières data scientists 

Onlangs publiceerde de data science competitie site Kaggle de resultaten van een groot onderzoek met maar liefst 16.000 respondenten wereldwijd. Op de vraag welke barrières men tegen komt tijdens het werk antwoordde bijna 50% ‘dirty data’, wat daarmee met stip het grootste struikelblok vormt. Er is echter meer aan de hand: 30% geeft aan dat “data unavailable or difficult to access” is, bijna 20% noemt “privacy issues”, 17,5% “multiple ad-hoc environments” en nog steeds 16,5% zegt dat “limitations of tools” een hindernis vormt. Als we dit bij elkaar optellen komt er geen fraai beeld uit; het lijkt een afgezaagd onderwerp waar onze hippe data scientists niet aan schijnen te willen, maar de oorzaak van al deze problemen zit toch echt in het gebrek aan data governance en een goede data architectuur.

Al 30 jaar lang geldt dat 80% van de tijd binnen een analytics of BI project besteed wordt aan datapreparatie en maar 20% aan analyse. In diezelfde 30 jaar zijn er allerlei hulpmiddelen op de markt gekomen die beloven dat het met behulp van nieuwe technologie naar 20% data, 80% analyse kan. In goed Nederlands zou ik zeggen: “dream on”. Wat de verhouding ook is of zou moeten zijn: het opzetten en onderhouden van een goede datahuishouding kost tijd, energie, en ja, ook geld dus. Eén van de meest kostbare fouten die momenteel gemaakt wordt is de aanname dat data scientists ook automatisch goede data engineers zijn. Ook hier weer: “dream on”. Bovendien, de meeste data scientists vinden dat ‘gepruts met data’ ook helemaal niet leuk! 

Data als centraal thema

Hoe moet het dan wel? Heel simpel: begin met je data serieus te nemen. ‘Data as an asset’, ook al zo’n afgezaagde spreuk, maar daarom niet minder relevant: iedereen wil ‘data driven’ zijn, maar niemand schijnt echt te beseffen wat daarvoor nodig is. Niet het inhuren van een paar slimme data scientists en dan verwachten dat er wonderen gebeuren, maar écht data als centraal thema binnen de bedrijfsvoering opnemen. Met een Chief Data Officer die in de Raad van Bestuur of net daaronder wordt gepositioneerd, met een integrale visie en aanpak rondom data governance, en met de goede data-architecten en data engineers die zich bezighouden met ‘science in data’ in plaats van met ‘data science’. 

Wat dat betreft is de nieuwe AVG (GDPR) wetgeving misschien wel een ‘blessing in disguise’: het wordt erg lastig om hieraan te voldoen zónder een integrale visie en aanpak rondom data governance. Om compliant te zijn met de AVG dienen onder andere zaken als rechtmatigheid van de verwerking, het gebruik van data voor profilering en inzicht in waar persoonsgegevens allemaal worden verwerkt, geborgd te zijn. Een recent door SAS uitgevoerd wereldwijd onderzoek naar GDPR compliance laat zien dat er nog een hoop te doen valt voor mei 2018, maar geeft ook aan hoe dit het beste bereikt kan worden. Tot slot valt te lezen hoe je zelfs concurrentievoordeel kunt behalen door zorgvuldig met persoonsgegevens om te gaan. Zorgvuldig betekent niet alleen dat de data veilig moet zijn, maar ook moet kloppen. Ofwel ook hier is dirty data een no go. Dus waar wacht je nog op? Ga aan de slag met data governance!

Over de auteur

Jos van Dongen is vanaf 1991 actief op het gebied van Business Intelligence, Analytics en Data Management. Jos heeft in de afgelopen +20 jaar een schat aan ervaring opgedaan in verschillende branches en met een veelheid aan tools en technieken. Hij heeft drie boeken en tientallen artikelen in vakbladen op zijn naam staan, en treedt regelmatig op als spreker op congressen in binnen- en buitenland. Sinds mei 2013 is Jos Principal Consultant binnen het pre-sales team van SAS Nederland.

Reacties

De 5 componenten van een sterke datastrategie
7 december 2017 [11:18], 169 views

De 5 componenten van een sterke datastrategie

Datagedreven organisaties kunnen sneller beslissingen nemen, sneller innoveren, de klantervaring verbeteren en hun efficiency verhogen door processen te optimalisere [...]

 

Lees meer  

Vieze data nog steeds het grootste knelpunt voor Data Scientists
27 november 2017 [11:15], 489 views

Vieze data nog steeds het grootste knelpunt voor Data Scientists

Wie in Google de zoekterm ‘dirty data’ intikt krijgt binnen een halve seconde meer dan 8 miljoen resultaten waarvan ook veel van jaren geleden. Het probleem is dus b [...]

 

Lees meer  

Trends en uitdagingen in data management
14 november 2017 [03:36], 879 views

Trends en uitdagingen in data management

Data management staat hoog op de agenda bij veel bedrijven. Ze moeten complexe data beheren, integreren en real-time omzetten in betekenisvolle informatie.

 

Lees meer  

Verhoog ROI op data en IT met governance
7 november 2017 [05:37], 650 views

Verhoog ROI op data en IT met governance

Bedrijven met een effectieve data governance strategie halen een 40 procent hogere ROI op hun IT-investeringen dan hun concurrenten. Alle reden dus om data governanc [...]

 

Lees meer  

SAS kondigt oplossing aan voor GDPR compliance
30 oktober 2017 [11:05], 555 views

SAS kondigt oplossing aan voor GDPR compliance

De GDPR dwingt organisaties maatregelen treffen om inzicht te krijgen in de manier waarop persoonsgegevens binnen hun organisatie worden verwerkt en beschermd. Om he [...]

 

Lees meer  

Hoe haal je businesswaarde uit de GDPR?
5 oktober 2017 [12:10], 898 views

Hoe haal je businesswaarde uit de GDPR?

GDPR compliance is verre van eenvoudig. Welke maatregelen moet je treffen om de privacy van hun klanten en medewerkers te beschermen? En hoe haal je hier ook zakelij [...]

 

Lees meer  

Onderzoek: slechts 45 procent  heeft een gestructureerd plan voor GDPR
26 september 2017 [04:46], 637 views

Onderzoek: slechts 45 procent heeft een gestructureerd plan voor GDPR

SAS deed wereldwijd onderzoek naar de grootste uitdagingen en kansen die organisaties tegenkomen op de weg naar GDPR compliance. Hier de belangrijkste resultaten op een ri [...]

 

Lees meer  

Waarom iedereen slimmer kan worden met data science
15 september 2017 [05:05], 753 views

Waarom iedereen slimmer kan worden met data science

Een groot deel van ons leven draait om het maken van keuzes. Bij voorkeur de juiste. Data science kan hierbij helpen.  Maar hoe realiseer je dit als je de kennis en [...]

 

Lees meer  

Oplossing voor zelfvarende schepen wint innovatieprijs World Port Hackathon
5 september 2017 [04:07], 1306 views

Oplossing voor zelfvarende schepen wint innovatieprijs World Port Hackathon

Hoe maak je de haven veilig voor zelfvarende schepen? Voor deze vraag stonden data-professionals tijdens de World Port Hackathon 

 

Lees meer  

SAS blijft voorop lopen in data-integratie
15 augustus 2017 [05:10], 1194 views

SAS blijft voorop lopen in data-integratie

Gartner heeft SAS voor het zevende jaar op rij uitgeroepen tot leider in data-integratie. 

 

Lees meer