Big Data Analytics: het wiel uitvinden of een vliegwieleffect creëren?
26 april 2017 [11:24], 2987 views
Door Bas van Dorst

Big Data Analytics: het wiel uitvinden of een vliegwieleffect creëren?

 Drie jaar geleden schreef ik een artikel over de kansen voor de Nederlandse energiemarkt door het toepassen van Big Data Analytics. Vervolgens beschreef ik in 3 blogs op welke wijze je je kunt transformeren tot een datagedreven organisatie. Inmiddels zie ik veel positieve ontwikkelingen op dit gebied. Er wordt geëxperimenteerd met data-innovatie, er zijn teams opgericht en data scientists aangenomen om waardevolle inzichten en geavanceerde modellen te ontwikkelen. Toch merk ik dat energiebedrijven ieder voor zich (opnieuw) het wiel aan het uitvinden zijn en moeite hebben de stap naar een datagedreven organisatie te maken. Dit geldt overigens niet alleen voor de energiebedrijven, dit is een trend die zichtbaar is binnen de gehele Nederlandse markt. Een belangrijke factor hierin is dat velen zich beperken tot het gebruik van open source-tools. 

Uit onderzoek blijkt dat ongeveer 2% van de bedrijven alleen open source-technologie gebruikt voor data analytics-toepassingen. 57% gebruikt een combinatie van open source en commerciële software en 41% gebruikt alleen commerciële software. Dit geldt voor zowel datapreparatie, exploratie, modellering, exploratie als deployment. Gartner en Forrester brachten onlangs een rapport uit over technologieplatformen voor data analytics-toepassingen. Ze keken hiervoor naar de hele keten; van data-ontsluiting en modellering tot deployment. Een interessante conclusie is dat beiden het belang onderkennen van commerciële software in deze markt. Dit leidt logischerwijs tot de vraag: hoe vult commerciële software dan open source- technologie aan? 

Yes, we hebben open source!

Ik ben ervan overtuigd dat de toepassing van open source een enorme verrijking is om data analytics toe te passen. Heel veel bedrijven in Nederland maakt dan ook gebruik van open source-technologie. Daarbij laten ze zich echter volledig leiden door de kennis en vaardigheden van data scientists en analisten. Tot het moment dat na enkele jaren de board gaat vragen wat al de investeringen in mensen en middelen aan werkelijke geoperationaliseerde waarde heeft opgeleverd, daar gaat het uiteindelijk mis. 

Met een prototype van een auto op vakantie naar Zuid-Frankrijk?

Waarom gaat het mis? Het blijkt dat er bij open source-toepassingen heel veel tijd en energie moet worden gestoken in het ontsluiten, integreren en prepareren van data. Dit kan uiteindelijk leiden tot een R en Phyton jungle, onoverzichtelijk en niet te managen. Daarnaast blijkt het een lastige klus te zijn om de gerealiseerde open source-inzichten en -modellen, werkelijk in productie te brengen en vooral te houden (deployment). Hier worstelt iedereen mee, vooral als dit op grote schaal gerealiseerd moet worden. Als laatste en misschien wel het belangrijkste, het gebruik van de data en modellen is lastig te auditen en borging voor het voldoen aan wetgeving, compliancy en regulering is niet (voldoende) mogelijk. 

Hoe zorg je dat alle kennis overdraagbaar is? Hoe krijg je de open source "jungle" gemanaged en hoe zorg je dat je bij succes ook kan opschalen in hoeveelheden data, modellen en geoperationaliseerde inzichten? Er ontstaat een schaarste in resources en het wordt dus steeds belangrijker dat de data scientist en analisten ook werkelijk al hun tijd kunnen stoppen in het ontwikkelen van inzichten. Op dit moment zijn ze veel drukker met alle randvoorwaarden. Zolang hier geen oplossing voor wordt gevonden blijven organisaties stagneren in hun ontwikkeling en is het niet mogelijk de volgende stap in maturiteit te maken. Vergelijk het eens met de situatie dat je met een prototype van een nieuwe auto, al meteen met de hele familie inclusief alle bagage een verre autorit maakt naar Zuid-Frankrijk. Hierbij loop je een groot risico dat de vakantie uitdraait op een fiasco en niet oplevert wat je eigenlijk voor ogen had. De motor draait misschien goed, maar alle overige randvoorwaarden om comfortabel en veilig te kunnen rijden zijn slechts gedeeltelijk aanwezig. Eerlijk gezegd verbaas ik me een beetje dat bedrijven in deze tijd dit risico willen lopen. 

Kosten versus opbrengsten

Het is niet vreemd dat een beginnend datagedreven bedrijf start met open source tools. Al was het alleen al om de kosten laag te houden. Je merkt ook dat de universiteiten en opleidingen sterk sturen op het programmeren en ontwikkelen van modellen, wat succesvol wordt toegepast door de afgestudeerde data scientists en analisten. Echter door de focus te leggen op het programmeren en ontwikkelen van modellen, wordt er minder aandacht besteedt aan het werkelijk implementeren en operationaliseren van de ontwikkelde inzichten. Op universiteiten wordt volgens mij te weinig tijd gestoken in lessen die zorgen voor het inzicht hoe je met beperkte resources veel sneller tot inzichten komt, hoe je effectief kan omgaan met je resources, hoe je zorgt dat de gebruikte technologie schaalbaar is en hoe je borgt dat de kennis overdraagbaar is. 

Om dit te bereiken heb je technologieën nodig die binnen de open source communities (zeer) beperkt of wellicht helemaal niet verkrijgbaar zijn. Ik heb sterk de indruk dat de universiteiten en opleidingen in Nederland de onderwerpen deployment van modellen, versnellen van time to value en effectief en snel modelleren niet meenemen in hun opleidingsprogramma. Daarom weten data scientists en analisten vaak niet eens dat er zulke mogelijkheden bestaan. Dit is een kennisgat dat snel opgelost moet worden.

 Grootste uitdaging: operationaliseren van modellen 

Als je op dit moment met open source een analytics-keten volledig wil afdekken, heb je met meer dan 16 verschillende technologieën te maken die met elkaar moeten integreren. Een mooi voorbeeld hiervan is het data-innovatieplatform van een grote luchthaven die vorig jaar op een event hun aanpak presenteerde. Ook zij hadden meer dan 14 tools gecombineerd en uiteindelijk is hun grootste uitdaging het operationaliseren van modellen. Na enkele jaren werken wordt de werkelijke waarde moeizaam gecreëerd. Dit vraagt om enorm veel tijd, resources en geld terwijl dit met commerciële software snel is op te lossen, op de langere termijn gaat dit geld opleveren.

Opbrengsten

De grootste opbrengsten van commerciële software zitten met name in de time to value, de snelheid waarmee je modellen geoperationaliseerd krijgt en het gemak waarmee je dit kunt onderhouden. Ook het feit dat je exact kunt aantonen wat er wanneer met welke data is gebeurd, wie er welke handelingen heeft verricht en welke modellen er waarvoor zijn toegepast, geeft een grote mate van zekerheid. Zekerheid dat je compliant bent, voldoet aan regelgeving en de opgedane kennis niet verloren gaat als medewerkers vertrekken naar een andere organisatie. 

Wat als…

  • Wat als je de open source community zou kunnen combineren met een omvangrijke commerciële software community?
  • Wat als je verschillende modellen (open source en commercieel) automatisch zou kunnen vergelijken om uiteindelijk het best passende model van dat moment te kiezen?
  • Wat als je automatisch en continu alle modellen automatisch zou kunnen re-trainen zodat je op tijd weet dat de kwaliteit afneemt?
  • En wat als je een totaaloverzicht zou kunnen creëren van alle modellen zowel open source als commercieel, waarbij je het versiebeheer, updates, data aanpassingen, etc. gecontroleerd kan laten verlopen? 

Dan zou er een ideale situatie ontstaan. En het goede nieuws is, dat dit ook werkelijkheid kan worden als je verder kijkt dan alleen de toepassing van open source voor data analytics. Waar open source sterk is in het eenvoudig en snel verkrijgen van inzichten, is commerciële software sterk in het automatiseren van processen, automatisch documenteren van werkzaamheden op data en het operationaliseren van de inzichten via de bestaande back end-systemen. Organisaties zouden daarom de voordelen van deze sterke combinatie moeten benutten. Alleen zo groeien zij sneller naar een volwassen datagedreven bedrijf.    

Meer weten over dit onderwerp? Lees dan hier hoe een open platform toch governance èn schaalbaarheid kan bieden.

Over de auteur

Bas is een kennispartner voor bedrijven die actief zijn in utility en manufacturing. Vanuit zijn expertise helpt hij hen bij complexe vraagstukken op het gebied van analytics, big data management en business intelligence.  

 

 

Reacties

Dit zijn de hoogtepunten van de Analytics Experience
31 oktober 2017 [10:05], 400 views

Dit zijn de hoogtepunten van de Analytics Experience

De oprichter en CEO van SAS, Jim Goodnight, was er duidelijk over tijdens de Analytics Experience: “We leven in een nieuwe democratie van analytics. De macht van dat [...]

 

Lees meer  

Rampenbestrijding gebaat bij data-analyse over gedrag  donateurs
20 september 2017 [08:55], 1797 views

Rampenbestrijding gebaat bij data-analyse over gedrag donateurs

Amerika en de Caraïben zitten midden in het orkaanseizoen. Om te zorgen dat donaties aan slachtoffers goed terecht komen gebruikt Fidelity Charitable SAS Visual Anal [...]

 

Lees meer  

Hoe je als controller een citizen data scientist wordt
4 september 2017 [09:27], 923 views

Hoe je als controller een citizen data scientist wordt

Hoe krijgt een controller de vereiste inzichten uit data zonder een technisch expert te zijn? Het antwoord: ontwikkel je tot citizen data scientist.

 

Lees meer  

Zo word je een analytical marketeer
23 augustus 2017 [11:52], 843 views

Zo word je een analytical marketeer

De tijd waarin creativiteit bovenaan de wish list stond voor de ideale marketeer is voorgoed voorbij. Je hebt tegenwoordig meer nodig om te slagen. Dit zijn de [...]

 

Lees meer  

6 lessen voor het proces naar een analytische marketingorganisatie
21 juli 2017 [09:23], 1266 views

6 lessen voor het proces naar een analytische marketingorganisatie

Het is eindelijk zomer! Tijd om te ontspannen en een goed boek te lezen. Lees hier waarom ‘The Analytical Marketer’ zeker op je leeslijst zou moeten staan. 

 

Lees meer  

De KNVB analyseert het amateurseizoen 2016/2017
22 juni 2017 [08:13], 1667 views

De KNVB analyseert het amateurseizoen 2016/2017

Het voetbalseizoen voor de amateurs is ten einde. Een mooi moment voor de KNVB om terug te blikken en een analyse uit te voeren op alle data die over de 765.224 gesp [...]

 

Lees meer  

Datavisualisatie helpt Air France KLM bij transparant maken IT-kosten
20 juni 2017 [04:50], 1920 views

Datavisualisatie helpt Air France KLM bij transparant maken IT-kosten

De IT-divisie van KLM Air France was op zoek naar een manier om de IT-kosten van de luchtvaartmaatschappijen transparanter te maken. Lees hier waarom men onder andere koos [...]

 

Lees meer  

Meer vrouwen in het bestuur = meer vrouwen op het voetbalveld
8 juni 2017 [12:10], 2420 views

Meer vrouwen in het bestuur = meer vrouwen op het voetbalveld

Om meer vrouwen op het voetbalveld te krijgen moeten verenigingen meer vrouwen in hun bestuur opnemen. Dit is het advies waarmee vier studenten van de Rijksuniversit [...]

 

Lees meer  

Bereik de connected consument met het 3xC IoT-model
11 mei 2017 [10:07], 1730 views

Bereik de connected consument met het 3xC IoT-model

Hoe kun je als organisatie IoT-data gebruiken om je te onderscheiden en de connected klant te bereiken? Blue Hill Research licht toe hoe een IoT-model gebaseerd op 3 [...]

 

Lees meer  

Win-win cultuur sleutel naar digitale transformatie
5 mei 2017 [02:23], 1483 views

Win-win cultuur sleutel naar digitale transformatie

In het proces van digitale transformatie zorgt het gat tussen de business en IT regelmatig voor hoofdbrekens. Lees hoe een win-win cultuur dit gat kan dichten. 

 

Lees meer