Eureka! Of de vrijheid om ontdekkingen te doen
13 december 2012 [08:16], 21048 views
Door Jill Dyché

Eureka! Of de vrijheid om ontdekkingen te doen

De rode draad van de meest veelbelovende eerste resultaten van de exploratie en exploitatie van big data is 'ontdekking', discovery. Traditioneel database-onderzoek vereist een zekere mate van hypothese, maar het doorspitten van big data (big data mining) onthult relaties en patronen waarvan we niet eens wisten dat we ze zochten. In een door mij aangehaalde taxonomie van analytics, afkomstig uit mijn boek e-Data (Addison Wesley, 2000) vertegenwoordigt de onderste laag de meest voorkomende vorm van database-onderzoek, het standaard business intelligence rapport, en evolueert het naar boven in de richting van meer geavanceerde vormen van analytics. Hieraan werken mensen met meer geavanceerde vaardigheden en een steeds lager hypothese-gehalte.

pyramide analytics
Aan de top van de piramide vinden we  Knowledge Discovery, de detectie van patronen in data. Zoals ik toen schreef: "Deze patronen zijn te specifiek en te willekeurig om te specificeren en voor de analist is het een soort eeuwigdurend raadspelletje als hij  alle mogelijke patronen in de database zou willen ontdekken. In plaats daarvan worden speciale kennis discovery software tools ingezet om de patronen te vinden en de analist te vertellen welke dit zijn en waar ze zich bevinden. “

Zo kon je bij mining van data met betrekking tot borstkankercellen verwachten trends in de celproliferatie te zien. Maar, tot je verbazing, kon je ook ontdekken dat omliggende niet-kankercellen ook een bijdrage blijken te leveren aan de groei van kankercellen. De Stanford University onderzoekers die deze ontdekking deden hadden geen idee dat ze ook eens naar de niet-kankercellen moesten kijken.  Maar door lage-hypothese exploratie vonden ze het.

De meeste bedrijven hebben nu de onderste twee lagen van de piramide wel  onder de knie. Het is daarom dat veel senior managers het derde niveau, de predictive analytics, nu noemen als de logische volgende stap in hun streven naar een meer datagedreven organisatie. Maar weinig bedrijven beschikken echter over de juiste combinatie van vaardigheden, technologieën en nieuwe delivery-modellen om de top te bereiken.

Executives nemen te vaak aan dat er geen tijd is (laat staan budget) voor knowledge discovery. Sterker nog, de term suggereert ook feitelijk een soort academische oefening zonder tastbare terugverdientijd. Maar big data discovery inspanningen kunnen leiden tot verrassende en zeer bruikbare bevindingen. Een retailer laadde 12 jaar aan inkooptransacties in een Hadoop cluster om in de gegevens relaties te ontdekken die nog  onopgemerkt waren gebleven. Het bedrijf ontdekte nieuwe correlaties tussen producten die uiteindelijk samen in de winkelwagentjes waren beland. De  bevindingen resulteerden in innovatieve beslissingen met betrekking tot product placement en schapruimte en het resultaat was een 16% toename van de omzet per winkelwagen, alleen al  in de eerste maand van de proef.

Dit soort "Eureka" gebeurt niet zomaar. Bedrijfsleiders moeten een cultuur van ‘ontdekking’ bevorderen,  middelen vrijmaken voor big data proof-of-concepts en geen hoge verwachtingen hebben van de resultaten. Het betekent ook het trainen van een nieuwe lichting data scientists om gebruik te maken van de technologieën die een dergelijke ontdekking mogelijk maken  en het vertalen van de resultaten in businessacties waarvan de uitkomsten vervolgens gemeten worden. Het doen van discovery-trials op big data moet een continu proces te zijn, waarbij de resultaten de meer traditionele business intelligence kunnen voeden of extra tests mogelijk maken.

Soms betekent dit dat big data programma’s losgetrokken moeten worden van traditionele analytics programma's waar de leveringprocessen en organisatorische rollen al vastliggen. Zulke initiatieven vragen vaak vaak quick-hit inspanningen van hoogopgeleide experts en worden van oudsher tegengehouden door managers,  die ze nergens kunnen plaatsen. Maar deze geconcentreerde, intensieve inspanningen kunnen onbekend klantgedrag zichtbaar maken, evenals productvoorkeuren, financiële risicopatronen, en andere zaken die de uiteindelijke discovery-kosten méér dan goedmaken.

Deze blogpost verscheen eerder op Harvard Business Review

 

Reacties

Hoe bouw je een efficiënt data governance programma?
13 september 2018 [03:25], 1351 views

Hoe bouw je een efficiënt data governance programma?

Data governance is geen oud concept; bij SAS hebben we het al jaren over de voordelen van data governance. Het wordt echter vaak als een ‘nice to have’ gezien, ook a [...]

 

Lees meer  

SAS is benoemd tot leider in de Gartner Magic Quadrant voor data-integratie
6 september 2018 [11:55], 1115 views

SAS is benoemd tot leider in de Gartner Magic Quadrant voor data-integratie

Gartner heeft SAS voor het achtste jaar op rij uitgeroepen tot leider in data-integratie tools.

 

Lees meer  

Honderdduizenden variabelen naar een unieke DNA Fingerprint: een stap naar ‘personalized medicine’
13 augustus 2018 [10:30], 1661 views

Honderdduizenden variabelen naar een unieke DNA Fingerprint: een stap naar ‘personalized medicine’

Zijn data scientists in staat om nieuwe inzichten te halen uit genetische data van de patiënt, met als doel om kanker beter te begrijpen en behandelingen beter [...]

 

Lees meer  

Hoe verandert de technologische ontwikkeling de strategie van toezicht en handhaving?
27 juli 2018 [10:53], 1752 views

Hoe verandert de technologische ontwikkeling de strategie van toezicht en handhaving?

Big data, data analytics, Internet of Things (IoT), cryptomunten, blockchain, kunstmatige intelligentie (AI), FinTech en robotisering spelen een steeds belangrijkere [...]

 

Lees meer  

Gepersonaliseerde zorg
28 mei 2018 [06:10], 1045 views

Gepersonaliseerde zorg

Gepersonaliseerde zorg is de focus van de huidige zoektocht in de zorg. Het Nederlandse zorgsysteem is dan wel wereldwijd één van de voorlopers, tegelijkertijd wille [...]

 

Lees meer  

De 5 belangrijkste data management trends in 2018
10 januari 2018 [11:49], 3725 views

De 5 belangrijkste data management trends in 2018

Wat brengt dit jaar ons op het gebied van data management? Vanuit mijn optiek zijn dit de vijf ontwikkelingen die in 2018 bepalend zullen zijn voor het vakgebied.

 

Lees meer  

Gebruik DevOps ook voor je analytische modellen
27 december 2017 [10:48], 3417 views

Gebruik DevOps ook voor je analytische modellen

Nu bedrijven zich realiseren dat er waarde zit in hun data, willen steeds meer afdelingen een analytisch model. Maar hoe kun je aan die vraag voldoen?

 

Lees meer  

De 5 componenten van een sterke datastrategie
7 december 2017 [11:18], 3184 views

De 5 componenten van een sterke datastrategie

Datagedreven organisaties kunnen sneller beslissingen nemen, sneller innoveren, de klantervaring verbeteren en hun efficiency verhogen door processen te optimalisere [...]

 

Lees meer  

Vieze data nog steeds het grootste knelpunt voor Data Scientists
27 november 2017 [11:15], 3383 views

Vieze data nog steeds het grootste knelpunt voor Data Scientists

Wie in Google de zoekterm ‘dirty data’ intikt krijgt binnen een halve seconde meer dan 8 miljoen resultaten waarvan ook veel van jaren geleden. Het probleem is dus b [...]

 

Lees meer  

Trends en uitdagingen in data management
14 november 2017 [03:36], 5049 views

Trends en uitdagingen in data management

Data management staat hoog op de agenda bij veel bedrijven. Ze moeten complexe data beheren, integreren en real-time omzetten in betekenisvolle informatie.

 

Lees meer