Data Management en Analytics gaan hand in hand  bij het vinden van de meest paradijselijke plek ter wereld
6 april 2018 [06:23], 670 views
Door Rein Mertens

Data Management en Analytics gaan hand in hand bij het vinden van de meest paradijselijke plek ter wereld

Wist je dat West Perth in Australië analytisch gezien als meest paradijselijke plek ter wereld wordt bestempeld? Dit kwam naar voren uit het onderzoek van SAS voor het Paradise Found project zoals je kunt lezen in de blogpost van mijn collega Edwin Peters over dit onderwerp.

Eén ding is duidelijk: Zonder machine learning en analytics zouden we nooit bij deze buurt in deze Australische stad zijn uitgekomen. De basis van dit project bestond uit vijf miljoen datapunten die zijn verzameld op 148.233 locaties over de hele wereld vanuit 1124 verschillende bronnen. Data management was bij dit project onontbeerlijk. Om nieuwe inzichten uit gegevens te halen is het belangrijk dat data management en analytics optimaal samenwerken.

De echte uitdaging van big data: V als in variëteit

De uitdaging van analytics projecten (zoals Paradise Found) ligt vaak niet in de hoeveelheid data, maar in de diversiteit van de bronsystemen en hoe deze te ontsluiten. De diversiteit aan data, en de vaak ontbrekende aan structuur in deze data  maken het extra uitdagend. Een open analytics platform dat op een transparante manier toegang biedt tot vrijwel alle gestructureerde en ongestructureerde databronnen maakt het gelukkig een stuk eenvoudiger.

Diverse databronnen en heterogene datastructuren eisen tevens het volledige repertoire aan moderne datakwaliteitsmogelijkheden. Het standaardiseren en consolideren van plaatsnamen vanuit een duizelingwekkende variëteit aan notaties over de hele wereld (in termen van talen en alfabetten), waren nog maar een paar van de eenvoudige taken in Paradise Found. Los van standaard datakwaliteitsmethoden zoals profiling, parsing en opschonen is het verrijken van analytische data absoluut essentieel voor het succes van zo’n project. Ontbrekende of onjuiste data worden niet uitgesloten: processen als machine learning helpen de data verbeteren. 

Succesfactoren: snelheid en eenvoud

Naast het grote belang van de juiste tools voor data management heeft dit project ook aangetoond hoe belangrijk het is om data management en analytics nauw te integreren. Alleen met een iteratief, geïntegreerd proces is het mogelijk om snelle vooruitgang te boeken en de analytics te verrijken met aanvullende data en afgeleide inzichten. De traditionele werkverdeling tussen data scientist en data architect of tussen afdelingsanalist en IT behoort tot het verleden. Deze processen worden samengevoegd tot een iteratief proces zodat innovaties sneller tot stand kunnen komen. Alleen een geïntegreerd platform zoals dat van SAS, dat deze iteratieve stappen onderbrengt in een volledig proces, maakt het mogelijk om een dergelijk project in een paar weken tijd te implementeren.

De belangrijkste aspecten hierbij zijn een consistent gebruik van analytics en machine-learning-algoritmen door het hele proces heen. Zelfs in de eerste fasen van datapreparatie en alle informatie die al op basis van de data is gegenereerd in de vorm van modellen. In combinatie met een intuïtieve front-end kan een grote diversiteit aan gebruikers de data heel snel tot zich laten spreken in een ‘zelfservice’-proces. Data management is veel meer dan een simpele vingeroefening, maar het hoeft ook weer geen zware taak te zijn. Het is de enige manier om een helder, onvertekend beeld te krijgen van de data en afgeleide modellen, en daarop berust het succes van elke analyse. Je zult het paradijs dus niet vinden zonder goed data management!  

Over de auteur

Rein Mertens is Senior Manager en werkt sinds 1995 bij SAS Nederland, momenteel in de rol van Head of Analytical Platform. Met zijn team pre-sales consultants en data scientists adviseert hij nieuwe en bestaande klanten over de toegevoegde waarde van de inzet van SAS oplossingen voor informatie management, business analytics en visualisatie, machine learning en AI vraagstukken. Als gecertificeerde Data Privacy Officer is Rein tevens nauw betrokken bij de impact van de nieuwe data privacy wetgeving per mei 2018 (AVG) op data management en data science projecten. Rein is inhoudelijk betrokken bij de verschillende SAS User group events en zit in internationale werkgroepen om op basis van klantinput mee te denken met de prioriteitsstelling en verbetering van de SAS-producten.

Reacties

De hel van Excel: waarom je een datastrategie nodig hebt
12 januari 2016 [10:09], 8484 views

De hel van Excel: waarom je een datastrategie nodig hebt

Je verwacht het niet, maar toch zijn er nog veel bedrijven die data bewerken en analyseren in Excel. Het gaat daarbij niet alleen om kleinere organisaties, maar ook [...]

 

Lees meer