“Elk ding heeft zijn wetenschap”
Wij hopen je in deze post mee te nemen in de dynamische wereld van Data Science. Van technische termen tot daadwerkelijke applicatie. Kortom, een cheatsheet voor wat het betekent om een Data Scientist te zijn!
“Wat is data science nou precies? ”. Dit soort vragen krijgen wij heel veel als wij bedrijven over de vloer hebben. Mijn achtergrond ligt in Computer Science, met Data Science specialisatie, dus ja het onderwerp ligt mij wel 😉 In deze blog vertel ik jullie graag over de ins & outs van de unicorns van data!
Wat is data science?
Zonder dat je het beseft kom je iedere dag in aanraking met data science. Voorbeelden zijn de zoekmachine van Google, de aanbevolen lijsten in Spotify en Netflix en zelfs je slimme thermostaat thuis! Het zijn producten waar kunstmatige intelligentie (AI) en machine learning (ML) algoritmes veel data verwerken om patronen te vinden en zo tot het beste resultaat te komen.
Data science is het raakvlak tussen statistiek, informatica en domeinkennis. Vanuit de informatica kan data verzameld, geprepareerd en verwerkt worden in algoritmen waarmee patronen ontdekt kunnen worden. De wiskunde en statistiek zijn benodigd om te weten hoe modellen toegepast kunnen worden om waardevolle inzichten te delven uit de data, en de domeinkennis is cruciaal voor de vertaling van de inzichten naar de organisatie.
In de figuur hierboven is een overzicht weergegeven van de raakvlakken en disciplines binnen data science, maar ook waar termen als “AI” en “Data Analytics” inpassen.
Een typisch data science project is fraude detectie, waarbij je een slim algoritme traint om frauduleuze gegevens of objecten op te sporen. In dit voorbeeld wordt statistiek gebruikt om afwijkende datapunten te vinden, computer science om het algoritme te ontwikkelen en is domeinkennis nodig is om de data te interpreteren. Een ander voorbeeld is het herkennen van verkeersborden in een zelfrijdende auto, zoals de nieuwe auto’s van Tesla.
Wat is een data scientist?
Een probleemoplosser, zo zouden bedrijven een data scientist als eerste beschrijven. Als we weer even de venn diagram van hierboven erbij halen, dan wordt het snel duidelijk dat de perfecte data scientist zich karakteriseert door op meerdere vlakken te excelleren en expert te zijn op alle drie onderdelen: het begrip van het domein en de business, het kunnen programmeren van algoritmen en de wiskunde en statistiek begrijpen om statistisch verantwoorde modellen te ontwikkelen. Door een brug te slaan tussen data en het domein, kan de data scientist gewonnen inzichten bereikbaar maken voor de business. Dit zorgt ervoor dat de data scientist directe ondersteuning biedt aan bedrijfsvoering en de uiteindelijke besluitvorming.
Inmiddels blijken deze zogenoemde “unicorns” moeilijk te vinden. De business is continu in beweging, er verandert veel op het gebied van IT en de modellen worden beter en ingewikkelder. Zo is tegenwoordig de data science unicorn eerder een samenkomst van verschillende specialiteiten binnen één team: het data science team.
Het leven van de data scientist
Als je 10 data scientists zou vragen een gemiddelde dag te beschrijven, zou je 10 compleet verschillende antwoorden krijgen. Omdat een data scientist goed is op veel verschillende gebieden past daar ook een flexibel en ervaren persoon bij.
Om een brug te slaan tussen data en het domein, moet eerst vanuit de bedrijfsvoering inzichtelijk gemaakt worden welke analyses de meeste impact leveren. Zo kan de data scientist juiste data snel verzamelen. Dit betreft ook grote gestructureerde of rauwe datasets van verschillende bronnen. Om tot werkbare data te komen moet de data scientist deze bronnen samenbrengen, opschonen en valideren. Vaak gaat ongeveer 80% van het werk in dit onderdeel zitten. De overige 20% kan besteed worden aan modelleren, afhankelijk van de rollen binnen het data science team, de beschikbaarheid en kwaliteit van data.
Nadat de juiste data verzameld en opgeschoond is komt de exploratieve data analyse (EDA), waarbij algoritmes en modellen gemaakt worden om onderliggende patronen te ontdekken.
De volgende stap is een van de belangrijkere maar ook een van de lastigere taken van een data scientist: het duidelijk communiceren van de resultaten met de bedrijfsvoering. Dit zijn bijna altijd mensen die minder raakvlak hebben met data science, dus de communicatie moet simpel en duidelijk zijn, maar vooral te vertalen naar de business impact. Er bestaan verschillende tools om hierin te ondersteunen, zoals Tableau, PowerBI en Looker.
Een voorbeeld van een data science levenscyclus is te vinden in een overzicht hieronder, waarin de relevante stappen gedetailleerder ingedeeld zijn.
Naast het werken met bedrijfsanalyses houdt de data scientist zich ook bezig met eigen ontwikkeling. IT is continu in beweging en er komen steeds modernere complexere modellen op. Daarom moet de data scientist binnen eigen vakgebied op de hoogte zijn van de beste en meest recente tools, algoritmen en methodes.
Welke vaardigheden heeft een data scientist nodig?
Het exacte takenpakket van een data scientist verschilt veel per bedrijf, maar er zijn wel een divers aantal vaardigheden die nuttig zijn om te hebben als data scientist, waaronder:
- het verzamelen, verwerken, transformeren en combineren van diverse data bronnen voor een analyse of model;
- data en analyses vertalen naar mooie en waardevolle inzichten in dashboards of presentaties;
- het vinden van de beste statistische methoden om een probleem op te lossen;
- het maken van voorspellingen op basis van historische data met behulp van machine learning;
- het identificeren en herkennen van kansen en mogelijkheden met data voor de organisatie;
- het eenvoudig overbrengen van resultaten aan management en andere betrokkenen.
Het lijstje hierboven geeft aan dat een goede data scientist te herkennen is aan ervaring met diverse skills en toepassingen. Denk daarbij aan SQL om met databases te communiceren en Python voor het programmeren van machine learning algoritmen. Voor het maken van dashboard en het delen van resultaten met betrokkenen, denk aan Tableau, PowerBI, Data studio of Lookr en aan Dataiku, Knime of Airflow voor het orchestreren van datastromen.
Data science: een stip op de horizon!
Als je niet uit de data science hoek komt en niet wist wat data science precies inhield, hopen we je met deze blog een klein topje van de ijsberg te hebben laten zien.
In de afgelopen jaren zien wij steeds meer en meer usecases waar een data scientist veel waarde kan levern maar omdat bedrijven niet voldoende inzicht hebben durven ze het vaak niet aan. Zo stellen ze harde kaders voor een consultant mbt de studie of bedrijfstak, terwijl data science juist op alle takken van de business toepasbaar is. Zolang je oplossingsgericht te werk gaat en probeert het domein goed te doorgronden, kan je als data scientist veel waarde toevoegen aan de organisatie!
Wat de achtergrond van jou of je organisatie ook is, data science biedt tal van mogelijkheden en zou zomaar voor een mooie vernieuwing kunnen zorgen!