Wat is Big Data?

Leestijd 3 minuten

Wat is Big Data?

De term “big data” of “Big Data” valt overal. De kranten schrijven erover en organisaties maken er gebruik van. Maar wat bedoelen we met de term big data?

Deze blog probeert daar antwoord op te geven.

De definitie van Big data

In het kort is er geen eenduidige definitie van big data. Toch is er een poging gedaan om big data zo goed mogelijk te beschrijven.

Een grote hoeveelheid gegevens. Dat is big data letterlijk naar het Nederlands vertaald. Maar dit is onvoldoende om een definitie aan te hangen, want wanneer is er sprake van een grote hoeveelheid gegevens?

Een mogelijke definitie van big data is de volgende: big data zijn zo’n grote hoeveelheid en ongestructureerde gegevens dat verwerking met conventionele computers of opslagsystemen niet meer mogelijk is.

Deze definitie is al nauwkeuriger dan alleen de vertaling. Maar laat alsnog veel ruimte over voor vrije interpretatie.

Gartner Inc. kijkt nog iets verder. Zij keken naar de kenmerken van big data om aan de hand daarvan een definitie te geven. Volgens Gartner heeft big data drie kenmerken, de “drie V’s”: Volume (hoeveelheid), Velocity (snelheid) en Variety (verscheidenheid). Als al deze drie kenmerken aanwezig zijn, is er sprake van big data. Verwerking met traditionele systemen is dan niet meer mogelijk.

Oftewel, big data is een concept, sterker nog, een probleem. Van welke definitie je ook uitgaat, aan het einde loopt de computer vast. Vanaf 2004 is hier een technologische oplossing voor, zodat het toch mogelijk is om met deze gegevens te werken. Maar daar gaan we in een ander blog op in.


Structuren van big data

Big data kent drie structuren. Gestructureerd, semi-gestructureerd en ongestructureerd. Hoewel eerder met alleen gestructureerde gegevens kon worden gewerkt (tabellen), is het vandaag de dag mogelijk om uit allerlei verschillende formaten gegevens te halen. Om er een paar te noemen: pdf, CSV, XML, foto, audio, video en nog veel meer.


Gestructureerd

Een van de structuren van big data is gestructureerd. Gestructureerde gegevens houdt in dat voor alle gegevens de bron, betekenis en gegevenstype duidelijk zijn. Een voorbeeld van gestructureerde gegevens is een klantentabel met daarin de vaste gegevens voornaam, tussenvoegsel, achternaam, postcode, huisnummer en toevoeging. Deze gegevens zijn altijd op dezelfde manier te achterhalen en nemen nooit een ander gegevenstype aan.

Ongestructureerd

Ongestructureerde gegevens geven geen enkele aanduiding in welk formaat de data komt en geven ook niet aan wat de betekenis van het gegeven is. Hierdoor is het verwerken en analyseren van dit soort gegevens tijdrovend.

Een voorbeeld van ongestructureerde gegevens is de inhoud van een e-mail. In de inhoud van de e-mail zitten allemaal losse woorden, zonder aan te geven wat de woorden betekenen. Na een reeks woorden kan er ook opeens een foto opduiken zonder aan te geven wat er op de foto staat.

Semi-gestructureerd

Het derde type is een samenstelling van de twee voorgaande structuren. Bij semi-gestructureerde gegevens hoeven de gegevens niet vast te staan, maar zijn er wel aanduidingen aanwezig over wat voor gegevens het gaat. Een voorbeeld hiervan zijn de velden: van, aan, cc, bcc, onderwerp en bijlage van een e-mail. De “van” laat altijd zien wie de e-mail stuurde. De “aan” laat altijd zien naar wie de e-mail is verzonden. Dit kunnen oneindig veel e-mailadressen zijn. De “bijlage” laat weten dat er een document bij zit. Welke betekenis bij dit document hoort, is onduidelijk.



Deze blog is geschreven door:

Dewi de Baat

Mede-eigenaar & data architect

Het is zijn passie om zijn kennis op een eenvoudige en positieve manier te doceren aan zijn studenten.

Interesse?

Of je nu al een hele datastrategie hebt staan, of dat je nog moet starten, wij denken graag met je mee in het realiseren van een datagedreven organisatie. Laat je naam en telefoonnummer achter en wij nemen snel contact met je op.
Bedankt voor het invullen! We bellen je zo spoedig mogelijk terug.
Oops! Something went wrong while submitting the form.

Alle trainingen en opleidingen

Data Science opleidingen in Python en R voor beginners tot aan expert, data engineering met Azure en Spark en data visualisatie in PowerBI.