Hadoop en big data zijn nauw met elkaar verbonden en je zult ze vaak samen, of op zijn minst naast elkaar, genoemd zien worden. Wat big data betreft kan bijna alles met elkaar in verband worden gebracht door de uiteenlopende data-implicaties. Big data is snel in opkomst als gebied om rekening mee te houden in de digitale wereld van vandaag, en Hadoop is een van de manieren om antwoorden te vinden in die data.
Wat is Hadoop?
Hadoop is een opensourceframework dat bedoeld is om alle componenten van het opslaan en parseren van enorme hoeveelheden data aan te pakken. Het is een veelzijdige, toegankelijke softwarebibliotheekarchitectuur. De lage instapkosten en de mogelijkheid om gaandeweg te analyseren, maken het een aantrekkelijke manier om big data te verwerken.
Hadoop werd in de vroege jaren 2000 gecreëerd as onderdeel van een zoekmachine-indexering om snellere zoekresultaten op te leveren. Tegelijkertijd werd Google gevormd. Google werd enorm succesvol met innovatieve zoekopties op het web, terwijl Hadoop andere kansen vond binnen de technologische architectuur en zich op de technische aspecten van het sorteren en verwerken van data richtte. Het project werd vernoemd naar de speelgoedolifant van de zoon van de bedenker: Hadoop.
Wat Hadoop doet en waarom het overal is
Hadoop is een verzameling onderdelen die samenwerken om opgeslagen data te parseren. Het bestaat uit vier modules:
Hadoop Common: de basisfuncties die de meeste usecases ondersteunen
Hadoop Distributed File System (HDFS): slaat data op in een toegankelijk format
Hadoop MapReduce: verwerkt data door een grote set in kaart te brengen en die vervolgens te filteren op bepaalde resultaten
Hadoop YARN: beheert bronnen en planning
Hadoop wordt veel gebruikt, omdat het toegankelijk is en eenvoudig om mee te werken. Het is bovendien betaalbaar en handig, met modules die veel opties bieden. Hadoop kan met meerdere machines eenvoudig schalen om datasets van vrijwel alle formaten te ondersteunen, en de manier waarop het data opslaat en verwerkt, biedt een aantrekkelijke zakelijke oplossing voor het steeds opschalen van dataopslag.
Het gebruik van Hadoop voor analyse met de flexibiliteit van hardware tegen lage kosten
Het probleem met het opslaan van veel data, is dat het vrij duur wordt om de bronnen en hardware te onderhouden die ervoor worden gebruikt. De reden dat Hadoop zoveel wordt gebruikt, is dat het heel toegankelijk is en een flexibel gebruik van hardware mogelijk maakt. Hadoop gebruikt standaardhardware, oftewel voordelige systemen die direct ingezet kunnen worden. Er zijn geen eigen systemen of dure op maat gemaakte hardware nodig om Hadoop uit te voeren, waardoor het gebruik ervan goedkoop is.
In plaats van te vertrouwen op dure hardware om data te verwerken, verdeelt Hadoop de verwerking over verschillende machines. Het systeem kan schalen om datasets van vrijwel alle formaten aan te kunnen. IT-professionals zijn vaak degenen die het meeste voordeel hebben van deze structuur, omdat Hadoop ze de mogelijkheid biedt om het aantal en de soort hardware aan te schaffen dat het beste bij de specifieke behoeften van IT past.
Data opslaan in datawarehouses versus in data lakes
Hadoop verdeelt niet alleen de verwerking, maar verandert ook hoe de data opgeslagen en geanalyseerd wordt.
Traditioneel wordt data opgeslagen in 'datawarehouses'. Zoals de naam al zegt, zijn dit grote verzamelingen datasets die op basis van hun informatie worden opgeslagen en georganiseerd. Analisten raadplegen vervolgens deze nieuw opgeslagen tabellen en datasets. Ze zijn gestructureerd en de data zijn zo verpakt dat ze on demand geraadpleegd kunnen worden. Om het goed te kunnen opslaan en de juiste data op te kunnen vragen wanneer nodig, moeten alla data worden geanalyseerd.
Hoewel datawarehouses handig zijn voor gebruikers die specifieke tabellen raadplegen, kan de analyse en opslag die eraan vooraf gaat, tijdrovend en arbeidsintensief zijn. Bovendien kunnen verkeerd gebruikte datawarehouses inefficiënt zijn: als bepaalde data niet direct bruikbaar is of geen duidelijke functie heeft, kan die vergeten of overgeslagen worden tijdens het analyseren. Doordat de kosten van opslag kunnen oplopen, is het belangrijk dat strategieën doordacht worden toegepast op datawarehouses als er moet worden geschaald als analisten en IT-professionals de structurele voordelen willen benutten.
Data lakes zijn juist het tegenovergestelde. Waar een datawarehouse beheerd en gecatalogiseerd is, is een data lake een enorme, ongestructureerde dump van alle data. Alle data worden opgeslagen, ongeacht of die geanalyseerd of bruikbaar zijn, of zelfs op een bepaald moment bruikbaar zouden kunnen zijn. De data worden in de ruwe vorm geïmporteerd en worden alleen geanalyseerd wanneer nodig. Omdat Hadoop redelijk voordelig is qua hardware, is het eenvoudig op te schalen wanneer dat nodig is om grotere hoeveelheden data op te slaan of parseren. Dat betekent echter dat het moeilijker is om vooraf bewerkte tabellen en goedgekeurde datasets bij de hand te hebben (dan weer een van de grootste voordelen van datawarehouses). Schalen van data lakes betekent schalen van beheerstrategieën en training.
Beide manieren van dataopslag hebben hun unieke voordelen en bedrijven gebruiken vaak zowel warehouses als lakes voor verschillende databehoeften.
De rol van Hadoop in IoT (internet der dingen)
Een van die oplossingen die Hadoop biedt, is de opslag van niet te bevatten hoeveelheden data en die te parseren. Big data wordt alleen maar groter. Vijf jaar geleden genereerden we iets minder dan de helft van de data die we nu genereren. Vijftien jaar geleden was de hoeveelheid data die we in een dag van 24 uur creëerden, minder dan wat we nu in drie minuten creëren.
Een belangrijke reden voor die enorme stijging in het genereren van data, is de huidige technologische golf die het internet der dingen (IoT) genoemd wordt. Dat zijn gewone, fysieke objecten die gekoppeld zijn aan en beheerd worden via het internet. Smartphones, smart-tv's en alarmsystemen kwamen eerst. Inmiddels zijn we ook overgestapt op slimme huishoudelijke apparaten, zoals aan het internet gekoppelde koelkasten, vaatwassers, thermostaten, lichtschakelaars, veiligheidscamera's, babyfoons, huisdiercamera's, sloten en robotstofzuigers. Hoewel deze apparaten je leven makkelijker maken, houden ze ook data bij van al hun acties en slaan die op.
IoT is ook geïntegreerd in zakelijke, ondernemers- en overheidsomgevingen. Slimme airco-units houden gebouwen efficiënt op temperatuur, bodycamera's beschermen politieagenten en burgers, en omgevingsdetectieapparatuur helpt overheden sneller reageren op natuurrampen zoals aardbevingen en bosbranden.
Allemaal samen leggen deze apparaten een ontzagwekkende hoeveelheid data vast, waarvoor flexibel beheer en betaalbare schaalbaarheid nodig is. Dat is waarom systemen zoals Hadoop vaak de go-to-oplossing zijn voor de opslag van IoT-data. Hadoop is niet de enige optie, maar het is wel de succesvolste dankzij de behoefte van IoT om steeds maar op te schalen.
Big data-opslag is alleen nuttig als je het kunt gebruiken
Terwijl big data groeit, moeten we het niet alleen effectief kunnen opslaan, maar we moeten er ook voor zorgen dat we het effectief gebruiken. We kunnen alle data ter wereld opslaan, maar daar heb je weinig aan als het vervolgens staat te verstoffen. Hoewel Hadoop voordelen biedt die andere data-opslagmethoden niet bieden, is data-opslag geen vervanging van data-analyse of business intelligence.
Hoe groter de verzameling data, hoe hoger de kosten voor opslag. En als je die data niet gebruikt om er inzichten en waarde uit te halen, dan heb je alleen een hoop geld weggegooid aan een prachtige, maar nutteloze strategie voor dataverzameling en -opslag. Het kan handig zijn om deze metafoor over goudzoeken toe te passen op data: Als je een lap grond koopt om goud te delven, maar je delft niet... dan heb je een hoop geld verspild. Als ze goed worden toegepast, kunnen systemen zoals Hadoop het land wat goedkoper maken.