Förklaring av big data och Hadoop: En översikt för alla

Hadoop och big data är nära sammanflätade och nämns ofta i samma sammanhang, i alla fall i närheten av varandra. När det gäller big data kan nästan allt hänga ihop på grund av den omfattande inverkan som datan har. Big data har snabbt blivit ett område att tävla med i dagens digitala värld och Hadoop är ytterligare ett sätt att hitta svar inom den datan.

Vad är Hadoop?

Hadoop är ett ramverk med öppen källkod som är avsett att hantera alla de komponenter som krävs för att lagra och analysera enorma mängder data. Det är ett system som är både mångsidigt och tillgängligt. Hadoop har en låg ingångskostnad och låter dig analysera allt, vilket gör det till ett attraktivt sätt att bearbeta big data.

Hadoop skapades i början av 2000-talet som en del av en sökmotorindexering för att skapa snabba sökresultat. Samtidigt formades Google. Google kom igång ordentligt med innovativ webbsökning medan Hadoop hittade andra möjligheter inom sin teknikarkitektur och fokuserade på de tekniska aspekterna av lagring och bearbetning av data. Projektet fick sitt namn efter den leksakselefant som skaparens son hade: Hadoop.

Det här gör Hadoop och därför finns det överallt

Hadoop är en samling av delar som arbetar tillsammans för att analysera lagrad data. Den består av fyra modeller:
Hadoop Common: det grundläggande verktyget som stödjer de flesta användarfallen.
Hadoop Distributed File System (HDFS): lagrar data i ett lättillgängligt format.
Hadoop MapReduce: bearbetar data genom att mappa ut en stor uppsättning som sedan filtreras för att uppnå vissa resultat.
Hadoop YARN: hanterar resurser och schemaläggning.
Hadoop dominerar på marknaden eftersom det är tillgängligt och lätt att komma igång med. Det är prisvärt, användbart och har moduler, vilket ger en massa möjliga alternativ. Hadoop kan enkelt skalas med flera maskiner för att hantera nästan hur stora dataset som helst. Hadoops sätt att lagra och bearbeta data gör det till en attraktiv företagslösning för datalagring som ständigt skalas upp.

Använda Hadoop för analyser till låg kostnad med flexibilitet i valet av hårdvara

Problemet med att lagra mycket data är att det blir ganska dyrt att underhålla resurserna och hårdvaran för att klara av belastningen. Anledningen till att Hadoop är så utbrett och använt är att det är mycket mer tillgängligt och flexibelt och kan användas med olika slags hårdvara. Hadoop använder ”standardhårdvara”, det vill säga lågprissystem som finns överallt. Hadoop är billigt i drift eftersom det inte krävs någon tillverkarspecifik eller dyr hårdvara.

Istället för att förlita sig på dyr hårdvara för databearbetningen bryter Hadoop ner den bearbetningskraften på flera maskiner. Systemet kan skalas för att hantera i princip hur stora dataset som helst. Det är ofta IT-proffsen som vinner mest på den här strukturen. Med Hadoop kan de anpassa mängd och typ av hårdvara efter sina specifika behov.

Lagra data i datalager kontra datasjöar

Med Hadoop bryts inte bara bearbetningskapaciteten ner, sättet att lagra och analysera data förändras också.

Data har traditionellt sett lagrats i ”datalager”. Precis som namnet antyder är detta stora samlingar med dataset som lagras och organiseras enligt den information de innehåller. Sedan får analytiker åtkomst till dessa nyligen lagrade tabeller och dataset. De är strukturerade och paketerade för att kunna nås på begäran. All data måste ha analyserats och registrerats korrekt för att kunna hämtas vid behov.

Datalagersystem är praktiska för användare som behöver ha åtkomst till specifika tabeller, men den initiala analysen och lagringen kan vara tidskrävande och resursintensiv. Datalager som används fel kan dessutom vara ineffektiva. Om det inte finns ett omedelbart behov av eller uppenbar funktion för viss data blir den kanske bortglömd eller exkluderad i analysen. Lagring kan bli en dyr affär. Därför krävs det genomtänkta strategier för skalning så att analytiker och IT-proffs kan utnyttja fördelarna med strukturen.

Med datasjöar är det tvärtom. Datalager är kontrollerade och katalogiserade medan datasjöar är enorma, fristående kluster med all data. All data lagras, oavsett om den har analyserats eller inte och oavsett om den fyller någon funktion nu eller längre fram. Det är data som importeras i sin råa form och endast analyseras vid behov. Eftersom Hadoop är relativt billigt i fråga om hårdvara är det enkelt att skala upp när det behövs för att lagra eller analysera stora mängder data. Det betyder dock att den främsta fördelen med datalager saknas, nämligen att alltid ha färdigställda tabeller och godkända dataset redo. Skalning av datasjöar innebär skalning av styrningsstrategier och utbildning.

Båda lagringssätten har sina unika fördelar och företag använder ofta både datalager och datasjöar för sina olika databehov.

Hadoops roll i IoT (Sakernas internet)

Hadoop erbjuder en lösning för lagring och möjlighet att analysera obegripliga mängder av data. Big data blir bara större och större. För fem år sedan genererade vi lite mer än hälften av den data vi gör idag. För femton år sedan var den mängd data vi skapade under ett dygn mindre än vad vi skapar på ungefär tre minuter idag.

Den här massiva ökningen av genererad data beror till stor del på den nuvarande tekniska trenden ”Sakernas internet”, förkortat IoT. Den innebär att vanliga fysiska objekt kopplas till internet och styrs därifrån. Smartphones, smarta tv-apparater och larmsystem kom först. Nu har vi gått vidare till smarta hemapparater som internetkompatibla kylskåp, diskmaskiner, termostater, ljuskällor, kaffemaskiner, säkerhetskameror, baby- och husdjursövervakare, lås, dammsugarrobotar med mera. Samtidigt som de här apparaterna förenklar ditt liv spårar och lagrar de data om alla åtgärder de utför.

IoT används även professionellt, inom företag och myndigheter. Smarta luftkonditioneringsenheter håller byggnader svala, kroppskameror skyddar poliser och privatpersoner och miljöavkännande enheter hjälper myndigheter att agera snabbare vid naturkatastrofer som jordbävningar och skogsbränder.

Tillsammans registrerar de här enheterna otroliga mängder data som kräver flexibel övervakning och som måste kunna skalas till ett överkomligt pris. Det är därför system som Hadoop är populära lösningar för lagring av IoT-data. Hadoop är inte det enda alternativet, men utan tvekan det mest utbredda, vilket beror på de ständigt stigande IoT-kraven.

Lagring av big data är bara användbar om den utnyttjas.

Big data växer ständigt och vi måste kunna lagra den effektivt, men vi måste också se till att använda den effektivt. Vi kan lagra all världens data, men det tjänar ingenting till om den inte används utan bara samlar damm. Hadoop har visserligen en fördel över vissa andra datalagringsmetoder, men datalagring kan inte ersätta dataanalys eller Business Intelligence.