Hadoop: Cheat Sheet

Så fortæl mig, hvad er en Hadoop, når den er hjemme? En slags dans?
Ikke så meget. Tænk på det som et filsystem til distribueret computing og opbevaring. Fordi det er, hvad det er.

Hvad er et filsystem til distribueret computing og opbevaring, når det er derhjemme?
Lad mig tage dig tilbage til big data.

Hvad er big data?
Kender du alt det, du har, der passer ind i dejlige relationelle databaser?

Ja.
Det er det og meget mere. Det er det og de andre ting - den ustrukturerede bumph, som bits og stykker, der er lagt ud på blogs eller på sociale medier, data indsamlet fra sensorer, eller fra CCTV-kameraer eller logfiler. Kort sagt, det er alt, hvad du samler, men ved ikke, hvad du skal gøre med.

Optagelser indsamlet fra CCTV-kameraer er et eksempel på ustrukturerede data. Foto: Shutterstock

Og som navnet big data indebærer, er der meget af det. Takket være alle disse nye systemer og tjenester, der har brug for overvågning og de faldende lageromkostninger, opbevarer virksomheder mange flere data, end de har gjort før.

Hadoop er et system designet til at hjælpe organisationer med at få fat i alle disse data og omdanne dem til information, de kan forstå og bruge.

Så hvad gør det egentlig?
Nå, hvis du tidligere havde brug for at tackle en relationel database, kunne du måske have vendt dig til en centraliseret platform med en masse delt lager og CPU.

I dag, for at behandle en masse ustrukturerede data, har du brug for en masse computereessource. En måde at få det til er at bruge et distribueret system - for eksempel en belastning med vareservere, hver med sit eget lokale lager og CPU.

Det er her Hadoop kommer ind og lader alt det distribuerede råvarer komme sammen for at arbejde på det samme problem.

En anden nøgle Hadoop-komponent, Hadoop Distribueret filsystem (HDFS), sikrer, at hvert stykke data gemmes på mere end en server - praktisk, hvis en del af dit lager går ned, da klyngen kan fortsætte med at arbejde og ingen data vil være faret vild.

En anden af ​​dets kernekomponenter, rammen MapReduce, giver applikationer mulighed for at opdele behandlingsarbejdet, der skal udføres, i masser af forskellige bits og pakke disse bit ud til alle noder i klyngen. Derefter indsamler de alle deres svar og kombinerer dem tilbage til et enkelt svar.

Okay, hvad er alt dette bruges til i øjeblikket?
Listen over Hadoop-brugere læser som en hvem er hvem af tech's store navne: Amazon, eBay, Facebook, LinkedIn, Twitter og Yahoo bruger alle Hadoop. Disse virksomheder har enorme mængder data om deres brugere, som de regelmæssigt har brug for at analysere. Tænk på disse 'Mennesker, du måske kender' eller 'Folk, der kunne lide X, købte også Y' -funktioner på Facebook og Amazon, for eksempel - virksomheder er nødt til at skure gennem enorme logfiler over deres brugers detaljer og opførsel for relevante resultater, og det er her Hadoop kommer i.

Hvem ejer Hadoop da?
Hadoop er et open source-produkt, så ingen ejer det som sådan. Der er adskillige forskellige distributioner, som du kunne forvente, men den mest populære - og den, som leverandører som IBM og Oracle ruller op i deres big data-tilbud - er Apache Hadoop.

Imidlertid er arten af ​​open source-udyret, at forskellige distributioner af et produkt kan vises. Yahoo for eksempel lavede sin egen version af Hadoop - ufatteligt navngivet Yahoo Distribution of Hadoop - men konserverede den tidligere på året til fordel for at lægge sin vægt bag Apache Hadoop, og har været en ...

© Copyright 2020 | mobilegn.com