Hadoop proti Spark: Big Data Processing Technologies

V članku » Big Data Tehnologije obdelave: Hadoop in Spark « bomo podrobno raziskali dve priljubljeni in zmogljivi tehnologiji za obdelavo big data: Hadoop in Spark.

Tukaj je obsežen pregled vsake tehnologije skupaj s primeri, ki ponazarjajo, kako delujejo.

 

Hadoop

Hadoop je zgrajen na modelu porazdeljene obdelave podatkov, imenovanem MapReduce. Naloge obdelave razdeli na manjše dele in jih razdeli na več vozlišč v omrežju. Vsako vozlišče obdela svoj del podatkov in nato pošlje rezultate nazaj glavnemu vozlišču za končno združevanje. To izboljša hitrost obdelave podatkov in razširljivost sistema.

Primer: vzemimo velik nabor podatkov, ki vsebuje informacije o finančnih transakcijah. Z uporabo Hadoop lahko nabor podatkov razdelimo na manjše dele in jih razdelimo v vozlišča za obdelavo. Vsako procesno vozlišče izračuna skupni znesek denarja v svojem podatkovnem delu. Rezultati iz vsakega vozlišča se nato pošljejo nazaj v glavno vozlišče, kjer se združijo, da se ustvari končni skupni znesek iz celotnega nabora podatkov.

 

Spark

Spark zagotavlja interaktivno okolje za obdelavo podatkov v realnem času z zmogljivostmi hitre obdelave podatkov. Uporablja koncept odpornih porazdeljenih naborov podatkov(RDD), ki so nespremenljive in porazdeljene zbirke predmetov, za obdelavo podatkov v več vozliščih v omrežju. RDD-ji omogočajo vzporedno obdelavo podatkov in samoobnovitev v primeru okvar.

Primer: razmislimo o scenariju, kjer moramo analizirati podatke senzorjev interneta stvari, da bi napovedali vremenske razmere. Z uporabo Spark lahko ustvarimo RDD-je iz podatkov senzorjev in uporabimo transformacije in operacije na RDD-jih za izračun vremenskih indikatorjev, kot so temperatura, vlažnost in tlak. Ti izračuni se izvajajo vzporedno na različnih vozliščih za obdelavo, kar pospeši izračune in omogoči obdelavo podatkov v realnem času.

 

Oba Hadoop in Spark zagotavljata učinkovita sredstva obdelave big data. Izbira med obema tehnologijama je odvisna od posebnih zahtev projekta in vrste vključenih nalog obdelave podatkov.