V članku » Big Data Tehnologije obdelave: Hadoop
in Spark
« bomo podrobno raziskali dve priljubljeni in zmogljivi tehnologiji za obdelavo big data: Hadoop
in Spark
.
Tukaj je obsežen pregled vsake tehnologije skupaj s primeri, ki ponazarjajo, kako delujejo.
Hadoop
Hadoop
je zgrajen na modelu porazdeljene obdelave podatkov, imenovanem MapReduce. Naloge obdelave razdeli na manjše dele in jih razdeli na več vozlišč v omrežju. Vsako vozlišče obdela svoj del podatkov in nato pošlje rezultate nazaj glavnemu vozlišču za končno združevanje. To izboljša hitrost obdelave podatkov in razširljivost sistema.
Primer: vzemimo velik nabor podatkov, ki vsebuje informacije o finančnih transakcijah. Z uporabo Hadoop
lahko nabor podatkov razdelimo na manjše dele in jih razdelimo v vozlišča za obdelavo. Vsako procesno vozlišče izračuna skupni znesek denarja v svojem podatkovnem delu. Rezultati iz vsakega vozlišča se nato pošljejo nazaj v glavno vozlišče, kjer se združijo, da se ustvari končni skupni znesek iz celotnega nabora podatkov.
Spark
Spark
zagotavlja interaktivno okolje za obdelavo podatkov v realnem času z zmogljivostmi hitre obdelave podatkov. Uporablja koncept odpornih porazdeljenih naborov podatkov(RDD), ki so nespremenljive in porazdeljene zbirke predmetov, za obdelavo podatkov v več vozliščih v omrežju. RDD-ji omogočajo vzporedno obdelavo podatkov in samoobnovitev v primeru okvar.
Primer: razmislimo o scenariju, kjer moramo analizirati podatke senzorjev interneta stvari, da bi napovedali vremenske razmere. Z uporabo Spark lahko ustvarimo RDD-je iz podatkov senzorjev in uporabimo transformacije in operacije na RDD-jih za izračun vremenskih indikatorjev, kot so temperatura, vlažnost in tlak. Ti izračuni se izvajajo vzporedno na različnih vozliščih za obdelavo, kar pospeši izračune in omogoči obdelavo podatkov v realnem času.
Oba Hadoop
in Spark zagotavljata učinkovita sredstva obdelave big data. Izbira med obema tehnologijama je odvisna od posebnih zahtev projekta in vrste vključenih nalog obdelave podatkov.