Hadoop vs ஸ்பார்க்: Big Data செயலாக்க தொழில்நுட்பங்கள்

Big Data " செயலாக்க தொழில்நுட்பங்கள்: Hadoop மற்றும் ," கட்டுரையில் Spark, செயலாக்கத்திற்கான இரண்டு பிரபலமான மற்றும் சக்திவாய்ந்த தொழில்நுட்பங்களை விரிவாக ஆராய்வோம் big data: Hadoop மற்றும் Spark.

ஒவ்வொரு தொழில்நுட்பத்தின் விரிவான கண்ணோட்டமும், அவை எவ்வாறு செயல்படுகின்றன என்பதை எடுத்துக்காட்டும் எடுத்துக்காட்டுகளுடன் இங்கே காணலாம்.

 

Hadoop

Hadoop MapReduce எனப்படும் விநியோகிக்கப்பட்ட தரவு செயலாக்க மாதிரியில் கட்டமைக்கப்பட்டுள்ளது. இது செயலாக்கப் பணிகளைச் சிறிய பகுதிகளாகப் பிரித்து, பிணையத்தில் உள்ள பல முனைகளில் அவற்றை விநியோகிக்கிறது. ஒவ்வொரு முனையும் அதன் தரவின் பகுதியைச் செயலாக்குகிறது, பின்னர் இறுதித் திரட்டலுக்கான முடிவுகளை முதன்மை முனைக்கு அனுப்புகிறது. இது தரவு செயலாக்க வேகம் மற்றும் கணினியின் அளவிடுதல் ஆகியவற்றை மேம்படுத்துகிறது.

எடுத்துக்காட்டு: நிதி பரிவர்த்தனை தகவலைக் கொண்ட ஒரு பெரிய தரவுத்தொகுப்பைக் கருத்தில் கொள்வோம். ஐப் பயன்படுத்தி Hadoop, தரவுத்தொகுப்பை சிறிய பகுதிகளாகப் பிரித்து, செயலாக்க முனைகளுக்கு விநியோகிக்கலாம். ஒவ்வொரு செயலாக்க முனையும் அதன் தரவுப் பகுதியில் உள்ள மொத்தப் பணத்தைக் கணக்கிடுகிறது. ஒவ்வொரு முனையிலிருந்தும் முடிவுகள் முதன்மை முனைக்கு மீண்டும் அனுப்பப்படுகின்றன, அங்கு அவை முழு தரவுத்தொகுப்பிலிருந்தும் இறுதி மொத்தத் தொகையை உருவாக்குவதற்கு இணைக்கப்படுகின்றன.

 

Spark

Spark வேகமான தரவு செயலாக்க திறன்களுடன் ஊடாடும் மற்றும் நிகழ்நேர தரவு செயலாக்க சூழலை வழங்குகிறது. இது ஒரு பிணையத்தில் உள்ள பல முனைகளில் தரவு செயலாக்கத்திற்காக, பொருள்களின் மாறாத மற்றும் விநியோகிக்கப்பட்ட சேகரிப்புகளான மீள்நிலை விநியோகிக்கப்பட்ட தரவுத்தொகுப்புகளின்(RDDs) கருத்தைப் பயன்படுத்துகிறது. RDDகள் தோல்விகள் ஏற்பட்டால் இணையான தரவு செயலாக்கம் மற்றும் சுய-மீட்பை செயல்படுத்துகின்றன.

எடுத்துக்காட்டு: வானிலை நிலையைக் கணிக்க IoT சென்சார்களில் இருந்து தரவை பகுப்பாய்வு செய்ய வேண்டிய ஒரு சூழ்நிலையைக் கருத்தில் கொள்வோம். ஸ்பார்க்கைப் பயன்படுத்தி, சென்சார் தரவிலிருந்து RDDகளை உருவாக்கலாம் மற்றும் வெப்பநிலை, ஈரப்பதம் மற்றும் அழுத்தம் போன்ற வானிலை குறிகாட்டிகளைக் கணக்கிட RDD களில் மாற்றங்கள் மற்றும் செயல்பாடுகளைப் பயன்படுத்தலாம். இந்த கணக்கீடுகள் வெவ்வேறு செயலாக்க முனைகளில் இணையாக செய்யப்படுகின்றன, கணக்கீட்டை விரைவுபடுத்துகிறது மற்றும் நிகழ்நேர தரவு செயலாக்கத்தை செயல்படுத்துகிறது.

 

இரண்டும் Hadoop மற்றும் ஸ்பார்க் ஆகியவை செயலாக்கத்திற்கான திறமையான வழிமுறைகளை வழங்குகின்றன big data. இரண்டு தொழில்நுட்பங்களுக்கிடையேயான தேர்வு, திட்டத்தின் குறிப்பிட்ட தேவைகள் மற்றும் சம்பந்தப்பட்ட தரவு செயலாக்கப் பணிகளின் வகையைப் பொறுத்தது.