Big Data " செயலாக்க தொழில்நுட்பங்கள்: Hadoop மற்றும் ," கட்டுரையில் Spark, செயலாக்கத்திற்கான இரண்டு பிரபலமான மற்றும் சக்திவாய்ந்த தொழில்நுட்பங்களை விரிவாக ஆராய்வோம் big data: Hadoop மற்றும் Spark.
ஒவ்வொரு தொழில்நுட்பத்தின் விரிவான கண்ணோட்டமும், அவை எவ்வாறு செயல்படுகின்றன என்பதை எடுத்துக்காட்டும் எடுத்துக்காட்டுகளுடன் இங்கே காணலாம்.
Hadoop
Hadoop MapReduce எனப்படும் விநியோகிக்கப்பட்ட தரவு செயலாக்க மாதிரியில் கட்டமைக்கப்பட்டுள்ளது. இது செயலாக்கப் பணிகளைச் சிறிய பகுதிகளாகப் பிரித்து, பிணையத்தில் உள்ள பல முனைகளில் அவற்றை விநியோகிக்கிறது. ஒவ்வொரு முனையும் அதன் தரவின் பகுதியைச் செயலாக்குகிறது, பின்னர் இறுதித் திரட்டலுக்கான முடிவுகளை முதன்மை முனைக்கு அனுப்புகிறது. இது தரவு செயலாக்க வேகம் மற்றும் கணினியின் அளவிடுதல் ஆகியவற்றை மேம்படுத்துகிறது.
எடுத்துக்காட்டு: நிதி பரிவர்த்தனை தகவலைக் கொண்ட ஒரு பெரிய தரவுத்தொகுப்பைக் கருத்தில் கொள்வோம். ஐப் பயன்படுத்தி Hadoop, தரவுத்தொகுப்பை சிறிய பகுதிகளாகப் பிரித்து, செயலாக்க முனைகளுக்கு விநியோகிக்கலாம். ஒவ்வொரு செயலாக்க முனையும் அதன் தரவுப் பகுதியில் உள்ள மொத்தப் பணத்தைக் கணக்கிடுகிறது. ஒவ்வொரு முனையிலிருந்தும் முடிவுகள் முதன்மை முனைக்கு மீண்டும் அனுப்பப்படுகின்றன, அங்கு அவை முழு தரவுத்தொகுப்பிலிருந்தும் இறுதி மொத்தத் தொகையை உருவாக்குவதற்கு இணைக்கப்படுகின்றன.
Spark
Spark வேகமான தரவு செயலாக்க திறன்களுடன் ஊடாடும் மற்றும் நிகழ்நேர தரவு செயலாக்க சூழலை வழங்குகிறது. இது ஒரு பிணையத்தில் உள்ள பல முனைகளில் தரவு செயலாக்கத்திற்காக, பொருள்களின் மாறாத மற்றும் விநியோகிக்கப்பட்ட சேகரிப்புகளான மீள்நிலை விநியோகிக்கப்பட்ட தரவுத்தொகுப்புகளின்(RDDs) கருத்தைப் பயன்படுத்துகிறது. RDDகள் தோல்விகள் ஏற்பட்டால் இணையான தரவு செயலாக்கம் மற்றும் சுய-மீட்பை செயல்படுத்துகின்றன.
எடுத்துக்காட்டு: வானிலை நிலையைக் கணிக்க IoT சென்சார்களில் இருந்து தரவை பகுப்பாய்வு செய்ய வேண்டிய ஒரு சூழ்நிலையைக் கருத்தில் கொள்வோம். ஸ்பார்க்கைப் பயன்படுத்தி, சென்சார் தரவிலிருந்து RDDகளை உருவாக்கலாம் மற்றும் வெப்பநிலை, ஈரப்பதம் மற்றும் அழுத்தம் போன்ற வானிலை குறிகாட்டிகளைக் கணக்கிட RDD களில் மாற்றங்கள் மற்றும் செயல்பாடுகளைப் பயன்படுத்தலாம். இந்த கணக்கீடுகள் வெவ்வேறு செயலாக்க முனைகளில் இணையாக செய்யப்படுகின்றன, கணக்கீட்டை விரைவுபடுத்துகிறது மற்றும் நிகழ்நேர தரவு செயலாக்கத்தை செயல்படுத்துகிறது.
இரண்டும் Hadoop மற்றும் ஸ்பார்க் ஆகியவை செயலாக்கத்திற்கான திறமையான வழிமுறைகளை வழங்குகின்றன big data. இரண்டு தொழில்நுட்பங்களுக்கிடையேயான தேர்வு, திட்டத்தின் குறிப்பிட்ட தேவைகள் மற்றும் சம்பந்தப்பட்ட தரவு செயலாக்கப் பணிகளின் வகையைப் பொறுத்தது.

