Big Data " செயலாக்க தொழில்நுட்பங்கள்: Hadoop
மற்றும் ," கட்டுரையில் Spark
, செயலாக்கத்திற்கான இரண்டு பிரபலமான மற்றும் சக்திவாய்ந்த தொழில்நுட்பங்களை விரிவாக ஆராய்வோம் big data: Hadoop
மற்றும் Spark
.
ஒவ்வொரு தொழில்நுட்பத்தின் விரிவான கண்ணோட்டமும், அவை எவ்வாறு செயல்படுகின்றன என்பதை எடுத்துக்காட்டும் எடுத்துக்காட்டுகளுடன் இங்கே காணலாம்.
Hadoop
Hadoop
MapReduce எனப்படும் விநியோகிக்கப்பட்ட தரவு செயலாக்க மாதிரியில் கட்டமைக்கப்பட்டுள்ளது. இது செயலாக்கப் பணிகளைச் சிறிய பகுதிகளாகப் பிரித்து, பிணையத்தில் உள்ள பல முனைகளில் அவற்றை விநியோகிக்கிறது. ஒவ்வொரு முனையும் அதன் தரவின் பகுதியைச் செயலாக்குகிறது, பின்னர் இறுதித் திரட்டலுக்கான முடிவுகளை முதன்மை முனைக்கு அனுப்புகிறது. இது தரவு செயலாக்க வேகம் மற்றும் கணினியின் அளவிடுதல் ஆகியவற்றை மேம்படுத்துகிறது.
எடுத்துக்காட்டு: நிதி பரிவர்த்தனை தகவலைக் கொண்ட ஒரு பெரிய தரவுத்தொகுப்பைக் கருத்தில் கொள்வோம். ஐப் பயன்படுத்தி Hadoop
, தரவுத்தொகுப்பை சிறிய பகுதிகளாகப் பிரித்து, செயலாக்க முனைகளுக்கு விநியோகிக்கலாம். ஒவ்வொரு செயலாக்க முனையும் அதன் தரவுப் பகுதியில் உள்ள மொத்தப் பணத்தைக் கணக்கிடுகிறது. ஒவ்வொரு முனையிலிருந்தும் முடிவுகள் முதன்மை முனைக்கு மீண்டும் அனுப்பப்படுகின்றன, அங்கு அவை முழு தரவுத்தொகுப்பிலிருந்தும் இறுதி மொத்தத் தொகையை உருவாக்குவதற்கு இணைக்கப்படுகின்றன.
Spark
Spark
வேகமான தரவு செயலாக்க திறன்களுடன் ஊடாடும் மற்றும் நிகழ்நேர தரவு செயலாக்க சூழலை வழங்குகிறது. இது ஒரு பிணையத்தில் உள்ள பல முனைகளில் தரவு செயலாக்கத்திற்காக, பொருள்களின் மாறாத மற்றும் விநியோகிக்கப்பட்ட சேகரிப்புகளான மீள்நிலை விநியோகிக்கப்பட்ட தரவுத்தொகுப்புகளின்(RDDs) கருத்தைப் பயன்படுத்துகிறது. RDDகள் தோல்விகள் ஏற்பட்டால் இணையான தரவு செயலாக்கம் மற்றும் சுய-மீட்பை செயல்படுத்துகின்றன.
எடுத்துக்காட்டு: வானிலை நிலையைக் கணிக்க IoT சென்சார்களில் இருந்து தரவை பகுப்பாய்வு செய்ய வேண்டிய ஒரு சூழ்நிலையைக் கருத்தில் கொள்வோம். ஸ்பார்க்கைப் பயன்படுத்தி, சென்சார் தரவிலிருந்து RDDகளை உருவாக்கலாம் மற்றும் வெப்பநிலை, ஈரப்பதம் மற்றும் அழுத்தம் போன்ற வானிலை குறிகாட்டிகளைக் கணக்கிட RDD களில் மாற்றங்கள் மற்றும் செயல்பாடுகளைப் பயன்படுத்தலாம். இந்த கணக்கீடுகள் வெவ்வேறு செயலாக்க முனைகளில் இணையாக செய்யப்படுகின்றன, கணக்கீட்டை விரைவுபடுத்துகிறது மற்றும் நிகழ்நேர தரவு செயலாக்கத்தை செயல்படுத்துகிறது.
இரண்டும் Hadoop
மற்றும் ஸ்பார்க் ஆகியவை செயலாக்கத்திற்கான திறமையான வழிமுறைகளை வழங்குகின்றன big data. இரண்டு தொழில்நுட்பங்களுக்கிடையேயான தேர்வு, திட்டத்தின் குறிப்பிட்ட தேவைகள் மற்றும் சம்பந்தப்பட்ட தரவு செயலாக்கப் பணிகளின் வகையைப் பொறுத்தது.