हॅडॉपसह बिग डेटा विश्लेषण काय आहे? - संगणक

लेखक: Peter Berry

निर्मितीची तारीख: 19 जुलै 2021

अद्यतन तारीख: 10 मे 2024

व्हिडिओ: Hadoop वापरून डेटा विश्लेषण | बिग डेटा मध्ये डेटा विश्लेषण | इंटेलिपाट

सामग्री

बिग डेटा विश्लेषण म्हणजे काय?
बिग डेटाचे स्रोत
बिग डेटाची वैशिष्ट्ये
खंड
वेग
विविधता
सत्यता
बिग डेटा लाइफ सायकल
बिग डेटाचे विश्लेषण करण्याचे फायदे
बिग डेटा तंत्रज्ञान आणि साधने
अपाचे हॅडूप आणि इकोसिस्टम
अपाचे स्पार्क
पोळे
डुक्कर
स्कूप
प्रेस्टो
अपाचे फ्लिंक
अपाचे काफ्का
अपाचे अंबरी
अपाचे झेपेलिन
बिग डेटा डेटाबेस
NoSQL डेटाबेस
वेगवान शोध
हडूप आर्किटेक्चर
आर्किटेक्चर
मॅपरेड्यूस
एचडीएफएस (हडूप वितरित फाइल सिस्टम)
यार्न (अजून एक संसाधन वाटाघाटी करणारा)
मॅपरेड्यूस आर्किटेक्चर कसे कार्य करते
हडूप - पर्यावरण सेटअप
जावा
हडूप इंस्टॉलेशन
स्टँडअलोन हडूप इंस्टॉलेशन
स्यूडो-वितरित हडोप स्थापना
हडूप स्थापना सत्यापन
एचडीएफएस म्हणजे काय?
एचडीएफएस आर्किटेक्चर
हे कस काम करत?
एचडीएफएसची वैशिष्ट्ये
एचडीएफएस ऑपरेशन्स
ऑपरेशन्स
एचडीएफएस मध्ये डेटा अंतर्भूत करीत आहे
एचडीएफएसमध्ये डेटा पुनर्प्राप्त करीत आहे
एचडीएफएस बंद करीत आहे
इतर आज्ञा

मी डेटा विश्लेषण आणि आकडेवारीमध्ये खूप रस असलेल्या सॉफ्टवेअर विकसक आहे.

बिग डेटा विश्लेषण म्हणजे काय?

"बिग डेटा" या शब्दानेच स्पष्ट केले आहे की जीबी, टीबी आणि डेटाच्या पीटीप्रमाणे डेटा आकारात खूप मोठा आहे. अत्याधुनिक तंत्रज्ञान, डिव्हाइस आणि सोशल मीडिया साइट्समधील प्रगतीमुळे या प्रणालींमधील दिवसागणिक क्रियाकलाप प्रचंड प्रमाणात डेटा तयार करतात. पारंपारिक रिलेशनल डेटाबेससह हा डेटा हाताळला जाऊ शकत नाही किंवा त्यावर प्रक्रिया केली जाऊ शकत नाही. बिग डेटा पारंपारिक डेटाबेस सॉफ्टवेअर साधने किंवा एक पारंपारिक संगणक वापरुन संग्रहित, व्यवस्थापित आणि विश्लेषित केले जाऊ शकत नाहीत अशा डेटासेटचा संदर्भ देते.

बिग डेटाचे स्रोत

पॉवर ग्रिड
सोशल मीडिया साइट्स
स्टॉक एक्सचेंज
दूरसंचार उद्योग
आयओटी (सेन्सर इ.)

बिग डेटाची वैशिष्ट्ये

बिग डेटा हाताळण्यासाठी त्याची वैशिष्ट्ये समजून घेणे फार महत्वाचे आहे. बिग डेटाचे गुणधर्म 4 व्ही च्या द्वारे दर्शविले जातात:

खंड

व्हॉल्यूम डेटाच्या आकाराशी संबंधित आहे. डेटा किती मोठा आहे? डेटाच्या व्हॉल्यूमच्या आधारावर आम्ही त्यास बिग डेटा मानू शकतो की नाही.

वेग

वेग ही स्त्रोत डेटाची वारंवारिता आहे ज्यावर प्रक्रिया करणे आवश्यक आहे. डेटा दररोज, दर तासाने किंवा रीअल टाइममध्ये सोशल मीडिया डेटासारखा पाठविला जाऊ शकतो.

विविधता

विविध प्रकारचे डेटा उपलब्ध आहेत, ते संरचित, अर्ध-संरचित किंवा अप्रचलित असू शकतात.डेटाच्या स्वरुपाच्या आधारे, ते तीन विभागांमध्ये विभागले गेले आहे.

संरचित डेटा: सर्व रिलेशनल डेटाबेस संरचित डेटाची उदाहरणे आहेत कारण त्यांनी सारणीमधील फील्ड्सच्या परिभाषित डेटासेटसह स्ट्रक्चर्सची व्याख्या केली आहे.
अर्ध-संरचित डेटा: एक्सएमएल आणि जेएसओएन स्वरूप अर्ध-संरचित डेटा अंतर्गत येतात कारण त्यांनी घटकांचे श्रेणीक्रम परिभाषित केले असेल परंतु त्यांच्याकडे नेहमी डेटा प्रकार परिभाषित केलेला नसेल.
संरचित डेटा: कोणतेही शब्द किंवा पीडीएफ दस्तऐवज, मजकूर फाइल्स किंवा मीडिया / सर्व्हर नोंदी हा अप्रबंधित डेटा आहे.

सत्यता

सत्यता डेटाच्या विश्वासार्हतेबद्दल आहे. आम्हाला मिळालेल्या डेटामध्ये काही प्रमाणात विसंगती असतील ही एक स्पष्ट गोष्ट आहे.

बिग डेटा लाइफ सायकल

सर्वसाधारणपणे, बिग डेटाचे विश्लेषण करण्यात खालील प्रक्रिया समाविष्ट असतात.

डेटा हाताळणी
डेटा साफ करणे
भिन्न डेटा स्रोतांसह भाष्य करण्यासारखे डेटा एकत्रिकरण.
डेटा विश्लेषणाच्या विविध पद्धती लागू करून संगणकीय गणना करणे आणि त्यांचे विश्लेषण करणे.
परिणाम डॅशबोर्ड किंवा आलेख स्वरूपात व्हिज्युअलायझिंग.

बिग डेटाचे विश्लेषण करण्याचे फायदे

डेटा किती मोठा आहे याबद्दलच नाही. परंतु भविष्याचा अंदाज लावण्यासाठी आणि स्मार्ट व्यवसायाचे निर्णय घेण्यासाठी याचा कसा उपयोग / विश्लेषण करावे. उत्पादनाच्या डेटाचे विश्लेषण करून हे व्यवसाय चालविण्यास मदत करू शकते आणि ग्राहकांच्या अभिप्राय डेटाचे विश्लेषण करून नवीन उत्पादन सुरू करण्यास किंवा कंपनी सेवा सुधारण्यास मदत करू शकते. हे चांगले व्यवसाय धोरण तयार करण्यासाठी आणि नियोजनासाठी कोणत्याही व्यवसायात कोणताही व्यवस्थापकीय निर्णय घेण्यास मदत करते.

खर्च बचत: अपाचे हॅडूप किंवा अपाचे स्पार्क मधील क्लस्टर / क्लाउड-आधारित संगणन यासारख्या बिग डेटा तंत्रज्ञान बिग डेटावर प्रक्रिया करण्यासाठी उच्च कॉन्फिगर केलेले मशीन्स खरेदी करण्यापासून वाचविते.
वेळ कपातः मेमरी संगणनातील उच्च गती डेटावर प्रक्रिया करण्यासाठी वेळ कमी करते आणि यामुळे आम्हाला द्रुत निर्णय घेण्यास सक्षम करते
नवीन उत्पादन विकास: हे विकसित होणार्‍या पुढील उत्पादनासाठी ग्राहकांच्या गरजा आणि समाधानाची पातळी जाणून घेण्यात मदत करते.
बाजाराचा कल समजून घेणे: ग्राहक खरेदीचे नमुने किंवा बर्‍याच विकत घेतलेल्या वस्तू जाणून घेणे जसे मार्केटची मागणी जाणून घेण्यास मदत करू शकते.
भावना विश्लेषण: विविध सोशल मीडिया साइटवरील ग्राहकांचे मत खाण्यामुळे कोणत्याही उत्पादनास किंवा सेवा उद्योगांना त्यांचे ऑफर सुधारण्यास मदत होऊ शकते.

बिग डेटा तंत्रज्ञान आणि साधने

बिग डेटा ticsनालिटिक्समधील विविध प्रकारच्या समस्या सोडविण्यासाठी उपलब्ध असलेल्या तंत्रज्ञान आणि साधनांबद्दल आपण थोडक्यात चर्चा करूया.

अपाचे हॅडूप आणि इकोसिस्टम

समांतरपणे डेटा / प्रक्रिया करणे ही एक ओपन-सोर्स फ्रेमवर्क आहे. मोठ्या डेटावर प्रक्रिया करण्यासाठी हे एक मानक व्यासपीठ आहे. हे गूगलच्या मॅपरेड्यूस आणि गुगल फाईल सिस्टम पेपरमधून उद्भवले.

हा एक इकोसिस्टम प्रोजेक्ट आहे ज्यामध्ये डुक्कर, पोळे, कफका इत्यादी अनेक प्रकल्प आहेत. इतर विश्लेषक साधने म्हणजे अपाचे स्पार्क आणि अपाचे स्टॉर्म.

अपाचे स्पार्क

हे अपाचे हॅडूपपेक्षा अधिक प्रगत आहे आणि हे एक बहु-प्रयोजन इंजिन आहे. वेगवान, मोठ्या प्रमाणात डेटा प्रक्रियेसाठी हे एक सामान्य हेतू डेटा Engineक्सेस इंजिन आहे. हे आयटेरेटिव्ह, इन-मेमरी: संगणन आणि परस्पर डेटा खननसाठी डिझाइन केलेले आहे. हे बहुभाषी समर्थन प्रदान करते: जावा, स्काला, पायथन आणि आर. यासाठी विविध अंगभूत लायब्ररी आहेत ज्या डेटा कर्मचार्‍यांना ईटीएल, मशीन लर्निंग, एसक्यूएल आणि प्रवाह प्रक्रियेसाठी डेटा वेगाने पुनरावृत्ती करण्यास सक्षम करतात.

बिग डेटावर प्रक्रिया करण्याचे इतर बरेच मार्ग आहेत, वरील 2 मूलभूत फ्रेमवर्क आहेत.

उदा. डेटा वेअरहाउसिंगसाठी अपाचे पोळे, बिग डेटा चौकशीसाठी अपाचे पिग, अपाचे ड्रिल, अपाचे इंपाला, अपाचे स्पार्क एसक्यूएल आणि प्रेस्टो आणि इतर बरेच.

अपाचे सिस्टमएमएल, अपाचे महॉट आणि अपाचे स्पार्कची एमएललिब डेटामध्ये विविध मशीन लर्निंग अल्गोरिदम लागू करण्यासाठी खूप उपयुक्त आहेत.

पोळे

हे हॅडॉपच्या शीर्षस्थानी चालते आणि बिग डेटा क्वेरी करण्यासाठी एचआयव्हीक्यूएलला समर्थन देते.

डुक्कर

अशा लोकांसाठी आहे ज्यांना जावा आणि स्कालासारख्या भाषांमध्ये प्रोग्राम कसे करावे हे माहित नाही. ते सहजपणे डेटाचे विश्लेषण करण्यासाठी डुक्कर वापरू शकतात, हे डेटावर क्वेरी प्रवेश प्रदान करते.

स्कूप

हे रिलेशनल डेटाबेस वरून हडूप वर संरचित डेटासेट हस्तांतरित करण्यास मदत करते.

प्रेस्टो

फेसबुकने प्रेस्टो नावाचे मुक्त-स्त्रोत क्वेरी इंजिन विकसित केले आहे, जे डेटाची पेटबाइट्स हाताळू शकते आणि पोळ्यासारखे नाही, ते मॅपरेड्यूस प्रतिमानावर अवलंबून नाही आणि काही वेळातच डेटा आणू शकेल.

अपाचे फ्लिंक

हे बॅचमध्ये वितरित प्रवाह डेटा प्रक्रियेसाठी मुक्त-स्रोत आहे.

अपाचे काफ्का

ही एक वेगवान, टिकाऊ, फॉल्ट-सहनशील आणि संदेश सदस्यता प्रणालीची सदस्यता घ्या.

अपाचे अंबरी

अपाचे ™ अंबारी हे हडूप क्लस्टर्सची तरतूद, व्यवस्थापन आणि देखरेख करण्याचे व्यासपीठ आहे. अंबरी ऑपरेशन्स, डेव्हलपमेंट आणि एक्सटेंशन पॉईंट्स या दोन्हीसाठी मुख्य सेवा प्रदान करते.

अपाचे झेपेलिन

हे डेटा अभियंता, डेटा विश्लेषक आणि डेटा वैज्ञानिकांसाठी वेब-आधारित नोटबुक आहे. हे हॅडूप आणि स्पार्कमध्ये परस्परसंवादी डेटा अंतर्ग्रहण, डेटा अन्वेषण, व्हिज्युअलायझेशन, सामायिकरण आणि सहयोग वैशिष्ट्ये आणते.

बिग डेटा डेटाबेस

जर आपल्याला डेटाबेसमध्ये बिग डेटा संचयित करायचा असेल तर आमच्याकडे समांतर डेटाबेस किंवा व्हर्टीका, नेटेझा, एस्टर, ग्रीनप्लम इत्यादी सामायिक न केलेल्या आर्किटेक्चरसह डेटाबेस असावेत.

NoSQL डेटाबेस

गूगल बिगटेबल, अ‍ॅमेझॉन डायनामो, अपाचे ह्बेसे, अपाचे कॅसॅन्ड्रा इ. नं एसक्यूएल डेटाबेसची उदाहरणे आहेत.

वेगवान शोध

हा बिग डेटा जलद शोधण्यात सक्षम होण्यासाठी, अपाचे सॉलर किंवा लवचिक शोध यासारखे बरेच समाधान / इंजिन उपलब्ध आहेत. अपाचे सोलर एक शक्तिशाली शोध इंजिन आहे.

हडूप आर्किटेक्चर

हडूप मशीनच्या क्लस्टर्समध्ये मोठ्या डेटासेटच्या वितरित प्रक्रियेसाठी मुक्त-स्रोत फ्रेमवर्क आहे. हे क्लस्टरवर वितरित स्टोरेज (फाइल सिस्टम) तसेच वितरित संगणन प्रदान करते.

आर्किटेक्चर

पुढील आकृती हडूपच्या चार मूलभूत घटकांचे वर्णन करते.

मॅपरेड्यूस

विश्वसनीयता आणि दोष-सहिष्णुता असलेल्या कमोडिटी हार्डवेअरच्या क्लस्टर्सवर समांतरपणे बिग डेटावर प्रक्रिया करणे हे एक प्रोग्रामिंग प्रतिमान आहे.

कार्यप्रणालीच्या समस्येचे कार्य लहान लहान तुकड्यांमध्ये करणे हे आहे. नकाशा, शून्य आणि शफल ही मॅपरेड्यूसची तीन मूलभूत कार्ये आहेत.

नकाशा: हे इनपुट डेटा घेते आणि डेटाच्या संचामध्ये रुपांतरीत करते जिथे प्रत्येक आणि प्रत्येक इनपुटची की-व्हॅल्यू जोडी (ट्युपल) मध्ये मोडली जाते.
कमी करा: हे कार्य नकाशा टप्प्यातील आउटपुटमधून इनपुट घेते आणि कीच्या आधारे लहान संचांमध्ये डेटा एकत्रित करते (एकत्रित).
शफल: मॅपर्सकडून डेटा कमी करणार्‍यांकडे हस्तांतरित करण्याची प्रक्रिया आहे.

क्लस्टरच्या प्रत्येक नोडमध्ये एक मास्टर जॉबट्रेकर आणि एक गुलाम टास्कट्रॅकर असतो.

जॉबट्रेकर संसाधन व्यवस्थापन आणि ट्रॅक करण्याच्या संसाधनांच्या उपलब्धतेसाठी जबाबदार आहे. हे गुलामांवरील नोकरीचे वेळापत्रक ठरवते. हे अपयशाचे एक बिंदू आहे, म्हणजे जर ते खाली गेले तर सर्व चालू असलेल्या कामे थांबविण्यात आल्या आहेत.
टास्कट्रॅकर्स मास्टरने दिलेली कार्ये कार्यान्वित करते आणि वेळोवेळी मास्टरला कार्य स्थिती प्रदान करते.

एचडीएफएस (हडूप वितरित फाइल सिस्टम)

हडूपने दिलेली ही फाईल सिस्टम आहे. हे गुगल फाईल सिस्टम (जीएफएस) वर आधारित आहे आणि हे मशीनच्या क्लस्टरवर विश्वसनीय आणि दोष-सहिष्णु पद्धतीने चालते. यात मास्टर / स्लेव्ह आर्किटेक्चर आहे.

नेम नोड: हे फाईल सिस्टमचा मेटाडेटा व्यवस्थापित करते आणि डेटाचे स्थान संग्रहित करते.
डेटा नोड: वास्तविक डेटा डेटा नोड वर संग्रहित आहे.
दुय्यम नाव: बॅकअप घेण्यासाठी नेम नोड देखील दुय्यम नेम नोडवर मेटाडेटा कॉपी करते जेणेकरून जेव्हा नेम नोड खाली जाईल तेव्हा दुय्यम नेम नोड नेमनेडची जागा घेईल.

एचडीएफएस मधील फाईल ब्लॉक नावाच्या भागांमध्ये विभाजित केली जाते आणि त्या ब्लॉक्स नंतर डेटानोडवर साठवल्या जातात. नेमनेड ब्लॉकचे डेटानोड्समध्ये मॅपिंग ठेवते. एचडीएफएस फाइल सिस्टमशी संवाद साधण्यासाठी कमांडच्या यादीसह शेल इंटरफेस प्रदान करते.

यार्न (अजून एक संसाधन वाटाघाटी करणारा)

हे हडूप 2 चे वैशिष्ट्य आहे, एक संसाधन व्यवस्थापक आहे.

वैशिष्ट्ये

मल्टी-टॅन्सी: एकाधिक इंजिनला हॅडोप वापरण्याची परवानगी देते जे एकाच डेटासेटमध्ये एकाच वेळी प्रवेश करू शकते.
क्लस्टर वापर: यार्न शेड्यूलिंग एक अनुकूलित मार्गाने क्लस्टर्स संसाधनाचा उपयोग करते.
स्केलेबिलिटि: जेव्हा क्लस्टर्स विस्तृत होतात तेव्हा यार्न शेड्यूलिंगवर लक्ष केंद्रित करते.
सुसंगतता: हडूप 1 सह विकसित केलेले विद्यमान मॅपरेड्यूस अनुप्रयोग कोणत्याही व्यत्ययाशिवाय यार्नवर चालू शकतात.

मॅपरेड्यूस आर्किटेक्चर कसे कार्य करते

एक वापरकर्ता खालील पॅराम्स देऊन नोकरी सबमिट करू शकतो.

इनपुट आणि आउटपुट फायलींचे स्थान.
नकाशाचे वर्ग असलेली जार फाइल आणि अंमलबजावणी कमी करा
विशिष्ट जॉबसाठी भिन्न पॅरामीटर्स सेट करून जॉब कॉन्फिगरेशन.

हॅडॉप जॉब क्लायंट नंतर जॉबट्रॅकरला नोकरी व कॉन्फिगरेशन सबमिट करतो जो पुन्हा गुलामांना कोड / कॉन्फिगरेशन वितरीत करतो, कार्यांचे वेळापत्रक ठरवते आणि त्यांचे परीक्षण करतो.

वेगवेगळ्या नोड्सवरील टास्कट्रॅकर्स मॅपरेड्यूस अंमलबजावणीनुसार कार्य अंमलात आणतात आणि एचडीएफएसमधील डेटा आउटपुट करतात.

हडूप - पर्यावरण सेटअप

जावा

जावा आवश्यक आहे, सिस्टमने जावा खालील कमांडद्वारे स्थापित केला आहे का ते तपासा:

जावा -आवृत्ती

हे आधीपासूनच स्थापित केले असल्यास आपल्या संगणकावर जावा स्थापित करण्यासाठी खालील चरणांचे अनुसरण करीत नसल्यास आवृत्ती तपशील देईल.

लिंक वरून जावा डाऊनलोड करुन घ्या.
ते सर्व वापरकर्त्यांसाठी उपलब्ध करुन देण्यासाठी / यूएसआर / स्थानिक / किंवा आपल्या पसंतीच्या ठिकाणी हलवा.
पथ आणि जावा_होम पर्यावरण चल सेट करा:

निर्यात जावा_होम=/ यूएसआर /स्थानिक/jdk1.7.0_71 निर्यात पथ=AT पथ:A जावा_होम/बिन

जावा स्थापना सत्यापित करा:

जावा -आवृत्ती

हडूप इंस्टॉलेशन

अपाचे सॉफ्टवेअर फाऊंडेशन वरून नवीनतम हडूप आवृत्ती डाउनलोड आणि काढा.

आम्ही हडूप इन करू शकू अशा पद्धती खालीलप्रमाणे आहेत.

स्टँडअलोन मोड: या मोडमध्ये, हडूप स्थानिक मध्ये एकच जावा प्रक्रिया म्हणून चालविला जाऊ शकतो.
छद्म वितरित मोड: या मोडमध्ये, एचडीएफएस, यार्न, मॅपरेड्यूस यासारख्या प्रत्येक हडूप डीमनला एकाच मशीनवर वितरित सिम्युलेशनद्वारे स्वतंत्र जावा प्रक्रिया म्हणून चालवता येते, विकासात, या मोडला प्राधान्य दिले जाते.
पूर्णपणे वितरित मोड: या मोडमध्ये, हॅडॉप कमीतकमी एकापेक्षा जास्त मशीनच्या क्लस्टरवर चालतो.

स्टँडअलोन हडूप इंस्टॉलेशन

आम्ही आधीपासूनच डाउनलोड केले आणि हडूप काढले आहे, आम्ही ते एखाद्या पसंतीच्या ठिकाणी किंवा / usr / स्थानिक / वर हलवू शकतो आणि आपल्याला पर्यावरण व्हेरिएबल खालीलप्रमाणे सेट करणे आवश्यक आहे:

हडूपहूम = / यूएसआर / स्थानिक / हडूप निर्यात करा

खालील आदेशाद्वारे स्थापित केलेले हडूप आवृत्ती सत्यापित करा.

hadoop आवृत्ती

आपणास आवृत्ती तपशील मिळाल्यास, याचा अर्थ स्टँडअलोन मोड चांगला कार्यरत आहे.
आपण आता उदाहरणे किलकिले चालवू शकता, आम्ही हे नंतर पाहू.

स्यूडो-वितरित हडोप स्थापना

आत जावा पथ बदला Hadoop-env.sh आपल्या मशीनमधील जावा स्थापना निर्देशिका स्थानासह JAVA_HOME मूल्य बदलून फाइल.
कोर-साइट.एक्सएमl मध्ये हडूप इन्सपोर्ट पोर्ट क्रमांक, मेमरी मर्यादा, डेटा स्टोरेजचे स्थान, वाचन / लेखनासाठी बफरचे आकार यासाठी कॉन्फिगरेशन आहेत. फाइल संपादित करा आणि खालील कॉन्फिगरेशन जोडा.

कॉन्फिगरेशन> प्रॉपर्टी> नाव> fs.default.name/name> मूल्य> hdfs: // स्थानिक होस्ट: 9000 / मूल्य> / मालमत्ता> / कॉन्फिगरेशन>

hdfs-site.xml फाइलमध्ये आपल्या स्थानिक मशीनवरील प्रतिकृती घटक, नेमनाडचे पथ आणि डेटाॅनोड्स पथ यासाठी कॉन्फिगरेशन आहेत. फाइल उघडा आणि त्यामध्ये आवश्यकतेनुसार खालील कॉन्फिगरेशन जोडा.

कॉन्फिगरेशन> प्रॉपर्टी> नाव> dfs.replication / name> मूल्य> 1 / मूल्य> / मालमत्ता> मालमत्ता> नाव> dfs.name.dir / नाव> मूल्य> आपल्या स्थानिक फाइल सिस्टम / मूल्य> / मालमत्तेमधील नेम नोडचे स्थान > प्रॉपर्टी> नाव> dfs.data.dir / name> मूल्य> आपल्या स्थानिक फाइल सिस्टम / मूल्य> / मालमत्ता> / कॉन्फिगरेशन> मधील डेटा डेनॉड दिरचे स्थान

सूत-साइट.एक्सएमएल हॅडॉपमध्ये यार्न कॉन्फिगर करण्यासाठी वापरले जाते.
mapred-site.xml आम्हाला वापरण्याची आवश्यकता असलेल्या मॅप्रिड्यूस फ्रेमवर्कशी संबंधित कॉन्फिगरेशन निर्दिष्ट करण्यासाठी वापरली जाते.

हडूप स्थापना सत्यापन

खालील आदेशांचा वापर करून नेम नेम सेट करा.

एचडीएफएस नेमनेड -स्वरूप

खालील आदेशांचा वापर करून हडूप डीएफएस सत्यापित करा.

प्रारंभ- dfs.sh

यार्न स्क्रिप्ट सत्यापित करा.

start-yarn.sh

ब्राउझरवरील हडूप वर प्रवेश करा HTTP: // स्थानिक होस्ट: 50070 /
क्लस्टर चालू असलेल्या सर्व अनुप्रयोगांचे सत्यापन करा HTTP: // स्थानिक होस्ट: 8088 /

एचडीएफएस म्हणजे काय?

एचडीएफएस ही Google च्या फाइल सिस्टम (जीएफएस) वर आधारित एक वितरित फाइल सिस्टम आहे. हे कमोडिटी हार्डवेअरवर चालते. हे हॅडॉपच्या वर असलेल्या अनुप्रयोगांसाठी स्टोरेज प्रदान करते.

एचडीएफएस आर्किटेक्चर

एचडीएफएस मास्टर / स्लेव्ह आर्किटेक्चरचा अनुसरण करते आणि त्याच्या आर्किटेक्चरमध्ये खालील घटक असतात.

हे कस काम करत?

हे फाईल्सच्या रूपात डेटा घेते आणि वेगवेगळ्या भागांमध्ये विभागले जाते अवरोध आणि क्लस्टरवर विविध डेटा नोड्सवर त्यांचे वितरण करते. हे दुसर्‍या सर्व्हर रॅकवर देखील डेटाचे प्रत्येक तुकडे बनवते जेणेकरून अयशस्वी झाल्यास डेटा पुनर्प्राप्त केला जाऊ शकेल.

ब्लॉक करा

एचडीएफएस मधील फाईल विभागांमध्ये विभागली गेली आहे, ज्याला ब्लॉक्स म्हणतात. ब्लॉकचा डीफॉल्ट आकार 64MB आहे, डेटाची किमान रक्कम विभागात विभागली जाऊ शकते. ते एचडीएफएस कॉन्फिगरेशनमध्ये बदलले जाऊ शकते.

नेमनेड

हे कमोडिटी हार्डवेअर आहे आणि हे एक मास्टर म्हणून कार्य करते आणि खालीलप्रमाणे त्याच्या कार्याची यादी आहे.

हे फाईल सिस्टम नेमस्पेस व्यवस्थापित करते. हे गुलामांवर साठवलेल्या फायलींचा मेटाडेटा संचयित करते. हे डिस्कमध्ये नसून रॅममध्ये डेटा साठवते.
हे क्लायंट्सपर्यंत डेटा प्रवेश नियंत्रित करते.
हे फाईलचे नाव बदलणे, फाईल उघडणे इ. सारख्या फाईल ऑपरेशन्स देखील कार्यान्वित करते.

दुय्यम नाव

फाईलसिस्टम प्रतिमा नेम नोडच्या मुख्य मेमरीमध्ये ठेवली आहे (यात मेटाडेटा माहिती आहे).

नवीन नोंदी येतात, ती संपादन लॉगमध्ये हस्तगत केली जातात. दुय्यम नाव नोड नेम नोड वरून संपादन लॉग आणि फाइलसिस्टम प्रतिमेची प्रत नियमितपणे घेते नंतर ती विलीन करते, एक नवीन प्रत तयार करते आणि त्यास नेमनेडवर अपलोड करते.

डेटा नोड

सर्व डेटा नोड कमोडिटी हार्डवेअरवर चालतात जे गुलाम म्हणून कार्य करतात. डेटानोड जबाबदा :्या:

वाचन / लेखन ऑपरेशन्स करते.
ते नेम्नोडच्या विनंतीनुसार ब्लॉक तयार करणे, हटविणे आणि प्रतिकृती यासारखे ऑपरेशन देखील करतात.

एचडीएफएसची वैशिष्ट्ये

चुकीची सहनशीलता

येथे एचडीएफएसमध्ये, दोष सहन करणे म्हणजे प्रतिकूल परिस्थिती हाताळण्याची क्षमता होय. जेव्हा क्लस्टरची कोणतीही मशीन काही बिघाडामुळे खाली जाते तेव्हा ग्राहक एचडीएफएसच्या प्रतिकृती सुविधेमुळे सहजपणे डेटामध्ये प्रवेश करू शकतो. एचडीएफएस दुसर्‍या रॅकवरही डेटा ब्लॉक्सची प्रतिकृती बनवते जेणेकरून जेव्हा एखादी मशीन खाली जाते तेव्हा वापरकर्त्याने त्या डेटावर दुसर्‍या रॅकवर प्रवेश करू शकतो.

उच्च उपलब्धता

फॉल्ट-टॉलरेंस प्रमाणेच, ही एक अत्यधिक उपलब्ध फाईल सिस्टम आहे, एखादी मशीन अयशस्वी झाली असली तरीही क्लस्टरमधील जवळच्या मशीन्संकडून त्याला पाहिजे तेथे डेटा वापरु शकतो. नेम नोड मध्ये साठवलेल्या फायलींचा मेटाडेटा असणारा नेमनाम, नेम नोड अपयशी झाल्यास बॅकअप हेतूने दुय्यम नेम नेम वर डेटा साठवून ठेवत असतो, म्हणून जेव्हा नेम नोड अयशस्वी झाल्यास ते दुय्यम नेमनाम पासून पूर्णपणे पुनर्प्राप्त होऊ शकते, त्याला नेममोड उच्च उपलब्धता म्हणतात. .

डेटा विश्वसनीयता

एचडीएफएस 100 पीबीच्या श्रेणीमध्ये डेटा संचयित करू शकतो. हे डेटाचे वितरित विश्वसनीय संग्रह आहे. हे ब्लॉक्सची प्रतिकृती तयार करुन डेटा विश्वासार्ह बनवते. म्हणून गंभीर परिस्थितीत कोणताही डेटा तोटा होत नाही.

प्रतिकृती

हे एचडीएफएसचे सर्वात महत्वाचे वैशिष्ट्य आहे.

किमान डेटा मोशन

हॅडूप कोड एचडीएफएसवरील डेटावर हलवते जे नेटवर्क I / O कमी करते आणि बँडविड्थ वाचवते.

स्केलेबिलिटी

एचडीएफएस विविध मशीनवर डेटा संग्रहित करते जेणेकरून जेव्हा आवश्यकता वाढतात तेव्हा आम्ही क्लस्टर स्केल करू शकतो.

अनुलंब स्केलेबिलिटी: हे क्लस्टरच्या विद्यमान नोड्सवर सीपीयू, मेमरी आणि डिस्क सारख्या अधिक संसाधने जोडण्याबद्दल आहे.
क्षैतिज स्केलेबिलिटी: हे कोणत्याही डाउनटाइमशिवाय फ्लायवरील क्लस्टर्समध्ये अधिक मशीन्स जोडण्याविषयी आहे.

एचडीएफएस ऑपरेशन्स

जेव्हा आपण नव्याने हॅडॉप स्थापित केले आणि एचडीएफएस कॉन्फिगर केले, तेव्हा नेमनाम उघडा आणि खालील आदेश चालवा. हे एचडीएफएस स्वरूपित करते.

हॅडॉप नेमनेड -स्वरूप

पुढील आदेश वितरित फाइल सिस्टम सुरू करेल.

प्रारंभ करा-dfs.श

ऑपरेशन्स

एचडीएफएस मध्ये फायली सूचीबद्ध करत आहे

hadoop एफ एस -ls आर्ट्स>

हे दिलेल्या मार्गावरील फायलींची यादी करेल.

एचडीएफएस मध्ये डेटा अंतर्भूत करीत आहे

इनपुट निर्देशिका तयार करण्यासाठी पुढील आज्ञा.

hadoop एफ एस -mkdir इनपुट दिर मार्ग>

स्थानिक फाइल सिस्टममधील डेटा एचडीएफएसमध्ये समाविष्ट करण्यासाठी.

hadoop एफ एस -ठेवले एचडीएफएस> वर ठेवण्यासाठी स्थानिक इनपुट फाइल पथइनपुट दिर मार्ग>

Ls कमांडद्वारे फाईलची पडताळणी करा.