जब हमने पिछली बार बड़े डेटा के बारे में बात की थी, तो हमने अलग-अलग बड़े डेटा एनालिटिक्स तकनीकों के बारे में बात की थी। उससे पहले हमने Big Data के विभिन्न पहलुओं के बारे में बात की है। अपने एक ब्लॉग में, मैंने "बिग डेटा रेफरेंस आर्किटेक्चर लेयर्स की कार्यप्रणाली" का वर्णन किया मजबूत> . जैसा कि पहले कहा गया है, उसी तर्ज पर जारी रखते हुए, इस ब्लॉग में हम "शीर्ष 10 ओपन सोर्स डेटा एक्सट्रैक्शन टूल्स" के बारे में चर्चा करेंगे। मजबूत> ।पी> बिग डेटा के डेटा निष्कर्षण उपकरण सभी विभिन्न स्रोतों से डेटा एकत्र करने में मदद करते हैं और इसे एक संरचित रूप में बदल देते हैं। इन उपकरणों के लिए आमतौर पर इस्तेमाल किया जाने वाला शब्द "ETL - एक्सट्रेक्ट ट्रांसफॉर्म एंड लोड" है मजबूत> . इन उपकरणों की कार्यप्रणाली को नीचे वर्णित 3 चरणों में विभाजित किया जा सकता है:
आमतौर पर ETL टूल्स में, सभी तीन चरणों को समानांतर में निष्पादित किया जाता है क्योंकि डेटा निष्कर्षण में समय लगता है, इसलिए जब डेटा को खींचा जा रहा होता है तो दूसरी परिवर्तन प्रक्रिया निष्पादित होती है, पहले से प्राप्त डेटा को संसाधित करती है और लोड करने के लिए डेटा तैयार करता है और जैसे ही कुछ डेटा लक्ष्य में लोड होने के लिए तैयार होता है, डेटा लोड करना पिछले चरणों के पूरा होने की प्रतीक्षा किए बिना शुरू हो जाता है। यहां, मैं शीर्ष 10 ओपन सोर्स डेटा एक्सट्रैक्शन या ETL टूल सूचीबद्ध कर रहा हूं: Talend Openstudio बाजार में सबसे शक्तिशाली डेटा इंटीग्रेशन ETL टूल में से एक है। टैलेंड ओपन स्टूडियो डेटा प्रबंधन और एप्लिकेशन एकीकरण परियोजनाओं के विकास, परीक्षण, तैनाती और प्रशासन के लिए ओपन सोर्स उत्पादों का एक बहुमुखी सेट है। ईटीएल परियोजनाओं के लिए, डेटा एकीकरण के लिए टैलेंड ओपन स्टूडियो डेटा एकीकरण के लिए कई समाधान प्रदान करता है, ओपन सोर्स और व्यावसायिक संस्करण दोनों। Talend एक सहज ज्ञान युक्त ग्रहण-आधारित इंटरफ़ेस के साथ एक ग्राफिकल एकीकृत विकास वातावरण सहित एक समृद्ध सुविधा सेट प्रदान करता है। ड्रैग-एंड-ड्रॉप डिज़ाइन प्रवाह के साथ, और डेटाबेस, मेनफ़्रेम, फ़ाइल सिस्टम, वेब-सेवाओं, पैकेज्ड एंटरप्राइज़ एप्लिकेशन, डेटा वेयरहाउस, OLAP एप्लिकेशन, सॉफ़्टवेयर-एज़-ए के बीच ब्रिज करने के लिए 400 से अधिक पूर्व-कॉन्फ़िगर एप्लिकेशन कनेक्टर्स के साथ व्यापक कनेक्टिविटी -सेवा, क्लाउड-आधारित एप्लिकेशन, और बहुत कुछ। Scriptella Apache द्वारा लॉन्च किया गया एक ओपन सोर्स ETL टूल है, जो एक्सट्रैक्टिंग की कार्यप्रणाली के साथ-साथ ट्रांसफ़ॉर्मिंग के साथ-साथ लोडिंग प्रोसेस का उपयोग जावा स्क्रिप्टिंग को निष्पादित करने में भी किया जाता है। यह उपयोग के लिए एक बहुत ही सरल और आसान उपकरण है और यह मूल रूप से इसके उपयोग में आसानी के कारण लोकप्रिय है। सुविधाओं में एसक्यूएल, जावास्क्रिप्ट, जेईएक्सएल, वेलोसिटी में लिखी गई स्क्रिप्ट को निष्पादित करना शामिल है। डाटाबेस माइग्रेशन, एलडीएपी, जेडीबीसी, एक्सएमएल और अन्य डेटा स्रोतों के साथ इंटरऑपरेबिलिटी। Cros डेटाबेस ETL संचालन, CSV, पाठ और XML और अन्य स्वरूपों से आयात/निर्यात। KETL डेटा वेयरहाउसिंग के लिए सबसे अच्छे ओपन सोर्स टूल्स में से एक है। यह एक्सएमएल और अन्य भाषाओं के साथ जावा ओरिएंटेड स्ट्रक्चर से बना है। इंजन एक खुले, बहु-थ्रेडेड, एक्सएमएल-आधारित आर्किटेक्चर पर बनाया गया है। केईटीएल की प्रमुख विशेषताओं में सुरक्षा और डेटा प्रबंधन उपकरणों के एकीकरण के लिए समर्थन, कई सर्वरों और सीपीयू और डेटा की किसी भी मात्रा में सिद्ध मापनीयता और तीसरे पक्ष के शेड्यूल, निर्भरता और अधिसूचना उपकरणों की कोई अतिरिक्त आवश्यकता नहीं है। पेंटाहो के अनुसार ही, यह एक बीआई प्रदाता है जो डेटा एकीकरण की क्षमता के रूप में ईटीएल उपकरण प्रदान करता है। ये ईटीएल क्षमताएं केटल परियोजना पर आधारित हैं। यह जावा एप्लिकेशन और लाइब्रेरी है। केटल एक्सएमएल प्रारूप में लिखी गई प्रक्रियाओं का दुभाषिया है। केटल डेटा हेरफेर प्रक्रिया को ठीक करने के लिए एक जावा स्क्रिप्ट इंजन प्रदान करता है। केटल भी एक अच्छा उपकरण है, जिसमें जटिल ईटीएल प्रक्रियाओं को बनाने के लिए आवश्यक सब कुछ है। केटल एक्सएमएल प्रारूप में लिखी गई ईटीएल प्रक्रियाओं का दुभाषिया है। केटल (PDI) Pentaho Business Intelligence Suite में डिफ़ॉल्ट टूल है। प्रक्रियाओं को पेंटाहो प्लेटफॉर्म के बाहर भी निष्पादित किया जा सकता है, बशर्ते कि सभी केटल लाइब्रेरी और जावा दुभाषिया स्थापित हों। Jaspersoft ETL को तैनात करना आसान है और कई मालिकाना और ओपन सोर्स ETL सिस्टम से बेहतर प्रदर्शन करता है। रिपोर्टिंग और विश्लेषण के लिए समेकित डेटा वेयरहाउस या डेटा मार्ट बनाने के लिए इसका उपयोग आपके लेन-देन प्रणाली से डेटा निकालने के लिए किया जाता है। सुविधाओं में सूचना वर्कफ़्लो के गैर-तकनीकी दृश्य तक पहुंचने के लिए बिजनेस मॉडलर शामिल है, जॉब डिज़ाइनर के साथ ईटीएल प्रक्रिया को प्रदर्शित और संपादित करें, एक ग्राफिकल एडिटिंग टूल, ट्रांसफॉर्मेशन मैपर और अन्य ट्रांसफॉर्मेशन घटकों के साथ जटिल मैपिंग और ट्रांसफॉर्मेशन को परिभाषित करें। यहां तक कि इसमें रीयल टाइम डिबगिंग के साथ शुरू से अंत तक ईटीएल आंकड़ों को ट्रैक करने की क्षमता है, एक साथ आउटपुट की अनुमति देता है और फ्लैट फाइलों, एक्सएमएल फाइलों, डेटाबेस, वेब सहित कई स्रोतों से इनपुट की अनुमति देता है। सैकड़ों उपलब्ध कनेक्टर्स के साथ सेवाएं, पीओपी और एफ़टीपी सर्वर और नौकरी की घटनाओं, निष्पादन समय और डेटा की मात्रा की निगरानी के लिए गतिविधि निगरानी कंसोल का उपयोग। GeoKettle जेनेरिक ईटीएल टूल केटल (पेंटाहो डेटा इंटीग्रेशन) का स्थानिक रूप से सक्षम संस्करण है। जियोकेटल एक शक्तिशाली मेटाडेटा-चालित स्थानिक ईटीएल उपकरण है जो भू-स्थानिक डेटा गोदामों के निर्माण और अद्यतन करने के लिए विभिन्न स्थानिक डेटा स्रोतों के एकीकरण के लिए समर्पित है। यह डेटा स्रोतों से डेटा के निष्कर्षण को सक्षम बनाता है, त्रुटियों को ठीक करने के लिए डेटा का परिवर्तन, कुछ डेटा सफाई करना, डेटा संरचना को बदलना, उन्हें परिभाषित मानकों के अनुरूप बनाना, और परिवर्तित डेटा को OLTP या OLAP/SOLAP मोड, GIS फ़ाइल या भू-स्थानिक वेब सेवा में लक्ष्य डेटाबेस प्रबंधन प्रणाली (DBMS) में लोड करना। यह प्रोजेक्ट OpenSys द्वारा निर्देशित है, जो चेक गणराज्य की एक कंपनी है। यह जावा-आधारित, दोहरे लाइसेंस वाला खुला स्रोत है जो अपने व्यावसायिक रूप से लाइसेंस प्राप्त संस्करण में वारंटी और समर्थन प्रदान करता है। इसकी पेशकश में एक छोटा पदचिह्न है जो सिस्टम इंटीग्रेटर्स और आईएसवी द्वारा एम्बेड करना आसान बनाता है। इसका उद्देश्य मानचित्रण और परिवर्तन सहित कार्यों का एक बुनियादी पुस्तकालय बनाना है। इसका एंटरप्राइज़ सर्वर संस्करण एक व्यावसायिक पेशकश है। HPCC Systems थोर नामक डेटा रिफाइनरी इंजन के साथ बिग डेटा विश्लेषण के लिए एक ओपन-सोर्स प्लेटफ़ॉर्म है। थोर बिग डेटा को साफ, लिंक, रूपांतरित और विश्लेषण करता है। थोर ईटीएल (एक्सट्रैक्शन, ट्रांसफॉर्मेशन एंड लोडिंग) कार्यों का समर्थन करता है जैसे कि असंरचित / संरचित डेटा आउट, डेटा प्रोफाइलिंग, डेटा हाइजीन और बॉक्स से डेटा लिंक करना। थोर संसाधित डेटा को बड़ी संख्या में उपयोगकर्ताओं द्वारा समवर्ती रूप से वास्तविक समय में रॉक्सी का उपयोग करके एक्सेस किया जा सकता है, जो डेटा डिलीवरी इंजन है। रोक्सी अत्यधिक समवर्ती और कम विलंबता वास्तविक समय क्वेरी क्षमता प्रदान करता है। जेडॉक्स ओपन सोर्स बीआई सॉल्यूशन टूल है। यह विशेष उपकरण प्रदर्शन होल्डिंग रणनीति योजना, जांच, कवरेज और ईटीएल अवधारणाओं में शामिल प्रक्रियाओं के प्रबंधन के लिए है। ओपन कोर में एक इन-मेमोरी OLAP सर्वर, ETL सर्वर और OLAP क्लाइंट लाइब्रेरी शामिल हैं। एक स्रोत और लक्ष्य प्रणाली के रूप में जेडॉक्स ओएलएपी सर्वर का शक्तिशाली समर्थन, उपकरण ओएलएपी जांच में जटिलताओं पर काबू पाने की क्षमता के साथ तैयार किया गया है। किसी भी पारंपरिक मॉडल को इस विशेष ETL टूल के उपयोग से OLAP मॉडल में रूपांतरित किया जा सकता है। क्यूब्स और डाइमेंशन के साथ काम करना इससे आसान नहीं हो सकता। JEDOX ETL के साथ लचीले ढंग से अक्सर आवश्यक समय पदानुक्रम उत्पन्न करते हैं और स्रोत सिस्टम के रिलेशनल मॉडल को OLAP मॉडल में कुशलतापूर्वक रूपांतरित करते हैं। Apatar ETL एक ओपन सोर्स पैकेज में बेजोड़ क्षमताओं का एक सेट लाता है। सुविधाओं में Oracle, MS SQL, MySQL, Sybase DB2, MS Access, PostgreSQL, XML, InstantDB, Paradox, BorlandJDataStore, Csv, MS Excel, Qed, HSQL, SalesForce.Com आदि से कनेक्टिविटी शामिल है। सभी एकीकरण को प्रबंधित करने के लिए एक ही इंटरफ़ेस है। प्रोजेक्ट्स, लचीले परिनियोजन विकल्प, द्वि-दिशात्मक एकीकरण, प्लेटफ़ॉर्म-स्वतंत्र, विंडोज, लिनक्स, मैक से चलता है; 100% जावा-आधारित, कोई कोडिंग नहीं, विज़ुअल जॉब डिज़ाइनर और मैपिंग गैर-डेवलपर्स को डिज़ाइन और परिवर्तन करने में सक्षम बनाता है। ओपन सोर्स टूल्स की हमेशा कुछ सीमाएँ होती हैं चाहे कोई हों, उन्नत सुविधाओं, भंडारण सुविधा, उन्नत विश्लेषणात्मक सुविधाओं और बहुत कुछ के संदर्भ में सीमाएँ। इसलिए, लाइसेंस प्राप्त उपकरणों का उपयोग करने की सलाह दी जाती है। मेरा अगला ब्लॉग लाइसेंस्ड डेटा एक्सट्रैक्शन टूल्स के बारे में चर्चा करेगा।1. टैलेंड ओपन स्टूडियो:
10. पत्र ईटीएल: