जब हमने पिछली बार बड़े डेटा के बारे में बात की थी, तो हमने अलग-अलग बड़े डेटा एनालिटिक्स तकनीकों के बारे में बात की थी। उससे पहले हमने Big Data के विभिन्न पहलुओं के बारे में बात की है। अपने एक ब्लॉग में, मैंने "बिग डेटा रेफरेंस आर्किटेक्चर लेयर्स की कार्यप्रणाली" का वर्णन किया . जैसा कि पहले कहा गया है, उसी तर्ज पर जारी रखते हुए, इस ब्लॉग में हम "शीर्ष 10 ओपन सोर्स डेटा एक्सट्रैक्शन टूल्स" के बारे में चर्चा करेंगे। ।
बिग डेटा के डेटा निष्कर्षण उपकरण सभी विभिन्न स्रोतों से डेटा एकत्र करने में मदद करते हैं और इसे एक संरचित रूप में बदल देते हैं। इन उपकरणों के लिए आमतौर पर इस्तेमाल किया जाने वाला शब्द "ETL - एक्सट्रेक्ट ट्रांसफॉर्म एंड लोड" है . इन उपकरणों की कार्यप्रणाली को नीचे वर्णित 3 चरणों में विभाजित किया जा सकता है:
<उल शैली ="पाठ्य-संरेखण:औचित्य;">
आमतौर पर ETL टूल्स में, सभी तीन चरणों को समानांतर में निष्पादित किया जाता है क्योंकि डेटा निष्कर्षण में समय लगता है, इसलिए जब डेटा को खींचा जा रहा होता है तो दूसरी परिवर्तन प्रक्रिया निष्पादित होती है, पहले से प्राप्त डेटा को संसाधित करती है और लोड करने के लिए डेटा तैयार करता है और जैसे ही कुछ डेटा लक्ष्य में लोड होने के लिए तैयार होता है, डेटा लोड करना पिछले चरणों के पूरा होने की प्रतीक्षा किए बिना शुरू हो जाता है।
यहां, मैं शीर्ष 10 ओपन सोर्स डेटा एक्सट्रैक्शन या ETL टूल सूचीबद्ध कर रहा हूं:
1. टैलेंड ओपन स्टूडियो:
Talend Openstudio बाजार में सबसे शक्तिशाली डेटा इंटीग्रेशन ETL टूल में से एक है। टैलेंड ओपन स्टूडियो डेटा प्रबंधन और एप्लिकेशन एकीकरण परियोजनाओं के विकास, परीक्षण, तैनाती और प्रशासन के लिए ओपन सोर्स उत्पादों का एक बहुमुखी सेट है।
ईटीएल परियोजनाओं के लिए, डेटा एकीकरण के लिए टैलेंड ओपन स्टूडियो डेटा एकीकरण के लिए कई समाधान प्रदान करता है, ओपन सोर्स और व्यावसायिक संस्करण दोनों। Talend एक सहज ज्ञान युक्त ग्रहण-आधारित इंटरफ़ेस के साथ एक ग्राफिकल एकीकृत विकास वातावरण सहित एक समृद्ध सुविधा सेट प्रदान करता है। ड्रैग-एंड-ड्रॉप डिज़ाइन प्रवाह के साथ, और डेटाबेस, मेनफ़्रेम, फ़ाइल सिस्टम, वेब-सेवाओं, पैकेज्ड एंटरप्राइज़ एप्लिकेशन, डेटा वेयरहाउस, OLAP एप्लिकेशन, सॉफ़्टवेयर-एज़-ए के बीच ब्रिज करने के लिए 400 से अधिक पूर्व-कॉन्फ़िगर एप्लिकेशन कनेक्टर्स के साथ व्यापक कनेक्टिविटी -सेवा, क्लाउड-आधारित एप्लिकेशन, और बहुत कुछ।
<एच3>2. स्क्रिप्टेला:Scriptella Apache द्वारा लॉन्च किया गया एक ओपन सोर्स ETL टूल है, जो एक्सट्रैक्टिंग की कार्यप्रणाली के साथ-साथ ट्रांसफ़ॉर्मिंग के साथ-साथ लोडिंग प्रोसेस का उपयोग जावा स्क्रिप्टिंग को निष्पादित करने में भी किया जाता है। यह उपयोग के लिए एक बहुत ही सरल और आसान उपकरण है और यह मूल रूप से इसके उपयोग में आसानी के कारण लोकप्रिय है। सुविधाओं में एसक्यूएल, जावास्क्रिप्ट, जेईएक्सएल, वेलोसिटी में लिखी गई स्क्रिप्ट को निष्पादित करना शामिल है। डाटाबेस माइग्रेशन, एलडीएपी, जेडीबीसी, एक्सएमएल और अन्य डेटा स्रोतों के साथ इंटरऑपरेबिलिटी। Cros डेटाबेस ETL संचालन, CSV, पाठ और XML और अन्य स्वरूपों से आयात/निर्यात।
<एच3>3. केटीएल:KETL डेटा वेयरहाउसिंग के लिए सबसे अच्छे ओपन सोर्स टूल्स में से एक है। यह एक्सएमएल और अन्य भाषाओं के साथ जावा ओरिएंटेड स्ट्रक्चर से बना है। इंजन एक खुले, बहु-थ्रेडेड, एक्सएमएल-आधारित आर्किटेक्चर पर बनाया गया है। केईटीएल की प्रमुख विशेषताओं में सुरक्षा और डेटा प्रबंधन उपकरणों के एकीकरण के लिए समर्थन, कई सर्वरों और सीपीयू और डेटा की किसी भी मात्रा में सिद्ध मापनीयता और तीसरे पक्ष के शेड्यूल, निर्भरता और अधिसूचना उपकरणों की कोई अतिरिक्त आवश्यकता नहीं है।
<एच3>4. पेंटाहो डेटा इंटीग्रेटर - केटल:
पेंटाहो के अनुसार ही, यह एक बीआई प्रदाता है जो डेटा एकीकरण की क्षमता के रूप में ईटीएल उपकरण प्रदान करता है। ये ईटीएल क्षमताएं केटल परियोजना पर आधारित हैं। यह जावा एप्लिकेशन और लाइब्रेरी है। केटल एक्सएमएल प्रारूप में लिखी गई प्रक्रियाओं का दुभाषिया है। केटल डेटा हेरफेर प्रक्रिया को ठीक करने के लिए एक जावा स्क्रिप्ट इंजन प्रदान करता है। केटल भी एक अच्छा उपकरण है, जिसमें जटिल ईटीएल प्रक्रियाओं को बनाने के लिए आवश्यक सब कुछ है। केटल एक्सएमएल प्रारूप में लिखी गई ईटीएल प्रक्रियाओं का दुभाषिया है।
केटल (PDI) Pentaho Business Intelligence Suite में डिफ़ॉल्ट टूल है। प्रक्रियाओं को पेंटाहो प्लेटफॉर्म के बाहर भी निष्पादित किया जा सकता है, बशर्ते कि सभी केटल लाइब्रेरी और जावा दुभाषिया स्थापित हों।
<एच3>5. जैस्परसॉफ्ट ईटीएल:
Jaspersoft ETL को तैनात करना आसान है और कई मालिकाना और ओपन सोर्स ETL सिस्टम से बेहतर प्रदर्शन करता है। रिपोर्टिंग और विश्लेषण के लिए समेकित डेटा वेयरहाउस या डेटा मार्ट बनाने के लिए इसका उपयोग आपके लेन-देन प्रणाली से डेटा निकालने के लिए किया जाता है। सुविधाओं में सूचना वर्कफ़्लो के गैर-तकनीकी दृश्य तक पहुंचने के लिए बिजनेस मॉडलर शामिल है, जॉब डिज़ाइनर के साथ ईटीएल प्रक्रिया को प्रदर्शित और संपादित करें, एक ग्राफिकल एडिटिंग टूल, ट्रांसफॉर्मेशन मैपर और अन्य ट्रांसफॉर्मेशन घटकों के साथ जटिल मैपिंग और ट्रांसफॉर्मेशन को परिभाषित करें।
यहां तक कि इसमें रीयल टाइम डिबगिंग के साथ शुरू से अंत तक ईटीएल आंकड़ों को ट्रैक करने की क्षमता है, एक साथ आउटपुट की अनुमति देता है और फ्लैट फाइलों, एक्सएमएल फाइलों, डेटाबेस, वेब सहित कई स्रोतों से इनपुट की अनुमति देता है। सैकड़ों उपलब्ध कनेक्टर्स के साथ सेवाएं, पीओपी और एफ़टीपी सर्वर और नौकरी की घटनाओं, निष्पादन समय और डेटा की मात्रा की निगरानी के लिए गतिविधि निगरानी कंसोल का उपयोग।
<एच3>6. जियोकेटल:GeoKettle जेनेरिक ईटीएल टूल केटल (पेंटाहो डेटा इंटीग्रेशन) का स्थानिक रूप से सक्षम संस्करण है। जियोकेटल एक शक्तिशाली मेटाडेटा-चालित स्थानिक ईटीएल उपकरण है जो भू-स्थानिक डेटा गोदामों के निर्माण और अद्यतन करने के लिए विभिन्न स्थानिक डेटा स्रोतों के एकीकरण के लिए समर्पित है।
यह डेटा स्रोतों से डेटा के निष्कर्षण को सक्षम बनाता है, त्रुटियों को ठीक करने के लिए डेटा का परिवर्तन, कुछ डेटा सफाई करना, डेटा संरचना को बदलना, उन्हें परिभाषित मानकों के अनुरूप बनाना, और परिवर्तित डेटा को OLTP या OLAP/SOLAP मोड, GIS फ़ाइल या भू-स्थानिक वेब सेवा में लक्ष्य डेटाबेस प्रबंधन प्रणाली (DBMS) में लोड करना।
<एच3>7. क्लोवर ईटीएल:यह प्रोजेक्ट OpenSys द्वारा निर्देशित है, जो चेक गणराज्य की एक कंपनी है। यह जावा-आधारित, दोहरे लाइसेंस वाला खुला स्रोत है जो अपने व्यावसायिक रूप से लाइसेंस प्राप्त संस्करण में वारंटी और समर्थन प्रदान करता है। इसकी पेशकश में एक छोटा पदचिह्न है जो सिस्टम इंटीग्रेटर्स और आईएसवी द्वारा एम्बेड करना आसान बनाता है। इसका उद्देश्य मानचित्रण और परिवर्तन सहित कार्यों का एक बुनियादी पुस्तकालय बनाना है। इसका एंटरप्राइज़ सर्वर संस्करण एक व्यावसायिक पेशकश है।
<एच3>8. एचपीसीसी सिस्टम:HPCC Systems थोर नामक डेटा रिफाइनरी इंजन के साथ बिग डेटा विश्लेषण के लिए एक ओपन-सोर्स प्लेटफ़ॉर्म है। थोर बिग डेटा को साफ, लिंक, रूपांतरित और विश्लेषण करता है। थोर ईटीएल (एक्सट्रैक्शन, ट्रांसफॉर्मेशन एंड लोडिंग) कार्यों का समर्थन करता है जैसे कि असंरचित / संरचित डेटा आउट, डेटा प्रोफाइलिंग, डेटा हाइजीन और बॉक्स से डेटा लिंक करना। थोर संसाधित डेटा को बड़ी संख्या में उपयोगकर्ताओं द्वारा समवर्ती रूप से वास्तविक समय में रॉक्सी का उपयोग करके एक्सेस किया जा सकता है, जो डेटा डिलीवरी इंजन है। रोक्सी अत्यधिक समवर्ती और कम विलंबता वास्तविक समय क्वेरी क्षमता प्रदान करता है।
<एच3>9. जेडॉक्स:
जेडॉक्स ओपन सोर्स बीआई सॉल्यूशन टूल है। यह विशेष उपकरण प्रदर्शन होल्डिंग रणनीति योजना, जांच, कवरेज और ईटीएल अवधारणाओं में शामिल प्रक्रियाओं के प्रबंधन के लिए है। ओपन कोर में एक इन-मेमोरी OLAP सर्वर, ETL सर्वर और OLAP क्लाइंट लाइब्रेरी शामिल हैं। एक स्रोत और लक्ष्य प्रणाली के रूप में जेडॉक्स ओएलएपी सर्वर का शक्तिशाली समर्थन, उपकरण ओएलएपी जांच में जटिलताओं पर काबू पाने की क्षमता के साथ तैयार किया गया है। किसी भी पारंपरिक मॉडल को इस विशेष ETL टूल के उपयोग से OLAP मॉडल में रूपांतरित किया जा सकता है।
क्यूब्स और डाइमेंशन के साथ काम करना इससे आसान नहीं हो सकता। JEDOX ETL के साथ लचीले ढंग से अक्सर आवश्यक समय पदानुक्रम उत्पन्न करते हैं और स्रोत सिस्टम के रिलेशनल मॉडल को OLAP मॉडल में कुशलतापूर्वक रूपांतरित करते हैं।
10. पत्र ईटीएल:
Apatar ETL एक ओपन सोर्स पैकेज में बेजोड़ क्षमताओं का एक सेट लाता है। सुविधाओं में Oracle, MS SQL, MySQL, Sybase DB2, MS Access, PostgreSQL, XML, InstantDB, Paradox, BorlandJDataStore, Csv, MS Excel, Qed, HSQL, SalesForce.Com आदि से कनेक्टिविटी शामिल है। सभी एकीकरण को प्रबंधित करने के लिए एक ही इंटरफ़ेस है। प्रोजेक्ट्स, लचीले परिनियोजन विकल्प, द्वि-दिशात्मक एकीकरण, प्लेटफ़ॉर्म-स्वतंत्र, विंडोज, लिनक्स, मैक से चलता है; 100% जावा-आधारित, कोई कोडिंग नहीं, विज़ुअल जॉब डिज़ाइनर और मैपिंग गैर-डेवलपर्स को डिज़ाइन और परिवर्तन करने में सक्षम बनाता है।
ओपन सोर्स टूल्स की हमेशा कुछ सीमाएँ होती हैं चाहे कोई हों, उन्नत सुविधाओं, भंडारण सुविधा, उन्नत विश्लेषणात्मक सुविधाओं और बहुत कुछ के संदर्भ में सीमाएँ। इसलिए, लाइसेंस प्राप्त उपकरणों का उपयोग करने की सलाह दी जाती है। मेरा अगला ब्लॉग लाइसेंस्ड डेटा एक्सट्रैक्शन टूल्स के बारे में चर्चा करेगा।