STREAM क्या है?

<घंटा/>

STREAM एक व्यक्तिगत-पास, निरंतर तत्व सन्निकटन एल्गोरिथ्म है जो k- माध्यिका समस्या के लिए तैयार किया गया था। k-माध्यमों की समस्या N डेटा बिंदुओं को k समूहों या समूहों में क्लस्टर करना है जैसे कि बिंदुओं और क्लस्टर केंद्र के बीच योग चुकता त्रुटि (SSQ) जिसे उन्हें सौंपा गया है, कम से कम है। विचार एक ही क्लस्टर को समान अंक प्रदान करना है, जहां ये बिंदु अन्य समूहों के बिंदुओं से भिन्न होते हैं।

स्ट्रीम डेटा मॉडल में, डेटा बिंदु केवल एक बार देखे जा सकते हैं, और स्मृति और समय सीमित हैं। यह उच्च-गुणवत्ता वाले क्लस्टरिंग को लागू कर सकता है, STREAM एल्गोरिथम डेटा स्ट्रीम को m पॉइंट की बकेट (या बैच) में प्रोसेस करता है, जिसमें प्रत्येक बकेट मुख्य मेमोरी में फ़िट होता है।

प्रत्येक बकेट के लिए, b_i , STREAM बकेट के बिंदुओं को k क्लस्टर में क्लस्टर करता है। इसके बाद यह केवल k केंद्रों के बारे में जानकारी को बनाए रखते हुए बकेट जानकारी को सारांशित करता है, प्रत्येक क्लस्टर केंद्र को उसके क्लस्टर को सौंपे गए बिंदुओं की संख्या से भारित किया जाता है।

STREAM तब केवल केंद्र की जानकारी को बनाए रखते हुए, बिंदुओं को छोड़ देता है। चूंकि पर्याप्त केंद्र एकत्र किए गए हैं, भारित केंद्रों को ओ (के) क्लस्टर केंद्रों का एक और समूह बनाने के लिए क्लस्टर किया गया है। इसे दोहराया जाता है ताकि प्रत्येक स्तर पर, अधिकतम m अंक बरकरार रहें। इस दृष्टिकोण के परिणामस्वरूप एक-पास, O(kN)-समय, O(N^ε )-स्पेस (कुछ स्थिर ε <1 के लिए), डेटा स्ट्रीम k-माध्यिकाओं के लिए स्थिर-कारक सन्निकटन एल्गोरिथम।

STREAM गुणवत्ता k-माध्यिका समूहों को निश्चित क्षेत्र और समय के साथ बदलता है। हालांकि, इसने न तो अभिलेखों के विकास और न ही समय की बारीकियों को माना। स्ट्रीम के पुराने, पुराने डेटा पर क्लस्टरिंग हावी हो सकती है। समूहों की विशेषता उनके मूल्यांकन के क्षण और जिस समय क्षितिज पर उन्हें मापा जाता है, दोनों के साथ भिन्न हो सकती है।

उदाहरण के लिए, उपयोगकर्ता को पिछले सप्ताह, पिछले महीने या पिछले वर्ष प्रदर्शित होने वाले समूहों का परीक्षण करने की आवश्यकता हो सकती है। ये अलग हो सकते हैं। इसलिए, डेटा स्ट्रीम क्लस्टरिंग एल्गोरिथम को इंटरैक्टिव तरीके से उपयोगकर्ता-निर्धारित समयावधि में क्लस्टर की गणना करने के लचीलेपन का समर्थन करना चाहिए।

क्लूस्ट्रीम उपयोगकर्ता-निर्दिष्ट, ऑनलाइन क्लस्टरिंग प्रश्नों के आधार पर विकसित डेटा स्ट्रीम के क्लस्टरिंग के लिए एक एल्गोरिदम है। यह क्लस्टरिंग प्रक्रिया को ऑनलाइन और ऑफलाइन घटकों में विभाजित करता है।

ऑनलाइन घटक माइक्रो-क्लस्टर्स का उपयोग करके डेटास्ट्रीम के बारे में सारांश आंकड़ों की गणना और स्टोर करता है, और माइक्रो-क्लस्टर्स की वृद्धिशील ऑनलाइन गणना और रखरखाव करता है। ऑफ़लाइन घटक मैक्रो-क्लस्टरिंग करता है और सहेजे गए सारांश आंकड़ों का उपयोग करके कई उपयोगकर्ता प्रश्नों को हल करता है, जो झुका हुआ समय सीमा मॉडल पर निर्भर करता है।

ऐतिहासिक और वर्तमान स्ट्रीम डेटा जानकारी दोनों के आधार पर डेटा स्ट्रीम विकसित करने वाला क्लस्टर, झुका हुआ समय सीमा मॉडल (जैसे एक प्रगतिशील लॉगरिदमिक मॉडल) अपनाया जाता है, जो माइक्रोक्लस्टर के एक सेट के स्नैपशॉट को ग्रैन्युलैरिटी के विभिन्न स्तरों पर रीसेंसी के आधार पर संग्रहीत करता है।