डेटा स्ट्रीम क्लस्टरिंग को डेटा के क्लस्टरिंग के रूप में वर्णित किया जाता है जो टेलीफोन डेटा, मल्टीमीडिया डेटा, मौद्रिक लेनदेन इत्यादि सहित लगातार दिखाई देता है। डेटा स्ट्रीम क्लस्टरिंग को आम तौर पर स्ट्रीमिंग एल्गोरिदम के रूप में माना जाता है और इसका उद्देश्य सर्वोत्तम क्लस्टरिंग बनाने के लिए बिंदुओं का अनुक्रम दिया जाता है। स्मृति और समय की एक छोटी राशि का उपयोग करते हुए धारा का।
कुछ अनुप्रयोगों को इस तरह के डेटा के स्वचालित क्लस्टरिंग को उनकी समानता के आधार पर सेट करने की आवश्यकता होती है। उदाहरणों में वेब घुसपैठ का पता लगाने, वेब क्लिकस्ट्रीम का विश्लेषण और शेयर बाजार विश्लेषण के लिए आवेदन शामिल हैं।
स्थिर डेटा सेट को क्लस्टर करने के लिए कई गतिशील तरीके हैं, क्लस्टरिंग डेटा स्ट्रीम ऐसे एल्गोरिदम पर अतिरिक्त बल डालते हैं। यह देखा जा सकता है कि बाउंडेड मेमोरी और निश्चित प्रोसेसिंग समय के साथ डेटा पर एक सिंगल पास बनाने के लिए आवश्यक एल्गोरिदम की गणना के डेटा स्ट्रीम मॉडल को देखा जा सकता है, जबकि स्ट्रीम अत्यधिक गतिशील और समय के साथ विकसित हो सकती है।
डेटा स्ट्रीम क्लस्टरिंग के कई तरीके हैं जो इस प्रकार हैं -
पिछले डेटा के सारांश की गणना और संग्रह करें - सीमित मेमोरी स्पेस और त्वरित प्रतिक्रिया आवश्यकताओं के कारण, पहले देखे गए डेटा के सारांश की गणना करें, प्रासंगिक परिणाम सहेजें, और आवश्यकता पड़ने पर महत्वपूर्ण आंकड़ों की गणना के लिए ऐसे सारांशों का उपयोग करें।
फूट डालो और जीतो की रणनीति लागू करें - यह आगमन के क्रम के आधार पर डेटा स्ट्रीम को विखंडू में विभाजित कर सकता है, इन विखंडू के लिए सारांशों की गणना कर सकता है, और फिर सारांशों को मर्ज कर सकता है। इस पद्धति में, छोटे बिल्डिंग ब्लॉक्स से उच्च मॉडल का निर्माण किया जा सकता है।
आने वाली डेटा स्ट्रीम का इंक्रीमेंटल क्लस्टरिंग - चूंकि स्ट्रीम डेटा सिस्टम को लगातार और क्रमिक रूप से पेश करता है, इसलिए बदले गए क्लस्टर क्रमिक रूप से परिष्कृत होने चाहिए।
माइक्रोक्लस्टरिंग के साथ-साथ मैक्रोक्लस्टरिंग विश्लेषण करें − स्ट्रीम क्लस्टर की गणना दो चरणों में की जा सकती है जो इस प्रकार हैं -
-
यह माइक्रोक्लस्टर स्तर पर सारांशों की गणना और संग्रह कर सकता है, जहां एक पदानुक्रमित बॉटम-अप क्लस्टरिंग एल्गोरिथम लागू करके माइक्रोक्लस्टर बनाए जाते हैं।
-
यह उपयोगकर्ता-निर्दिष्ट स्तर पर मैक्रोक्लस्टर्स (जैसे माइक्रोक्लस्टर्स को समूहबद्ध करने के लिए किसी अन्य क्लस्टरिंग एल्गोरिदम का उपयोग करके) की गणना कर सकता है। यह दो-चरणीय गणना कुशलतापूर्वक डेटा को संपीड़ित करती है और त्रुटि के एक छोटे से क्षेत्र में परिणाम प्रदान करती है।
क्लस्टर इवोल्यूशन के विश्लेषण के लिए मल्टीपल टाइम ग्रैन्युलैरिटी एक्सप्लोर करें - क्योंकि हाल के डेटा अक्सर स्ट्रीम डेटा विश्लेषण में रिमोट (यानी पुराने) डेटा से अलग भूमिका निभाते हैं, इसलिए अलग-अलग बिंदुओं पर सारांशित डेटा के स्नैपशॉट को संग्रहीत करने के लिए झुके हुए समय सीमा मॉडल का उपयोग करें।
स्ट्रीम क्लस्टरिंग को ऑनलाइन और ऑफ-लाइन प्रक्रियाओं में विभाजित करें - जबकि डेटा स्ट्रीमिंग हो रहा है, डेटा स्नैपशॉट के मूल सारांशों की गणना, भंडारण और वृद्धिशील रूप से अद्यतन किया जाना चाहिए।
इसलिए, ऐसे गतिशील रूप से बदलते क्लस्टरों को बनाए रखने के लिए एक ऑनलाइन प्रक्रिया की आवश्यकता है। इस बीच, उपयोगकर्ता अतीत, वर्तमान या विकसित हो रहे समूहों के बारे में पूछने के लिए प्रश्न पूछ सकता है। इस तरह के विश्लेषण को ऑफलाइन या ऑनलाइन क्लस्टर रखरखाव से स्वतंत्र प्रक्रिया के रूप में किया जा सकता है।