क्लूस्ट्रीम उपयोगकर्ताओं द्वारा निर्दिष्ट, ऑनलाइन क्लस्टरिंग प्रश्नों के आधार पर विकसित डेटा स्ट्रीम के क्लस्टरिंग के लिए एक एल्गोरिदम है। यह क्लस्टरिंग प्रक्रिया को ऑनलाइन और ऑफलाइन घटकों में विभाजित करता है।
ऑनलाइन घटक माइक्रो-क्लस्टर्स का उपयोग करके डेटास्ट्रीम के बारे में सारांश आंकड़ों की गणना और स्टोर करता है, और माइक्रो-क्लस्टर्स की वृद्धिशील ऑनलाइन गणना और रखरखाव करता है। ऑफ़लाइन घटक मैक्रो-क्लस्टरिंग करता है और संग्रहीत सारांश आँकड़ों का उपयोग करके विभिन्न उपयोगकर्ता प्रश्नों का उत्तर देता है, जो झुके हुए समय सीमा मॉडल पर आधारित होते हैं।
ऐतिहासिक और वर्तमान स्ट्रीम डेटा जानकारी दोनों के आधार पर डेटा स्ट्रीम विकसित करने वाला क्लस्टर, झुका हुआ समय सीमा मॉडल (जैसे एक प्रगतिशील लॉगरिदमिक मॉडल) अपनाया जाता है, जो माइक्रोक्लस्टर के एक सेट के स्नैपशॉट को ग्रैन्युलैरिटी के विभिन्न स्तरों पर संग्रहीत करता है। रीसेंसी पर।
यहां अंतर्ज्ञान यह है कि पुरानी घटनाओं के विपरीत हाल की घटनाओं के लिए अधिक जानकारी की आवश्यकता होगी। संग्रहीत जानकारी का उपयोग इतिहास से संबंधित, उपयोगकर्ता-विशिष्ट क्लस्टरिंग प्रश्नों को संसाधित करने के लिए किया जा सकता है। CluStream में एक माइक्रोक्लस्टर को क्लस्टरिंग सुविधा के रूप में परिभाषित किया गया है।
CluStream टेम्पोरल डोमेन को शामिल करने के लिए BIRCH में विकसित क्लस्टरिंग फीचर की अवधारणा का विस्तार करता है। क्लस्टरिंग सुविधा के अस्थायी विस्तार के रूप में, d-आयामी बिंदुओं के एक सेट के लिए amicrocluster,X1 ,। . . , एक्स<उप>एन , टाइमस्टैम्प के साथ, T1 ,...,टी<उप>एन , को (2d +3) टपल (CF2 x .) के रूप में परिभाषित किया गया है ,CF1 x ,CF2 t , CF1 t , n), जिसमें CF2 x और CF1 x d-आयामी वेक्टर हैं जबकि CF2 t , CF1 t , और n अदिश हैं। CF2 x प्रति आयाम डेटा मानों के वर्गों का योग बनाए रखता है, अर्थात,$\sum_{i=1}^{n}{X_{i}}^{2}$
इसी तरह, प्रत्येक आयाम के लिए, डेटा मानों का योग CF1 x में बनाए रखा जाता है . सांख्यिकीय दृष्टिकोण से, CF2 x और CF1 x क्रमशः डेटा के दूसरे और पहले क्रम के क्षणों का प्रतिनिधित्व करते हैं। टाइमस्टैम्प के वर्गों का योग CF2 में रखा जाता है t . टाइमस्टैम्प का योग CF1 t . में रखा जाता है . अंत में, माइक्रोक्लस्टर में डेटा बिंदुओं की संख्या n में बनी रहती है।
क्लस्टरिंग सुविधाओं में योगात्मक और घटाव गुण होते हैं जो उन्हें डेटा स्ट्रीम क्लस्टर विश्लेषण के लिए बहुत उपयोगी बनाते हैं। उदाहरण के लिए, दो माइक्रोक्लस्टर अपनी संबंधित क्लस्टरिंग सुविधाओं को जोड़कर विलय कर सकते हैं। इसके अलावा, बड़ी संख्या में मेमोरी का उपयोग किए बिना बड़ी संख्या में माइक्रोक्लस्टर बनाए रखा जा सकता है। झुके हुए समय-सीमा के आधार पर इन माइक्रोक्लस्टर्स के स्नैपशॉट को मुख्य बिंदुओं पर समय पर संग्रहीत किया जाता है।
ऑनलाइन माइक्रोक्लस्टर प्रोसेसिंग को दो चरणों में बांटा गया है जैसे सांख्यिकीय डेटा संग्रह और माइक्रोक्लस्टर का अद्यतन। पहले चरण में, कुल q माइक्रोक्लस्टर,M1 ,..., म<उप>क्यू , बनाए रखा जाता है, जहां q आमतौर पर प्राकृतिक समूहों की संख्या से काफी बड़ा होता है और उपलब्ध मेमोरी की मात्रा से निर्धारित होता है।
दूसरे चरण में, माइक्रोक्लस्टर्स को अपडेट किया जाता है। प्रत्येक नया डेटा बिंदु या तो मौजूदा क्लस्टर या नए में जोड़ा जाता है। यह तय कर सकता है कि नए क्लस्टर की आवश्यकता है या नहीं, प्रत्येक क्लस्टर के लिए अधिकतम सीमा निर्धारित है।