क्लूस्ट्रीम उपयोगकर्ताओं द्वारा निर्दिष्ट, ऑनलाइन क्लस्टरिंग प्रश्नों के आधार पर विकसित डेटा स्ट्रीम के क्लस्टरिंग के लिए एक एल्गोरिदम है। यह क्लस्टरिंग प्रक्रिया को ऑनलाइन और ऑफलाइन घटकों में विभाजित करता है।
ऑनलाइन घटक माइक्रो-क्लस्टर्स का उपयोग करके डेटास्ट्रीम के बारे में सारांश आंकड़ों की गणना और स्टोर करता है, और माइक्रो-क्लस्टर्स की वृद्धिशील ऑनलाइन गणना और रखरखाव करता है। ऑफ़लाइन घटक मैक्रो-क्लस्टरिंग करता है और संग्रहीत सारांश आँकड़ों का उपयोग करके विभिन्न उपयोगकर्ता प्रश्नों का उत्तर देता है, जो झुके हुए समय सीमा मॉडल पर आधारित होते हैं।
ऐतिहासिक और वर्तमान स्ट्रीम डेटा जानकारी दोनों के आधार पर डेटा स्ट्रीम विकसित करने वाला क्लस्टर, झुका हुआ समय सीमा मॉडल (जैसे एक प्रगतिशील लॉगरिदमिक मॉडल) अपनाया जाता है, जो माइक्रोक्लस्टर के एक सेट के स्नैपशॉट को ग्रैन्युलैरिटी के विभिन्न स्तरों पर संग्रहीत करता है। रीसेंसी पर।
यहां अंतर्ज्ञान यह है कि पुरानी घटनाओं के विपरीत हाल की घटनाओं के लिए अधिक जानकारी की आवश्यकता होगी। संग्रहीत जानकारी का उपयोग इतिहास से संबंधित, उपयोगकर्ता-विशिष्ट क्लस्टरिंग प्रश्नों को संसाधित करने के लिए किया जा सकता है। CluStream में एक माइक्रोक्लस्टर को क्लस्टरिंग सुविधा के रूप में परिभाषित किया गया है।
CluStream टेम्पोरल डोमेन को शामिल करने के लिए BIRCH में विकसित क्लस्टरिंग फीचर की अवधारणा का विस्तार करता है। क्लस्टरिंग सुविधा के अस्थायी विस्तार के रूप में, d-आयामी बिंदुओं के एक सेट के लिए amicrocluster,X1 ,। . . , एक्स<उप>एनउप> , टाइमस्टैम्प के साथ, T1 ,...,टी<उप>एनउप> , को (2d +3) टपल (CF2 x .) के रूप में परिभाषित किया गया है ,CF1 x ,CF2 t , CF1 t , n), जिसमें CF2 x और CF1 x d-आयामी वेक्टर हैं जबकि CF2 t , CF1 t , और n अदिश हैं। CF2 x प्रति आयाम डेटा मानों के वर्गों का योग बनाए रखता है, अर्थात,$\sum_{i=1}^{n}{X_{i}}^{2}$
इसी तरह, प्रत्येक आयाम के लिए, डेटा मानों का योग CF1 x में बनाए रखा जाता है . सांख्यिकीय दृष्टिकोण से, CF2 x और CF1 x क्रमशः डेटा के दूसरे और पहले क्रम के क्षणों का प्रतिनिधित्व करते हैं। टाइमस्टैम्प के वर्गों का योग CF2 में रखा जाता है t . टाइमस्टैम्प का योग CF1 t . में रखा जाता है . अंत में, माइक्रोक्लस्टर में डेटा बिंदुओं की संख्या n में बनी रहती है।
क्लस्टरिंग सुविधाओं में योगात्मक और घटाव गुण होते हैं जो उन्हें डेटा स्ट्रीम क्लस्टर विश्लेषण के लिए बहुत उपयोगी बनाते हैं। उदाहरण के लिए, दो माइक्रोक्लस्टर अपनी संबंधित क्लस्टरिंग सुविधाओं को जोड़कर विलय कर सकते हैं। इसके अलावा, बड़ी संख्या में मेमोरी का उपयोग किए बिना बड़ी संख्या में माइक्रोक्लस्टर बनाए रखा जा सकता है। झुके हुए समय-सीमा के आधार पर इन माइक्रोक्लस्टर्स के स्नैपशॉट को मुख्य बिंदुओं पर समय पर संग्रहीत किया जाता है।
ऑनलाइन माइक्रोक्लस्टर प्रोसेसिंग को दो चरणों में बांटा गया है जैसे सांख्यिकीय डेटा संग्रह और माइक्रोक्लस्टर का अद्यतन। पहले चरण में, कुल q माइक्रोक्लस्टर,M1 ,..., म<उप>क्यूउप> , बनाए रखा जाता है, जहां q आमतौर पर प्राकृतिक समूहों की संख्या से काफी बड़ा होता है और उपलब्ध मेमोरी की मात्रा से निर्धारित होता है।
दूसरे चरण में, माइक्रोक्लस्टर्स को अपडेट किया जाता है। प्रत्येक नया डेटा बिंदु या तो मौजूदा क्लस्टर या नए में जोड़ा जाता है। यह तय कर सकता है कि नए क्लस्टर की आवश्यकता है या नहीं, प्रत्येक क्लस्टर के लिए अधिकतम सीमा निर्धारित है।