Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

क्लूस्ट्रीम क्या है?

<घंटा/>

क्लूस्ट्रीम उपयोगकर्ताओं द्वारा निर्दिष्ट, ऑनलाइन क्लस्टरिंग प्रश्नों के आधार पर विकसित डेटा स्ट्रीम के क्लस्टरिंग के लिए एक एल्गोरिदम है। यह क्लस्टरिंग प्रक्रिया को ऑनलाइन और ऑफलाइन घटकों में विभाजित करता है।

ऑनलाइन घटक माइक्रो-क्लस्टर्स का उपयोग करके डेटास्ट्रीम के बारे में सारांश आंकड़ों की गणना और स्टोर करता है, और माइक्रो-क्लस्टर्स की वृद्धिशील ऑनलाइन गणना और रखरखाव करता है। ऑफ़लाइन घटक मैक्रो-क्लस्टरिंग करता है और संग्रहीत सारांश आँकड़ों का उपयोग करके विभिन्न उपयोगकर्ता प्रश्नों का उत्तर देता है, जो झुके हुए समय सीमा मॉडल पर आधारित होते हैं।

ऐतिहासिक और वर्तमान स्ट्रीम डेटा जानकारी दोनों के आधार पर डेटा स्ट्रीम विकसित करने वाला क्लस्टर, झुका हुआ समय सीमा मॉडल (जैसे एक प्रगतिशील लॉगरिदमिक मॉडल) अपनाया जाता है, जो माइक्रोक्लस्टर के एक सेट के स्नैपशॉट को ग्रैन्युलैरिटी के विभिन्न स्तरों पर संग्रहीत करता है। रीसेंसी पर।

यहां अंतर्ज्ञान यह है कि पुरानी घटनाओं के विपरीत हाल की घटनाओं के लिए अधिक जानकारी की आवश्यकता होगी। संग्रहीत जानकारी का उपयोग इतिहास से संबंधित, उपयोगकर्ता-विशिष्ट क्लस्टरिंग प्रश्नों को संसाधित करने के लिए किया जा सकता है। CluStream में एक माइक्रोक्लस्टर को क्लस्टरिंग सुविधा के रूप में परिभाषित किया गया है।

CluStream टेम्पोरल डोमेन को शामिल करने के लिए BIRCH में विकसित क्लस्टरिंग फीचर की अवधारणा का विस्तार करता है। क्लस्टरिंग सुविधा के अस्थायी विस्तार के रूप में, d-आयामी बिंदुओं के एक सेट के लिए amicrocluster,X1 ,। . . , एक्स<उप>एन , टाइमस्टैम्प के साथ, T1 ,...,टी<उप>एन , को (2d +3) टपल (CF2 x .) के रूप में परिभाषित किया गया है ,CF1 x ,CF2 t , CF1 t , n), जिसमें CF2 x और CF1 x d-आयामी वेक्टर हैं जबकि CF2 t , CF1 t , और n अदिश हैं। CF2 x प्रति आयाम डेटा मानों के वर्गों का योग बनाए रखता है, अर्थात,$\sum_{i=1}^{n}{X_{i}}^{2}$

इसी तरह, प्रत्येक आयाम के लिए, डेटा मानों का योग CF1 x में बनाए रखा जाता है . सांख्यिकीय दृष्टिकोण से, CF2 x और CF1 x क्रमशः डेटा के दूसरे और पहले क्रम के क्षणों का प्रतिनिधित्व करते हैं। टाइमस्टैम्प के वर्गों का योग CF2 में रखा जाता है t . टाइमस्टैम्प का योग CF1 t . में रखा जाता है . अंत में, माइक्रोक्लस्टर में डेटा बिंदुओं की संख्या n में बनी रहती है।

क्लस्टरिंग सुविधाओं में योगात्मक और घटाव गुण होते हैं जो उन्हें डेटा स्ट्रीम क्लस्टर विश्लेषण के लिए बहुत उपयोगी बनाते हैं। उदाहरण के लिए, दो माइक्रोक्लस्टर अपनी संबंधित क्लस्टरिंग सुविधाओं को जोड़कर विलय कर सकते हैं। इसके अलावा, बड़ी संख्या में मेमोरी का उपयोग किए बिना बड़ी संख्या में माइक्रोक्लस्टर बनाए रखा जा सकता है। झुके हुए समय-सीमा के आधार पर इन माइक्रोक्लस्टर्स के स्नैपशॉट को मुख्य बिंदुओं पर समय पर संग्रहीत किया जाता है।

ऑनलाइन माइक्रोक्लस्टर प्रोसेसिंग को दो चरणों में बांटा गया है जैसे सांख्यिकीय डेटा संग्रह और माइक्रोक्लस्टर का अद्यतन। पहले चरण में, कुल q माइक्रोक्लस्टर,M1 ,..., म<उप>क्यू , बनाए रखा जाता है, जहां q आमतौर पर प्राकृतिक समूहों की संख्या से काफी बड़ा होता है और उपलब्ध मेमोरी की मात्रा से निर्धारित होता है।

दूसरे चरण में, माइक्रोक्लस्टर्स को अपडेट किया जाता है। प्रत्येक नया डेटा बिंदु या तो मौजूदा क्लस्टर या नए में जोड़ा जाता है। यह तय कर सकता है कि नए क्लस्टर की आवश्यकता है या नहीं, प्रत्येक क्लस्टर के लिए अधिकतम सीमा निर्धारित है।


  1. डेटा सेंटर क्या है?

    एक डेटा केंद्र, जिसे कभी-कभी डेटासेंटर . के रूप में लिखा जाता है (एक शब्द), एक ऐसी सुविधा को दिया गया नाम है जिसमें बड़ी संख्या में कंप्यूटर सर्वर और संबंधित उपकरण होते हैं। एक डेटा सेंटर को कंप्यूटर रूम के रूप में सोचें जो इसकी दीवारों को बढ़ा देता है। वे किसी भी तरह का डेटा स्टोर कर सकते हैं, चाह

  1. STREAM क्या है?

    STREAM एक व्यक्तिगत-पास, निरंतर तत्व सन्निकटन एल्गोरिथ्म है जो k- माध्यिका समस्या के लिए तैयार किया गया था। k-माध्यमों की समस्या N डेटा बिंदुओं को k समूहों या समूहों में क्लस्टर करना है जैसे कि बिंदुओं और क्लस्टर केंद्र के बीच योग चुकता त्रुटि (SSQ) जिसे उन्हें सौंपा गया है, कम से कम है। विचार एक ही

  1. सीरियलाइजेशन क्या है?

    हाल ही में एक प्रोजेक्ट अपडेट मीटिंग के दौरान, मेरी टीम ने इस बारे में बात की कि हम इस एप्लिकेशन से डेटा को आगे और पीछे भेजने के लिए क्रमांकन का उपयोग कैसे करने जा रहे हैं। एक इंजीनियर जो सॉफ्टवेयर परियोजनाओं में और अधिक काम करना चाह रहा था, उसने मुझे बताया कि वे इस शब्द से अपरिचित थे। इस तरह की