Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा स्ट्रीम क्लस्टरिंग के तरीके क्या हैं?

<घंटा/>

डेटा स्ट्रीम क्लस्टरिंग को डेटा के क्लस्टरिंग के रूप में वर्णित किया जाता है जो टेलीफोन डेटा, मल्टीमीडिया डेटा, मौद्रिक लेनदेन इत्यादि सहित लगातार दिखाई देता है। डेटा स्ट्रीम क्लस्टरिंग को आम तौर पर स्ट्रीमिंग एल्गोरिदम के रूप में माना जाता है और इसका उद्देश्य सर्वोत्तम क्लस्टरिंग बनाने के लिए बिंदुओं का अनुक्रम दिया जाता है। स्मृति और समय की एक छोटी राशि का उपयोग करते हुए धारा का।

कुछ अनुप्रयोगों को इस तरह के डेटा के स्वचालित क्लस्टरिंग को उनकी समानता के आधार पर सेट करने की आवश्यकता होती है। उदाहरणों में वेब घुसपैठ का पता लगाने, वेब क्लिकस्ट्रीम का विश्लेषण और शेयर बाजार विश्लेषण के लिए आवेदन शामिल हैं।

स्थिर डेटा सेट को क्लस्टर करने के लिए कई गतिशील तरीके हैं, क्लस्टरिंग डेटा स्ट्रीम ऐसे एल्गोरिदम पर अतिरिक्त बल डालते हैं। यह देखा जा सकता है कि बाउंडेड मेमोरी और निश्चित प्रोसेसिंग समय के साथ डेटा पर एक सिंगल पास बनाने के लिए आवश्यक एल्गोरिदम की गणना के डेटा स्ट्रीम मॉडल को देखा जा सकता है, जबकि स्ट्रीम अत्यधिक गतिशील और समय के साथ विकसित हो सकती है।

डेटा स्ट्रीम क्लस्टरिंग के कई तरीके हैं जो इस प्रकार हैं -

पिछले डेटा के सारांश की गणना और संग्रह करें - सीमित मेमोरी स्पेस और त्वरित प्रतिक्रिया आवश्यकताओं के कारण, पहले देखे गए डेटा के सारांश की गणना करें, प्रासंगिक परिणाम सहेजें, और आवश्यकता पड़ने पर महत्वपूर्ण आंकड़ों की गणना के लिए ऐसे सारांशों का उपयोग करें।

फूट डालो और जीतो की रणनीति लागू करें - यह आगमन के क्रम के आधार पर डेटा स्ट्रीम को विखंडू में विभाजित कर सकता है, इन विखंडू के लिए सारांशों की गणना कर सकता है, और फिर सारांशों को मर्ज कर सकता है। इस पद्धति में, छोटे बिल्डिंग ब्लॉक्स से उच्च मॉडल का निर्माण किया जा सकता है।

आने वाली डेटा स्ट्रीम का इंक्रीमेंटल क्लस्टरिंग - चूंकि स्ट्रीम डेटा सिस्टम को लगातार और क्रमिक रूप से पेश करता है, इसलिए बदले गए क्लस्टर क्रमिक रूप से परिष्कृत होने चाहिए।

माइक्रोक्लस्टरिंग के साथ-साथ मैक्रोक्लस्टरिंग विश्लेषण करें − स्ट्रीम क्लस्टर की गणना दो चरणों में की जा सकती है जो इस प्रकार हैं -

  • यह माइक्रोक्लस्टर स्तर पर सारांशों की गणना और संग्रह कर सकता है, जहां एक पदानुक्रमित बॉटम-अप क्लस्टरिंग एल्गोरिथम लागू करके माइक्रोक्लस्टर बनाए जाते हैं।

  • यह उपयोगकर्ता-निर्दिष्ट स्तर पर मैक्रोक्लस्टर्स (जैसे माइक्रोक्लस्टर्स को समूहबद्ध करने के लिए किसी अन्य क्लस्टरिंग एल्गोरिदम का उपयोग करके) की गणना कर सकता है। यह दो-चरणीय गणना कुशलतापूर्वक डेटा को संपीड़ित करती है और त्रुटि के एक छोटे से क्षेत्र में परिणाम प्रदान करती है।

क्लस्टर इवोल्यूशन के विश्लेषण के लिए मल्टीपल टाइम ग्रैन्युलैरिटी एक्सप्लोर करें - क्योंकि हाल के डेटा अक्सर स्ट्रीम डेटा विश्लेषण में रिमोट (यानी पुराने) डेटा से अलग भूमिका निभाते हैं, इसलिए अलग-अलग बिंदुओं पर सारांशित डेटा के स्नैपशॉट को संग्रहीत करने के लिए झुके हुए समय सीमा मॉडल का उपयोग करें।

स्ट्रीम क्लस्टरिंग को ऑनलाइन और ऑफ-लाइन प्रक्रियाओं में विभाजित करें - जबकि डेटा स्ट्रीमिंग हो रहा है, डेटा स्नैपशॉट के मूल सारांशों की गणना, भंडारण और वृद्धिशील रूप से अद्यतन किया जाना चाहिए।

इसलिए, ऐसे गतिशील रूप से बदलते क्लस्टरों को बनाए रखने के लिए एक ऑनलाइन प्रक्रिया की आवश्यकता है। इस बीच, उपयोगकर्ता अतीत, वर्तमान या विकसित हो रहे समूहों के बारे में पूछने के लिए प्रश्न पूछ सकता है। इस तरह के विश्लेषण को ऑफलाइन या ऑनलाइन क्लस्टर रखरखाव से स्वतंत्र प्रक्रिया के रूप में किया जा सकता है।


  1. वेब माइनिंग के तरीके क्या हैं?

    वेब माइनिंग सीखने या ज्ञान प्राप्त करने के लक्ष्यों के लिए वेब-आधारित डेटा के लिए मशीन लर्निंग (डेटा माइनिंग) दृष्टिकोण का अनुप्रयोग है। वेब माइनिंग के तरीकों को तीन अलग-अलग तत्वों में से एक में परिभाषित किया जा सकता है जो इस प्रकार हैं - वेब उपयोग खनन - वेब यूसेज माइनिंग एक तरह का वेब माइनिंग है ज

  1. सांख्यिकीय डेटा माइनिंग के तरीके क्या हैं?

    सांख्यिकीय डेटा माइनिंग तकनीकों में, यह बड़ी मात्रा में डेटा के प्रभावी संचालन के लिए बनाया गया है जो आम तौर पर बहुआयामी और संभवतः कई जटिल प्रकार के होते हैं। डेटा विश्लेषण के लिए कई अच्छी तरह से स्थापित सांख्यिकीय विधियां हैं, खासकर संख्यात्मक डेटा के लिए। इन विधियों का व्यापक रूप से वैज्ञानिक रिक

  1. डेटा अखंडता के प्रकार क्या हैं?

    डेटाबेस अखंडता संग्रहीत जानकारी की वैधता और स्थिरता को परिभाषित करती है। अखंडता को आम तौर पर बाधाओं के संदर्भ में परिभाषित किया जाता है, जो स्थिरता नियम हैं जिनका डेटाबेस को उल्लंघन करने की अनुमति नहीं है। बाधाएं प्रत्येक विशेषता पर लागू हो सकती हैं या वे तालिकाओं के बीच संबंधों पर लागू हो सकती हैं।