Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

BIRCH क्या है?

<घंटा/>

BIRCH पदानुक्रमों का उपयोग करके संतुलित पुनरावृति कम करने और क्लस्टरिंग का प्रतिनिधित्व करता है। यह पदानुक्रमित क्लस्टरिंग और पुनरावृत्त विभाजन सहित अन्य क्लस्टरिंग विधियों के एकीकरण द्वारा बड़ी मात्रा में संख्यात्मक रिकॉर्ड को क्लस्टर करने के लिए डिज़ाइन किया गया है।

BIRCH दो अवधारणाएँ प्रदान करता है, क्लस्टरिंग फ़ीचर और क्लस्टरिंग फ़ीचर ट्री (CF ट्री), जिनका उपयोग क्लस्टर विवरण को सारांशित करने के लिए किया जाता है। ये संरचनाएं विशाल डेटाबेस में सर्वोत्तम गति और मापनीयता प्राप्त करने के लिए क्लस्टरिंग विधि की सुविधा प्रदान करती हैं और आने वाली वस्तुओं के वृद्धिशील और गतिशील क्लस्टरिंग के लिए भी इसे प्रभावी बनाती हैं।

क्लस्टर में n d-आयामी डेटा ऑब्जेक्ट या बिंदु दिए गए हैं, और यह सेंट्रोइड x0 का प्रतिनिधित्व कर सकता है , त्रिज्या R, और क्लस्टर का व्यास D इस प्रकार है -

$$x_{0}=\frac{\sum_{i=1}^{n}x_{i}}{n}$$

$$R=\sqrt{\frac{\sum_{i=1}^{n}(x_{i}-x_{0})^{2}}{n}}$$

$$D=\sqrt{\frac{\sum_{i=1}^{n}\sum_{j=1}^{n}(x_{i}-x_{j})^{2}}{n (n-1)}}$$

जहां आर सदस्य तत्वों से केंद्रक तक की औसत दूरी है, और डी क्लस्टर के अंदर औसत जोड़ीदार दूरी है। R और D दोनों केन्द्रक के चारों ओर क्लस्टर की जकड़न को उलट देते हैं। क्लस्टरिंग फीचर (CF) एक त्रि-आयामी वेक्टर है जो वस्तुओं के समूहों के बारे में डेटा को सारांशित करता है। क्लस्टर में n d-आयामी वस्तुओं या बिंदुओं को देखते हुए, {xi }, तब क्लस्टर के CF को

. के रूप में दर्शाया जाता है

CF=(n,LL,SS)

जहां n क्लस्टर में अंकों की संख्या है, LS n बिंदुओं का रैखिक योग है $\sum_{i=1}^{n}(x_{i})$, और SS डेटा बिंदुओं का वर्ग योग है (यानी,$\sum_{i=1}^{n}x_{i}^{2}$)

क्लस्टरिंग फीचर दिए गए क्लस्टर के आंकड़ों का सारांश है:सांख्यिकीय दृष्टिकोण से क्लस्टर का शून्य, पहला और दूसरा क्षण। क्लस्टरिंग सुविधाएँ एक पूरक हैं। उदाहरण के लिए, मान लें कि हमारे पास दो अलग-अलग क्लस्टर हैं, C1 और C2, क्लस्टरिंग सुविधाओं को धारण करते हैं, CF1 और CF2, आमतौर पर। C1 और C2 के संयोजन से बनने वाले क्लस्टर के लिए क्लस्टरिंग सुविधा केवल CF1 +CF2 है।

BIRCH में क्लस्टरिंग निर्णयों को विकसित करने के लिए आवश्यक सभी मापों की गणना के लिए क्लस्टरिंग सुविधाएँ पर्याप्त हैं। BIRCH वस्तुओं के समूहों के बारे में डेटा को सारांशित करने के लिए क्लस्टरिंग सुविधाओं को नियोजित करके कुशलतापूर्वक भंडारण का उपयोग करता है, जिससे सभी वस्तुओं को बचाने की आवश्यकता को दरकिनार कर दिया जाता है।

CF ट्री एक ऊंचाई-संतुलित ट्री है जो पदानुक्रमित क्लस्टरिंग के लिए क्लस्टरिंग सुविधाओं को सहेजता है। एक पेड़ में एक गैर-पत्ती नोड के वंशज या "बच्चे" होते हैं। गैर-पत्ती नोड्स अपने बच्चों के सीएफ़ की राशि संग्रहीत करते हैं और इसलिए उनके बच्चों के बारे में क्लस्टरिंग डेटा को सारांशित करते हैं।

एक CF ट्री में ब्रांचिंग फैक्टर, B, और थ्रेशोल्ड, T सहित दो पैरामीटर होते हैं। ब्रांचिंग एलिमेंट प्रति नॉन-लीफ नोड में बच्चों की अधिकतम संख्या को परिभाषित करता है। थ्रेशोल्ड पैरामीटर पेड़ के लीफ नोड्स में सहेजे गए उप-समूहों के अधिकतम व्यास को परिभाषित करता है। ये दो पैरामीटर परिणामी पेड़ के आकार को धारण करते हैं।


  1. रॉक क्या है?

    ROCK,लिंक का उपयोग करके मजबूत क्लस्टरिंग के लिए खड़ा है। यह एक पदानुक्रमित क्लस्टरिंग एल्गोरिथ्म है जो श्रेणीबद्ध विशेषताओं वाले डेटा के लिए लिंक की अवधारणा (दो वस्तुओं के बीच आम पड़ोसियों की संख्या) का विश्लेषण करता है। यह प्रदर्शित करता है कि श्रेणीबद्ध जानकारी को क्लस्टर करते समय इस तरह की दूरी क

  1. दस्तावेज़ क्लस्टरिंग विश्लेषण क्या है?

    दस्तावेज़ क्लस्टरिंग एक असुरक्षित तरीके से फाइलों को व्यवस्थित करने के लिए महत्वपूर्ण तकनीक है। जब दस्तावेज़ों को टर्म वैक्टर के रूप में दर्शाया जाता है, तो क्लस्टरिंग विधियों को लागू किया जा सकता है। दस्तावेज़ स्थान लगातार बड़े आकार का होता है, जो विभिन्न सैकड़ों से लेकर हज़ारों तक होता है। आयामीत

  1. मल्टीरिलेशनल क्लस्टरिंग क्या है?

    मल्टीरिलेशनल क्लस्टरिंग डेटा ऑब्जेक्ट्स को क्लस्टर के समूह में विभाजित करने का चरण है, जो कई संबंधों में डेटा का उपयोग करके उनकी समानता पर निर्भर करता है। क्रॉसक्लस उपयोगकर्ता मार्गदर्शन के साथ क्रॉस-रिलेशनल क्लस्टरिंग का प्रतिनिधित्व करता है। यह मल्टीरिलेशनल क्लस्टरिंग के लिए एक एल्गोरिथम है जो विश