BIRCH पदानुक्रमों का उपयोग करके संतुलित पुनरावृति कम करने और क्लस्टरिंग का प्रतिनिधित्व करता है। यह पदानुक्रमित क्लस्टरिंग और पुनरावृत्त विभाजन सहित अन्य क्लस्टरिंग विधियों के एकीकरण द्वारा बड़ी मात्रा में संख्यात्मक रिकॉर्ड को क्लस्टर करने के लिए डिज़ाइन किया गया है।
BIRCH दो अवधारणाएँ प्रदान करता है, क्लस्टरिंग फ़ीचर और क्लस्टरिंग फ़ीचर ट्री (CF ट्री), जिनका उपयोग क्लस्टर विवरण को सारांशित करने के लिए किया जाता है। ये संरचनाएं विशाल डेटाबेस में सर्वोत्तम गति और मापनीयता प्राप्त करने के लिए क्लस्टरिंग विधि की सुविधा प्रदान करती हैं और आने वाली वस्तुओं के वृद्धिशील और गतिशील क्लस्टरिंग के लिए भी इसे प्रभावी बनाती हैं।
क्लस्टर में n d-आयामी डेटा ऑब्जेक्ट या बिंदु दिए गए हैं, और यह सेंट्रोइड x0 का प्रतिनिधित्व कर सकता है , त्रिज्या R, और क्लस्टर का व्यास D इस प्रकार है -
$$x_{0}=\frac{\sum_{i=1}^{n}x_{i}}{n}$$
$$R=\sqrt{\frac{\sum_{i=1}^{n}(x_{i}-x_{0})^{2}}{n}}$$
$$D=\sqrt{\frac{\sum_{i=1}^{n}\sum_{j=1}^{n}(x_{i}-x_{j})^{2}}{n (n-1)}}$$
जहां आर सदस्य तत्वों से केंद्रक तक की औसत दूरी है, और डी क्लस्टर के अंदर औसत जोड़ीदार दूरी है। R और D दोनों केन्द्रक के चारों ओर क्लस्टर की जकड़न को उलट देते हैं। क्लस्टरिंग फीचर (CF) एक त्रि-आयामी वेक्टर है जो वस्तुओं के समूहों के बारे में डेटा को सारांशित करता है। क्लस्टर में n d-आयामी वस्तुओं या बिंदुओं को देखते हुए, {xi }, तब क्लस्टर के CF को
. के रूप में दर्शाया जाता हैCF=(n,LL,SS)
जहां n क्लस्टर में अंकों की संख्या है, LS n बिंदुओं का रैखिक योग है $\sum_{i=1}^{n}(x_{i})$, और SS डेटा बिंदुओं का वर्ग योग है (यानी,$\sum_{i=1}^{n}x_{i}^{2}$)
क्लस्टरिंग फीचर दिए गए क्लस्टर के आंकड़ों का सारांश है:सांख्यिकीय दृष्टिकोण से क्लस्टर का शून्य, पहला और दूसरा क्षण। क्लस्टरिंग सुविधाएँ एक पूरक हैं। उदाहरण के लिए, मान लें कि हमारे पास दो अलग-अलग क्लस्टर हैं, C1 और C2, क्लस्टरिंग सुविधाओं को धारण करते हैं, CF1 और CF2, आमतौर पर। C1 और C2 के संयोजन से बनने वाले क्लस्टर के लिए क्लस्टरिंग सुविधा केवल CF1 +CF2 है।
BIRCH में क्लस्टरिंग निर्णयों को विकसित करने के लिए आवश्यक सभी मापों की गणना के लिए क्लस्टरिंग सुविधाएँ पर्याप्त हैं। BIRCH वस्तुओं के समूहों के बारे में डेटा को सारांशित करने के लिए क्लस्टरिंग सुविधाओं को नियोजित करके कुशलतापूर्वक भंडारण का उपयोग करता है, जिससे सभी वस्तुओं को बचाने की आवश्यकता को दरकिनार कर दिया जाता है।
CF ट्री एक ऊंचाई-संतुलित ट्री है जो पदानुक्रमित क्लस्टरिंग के लिए क्लस्टरिंग सुविधाओं को सहेजता है। एक पेड़ में एक गैर-पत्ती नोड के वंशज या "बच्चे" होते हैं। गैर-पत्ती नोड्स अपने बच्चों के सीएफ़ की राशि संग्रहीत करते हैं और इसलिए उनके बच्चों के बारे में क्लस्टरिंग डेटा को सारांशित करते हैं।
एक CF ट्री में ब्रांचिंग फैक्टर, B, और थ्रेशोल्ड, T सहित दो पैरामीटर होते हैं। ब्रांचिंग एलिमेंट प्रति नॉन-लीफ नोड में बच्चों की अधिकतम संख्या को परिभाषित करता है। थ्रेशोल्ड पैरामीटर पेड़ के लीफ नोड्स में सहेजे गए उप-समूहों के अधिकतम व्यास को परिभाषित करता है। ये दो पैरामीटर परिणामी पेड़ के आकार को धारण करते हैं।