क्लस्टरिंग ज्ञान की खोज के लिए महत्वपूर्ण डेटा माइनिंग दृष्टिकोण है। क्लस्टरिंग एक खोजपूर्ण डेटा विश्लेषण विधि है जो कई डेटा ऑब्जेक्ट को एक ही समूह में वर्गीकृत करती है, जैसे कि क्लस्टर।
DENCLUE घनत्व-आधारित क्लस्टरिंग का प्रतिनिधित्व करता है। यह एक क्लस्टरिंग दृष्टिकोण है जो घनत्व वितरण कार्यों के समूह पर निर्भर करता है। DENCLUE एल्गोरिथ्म एक क्लस्टर मॉडल का उपयोग करता है जो कर्नेल घनत्व अनुमान पर निर्भर करता है। क्लस्टर को स्थानीय अधिकतम अनुमानित घनत्व फ़ंक्शन द्वारा दर्शाया जाता है।
DENCLUE समान वितरण वाले रिकॉर्ड पर काम नहीं करता है। उच्च आयामी अंतरिक्ष में, डेटा हमेशा आयामीता के अभिशाप के कारण समान रूप से वितरित जैसा दिखता है। इसलिए, DENCLUDE सामान्य रूप से उच्च-आयामी रिकॉर्ड पर अच्छी तरह से काम नहीं करता है।
यह विधि निम्नलिखित विचारों पर बनी है जो इस प्रकार हैं -
-
प्रत्येक डेटा बिंदु के प्रभाव को एक गणितीय फ़ंक्शन का उपयोग करके औपचारिक रूप से मॉडल किया जा सकता है, जिसे एक प्रभाव फ़ंक्शन कहा जाता है, जो अपने पड़ोस में डेटा बिंदु के प्रभाव का वर्णन करता है।
-
डेटा क्षेत्र का पूर्ण घनत्व विश्लेषणात्मक रूप से कुछ डेटा बिंदुओं पर उपयोग किए जाने वाले प्रभाव फ़ंक्शन के योग के रूप में तैयार किया जा सकता है।
-
घनत्व आकर्षित करने वालों को पहचानकर समूहों को संख्यात्मक रूप से निर्धारित किया जा सकता है, जहां घनत्व आकर्षित करने वाले पूर्ण घनत्व फ़ंक्शन के स्थानीय मैक्सिमा हैं।
मान लीजिए x और y f d . में ऑब्जेक्ट या पॉइंट हैं , एक d-आयामी इनपुट स्थान। x पर डेटा ऑब्जेक्ट y का प्रभाव फ़ंक्शन एक फ़ंक्शन है, $\mathrm{f_B^y\colon f^{d}\rightarrow R_0^+}$, जिसे मूल प्रभाव फ़ंक्शन fB के संदर्भ में परिभाषित किया गया है उप> :
$$\mathrm {f_B^y(X)=f_{B}(X,Y)}$$
यह x पर y के प्रभाव को दर्शाता है। सिद्धांत रूप में, प्रभाव फ़ंक्शन एक मनमाना कार्य हो सकता है जिसे पड़ोस में दो वस्तुओं के बीच की दूरी से निर्धारित किया जा सकता है। डिस्टेंस फंक्शन, d(x, y), यूक्लिडियन डिस्टेंस फंक्शन सहित, रिफ्लेक्टिव और सममित होना चाहिए।
यह आम तौर पर एक वर्ग तरंग प्रभाव समारोह की गणना करने के लिए प्रयोग किया जाता है,
$$\mathrm{f_{square}(X,Y)=\begin{Bmatrix}0 \:\:\:\:\:\:\:\:\:\:\mathrm{if\:d (x, y)> \sigma}\\1\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\mathrm {अन्यथा }\end{Bmatrix}}$$
या गाऊसी प्रभाव समारोह,
$$\mathrm{f_{Gauss}(x, y)=e-\frac{d(x, y)^2}{2{\sigma}^2}}$$
DENCLUE का लाभ
DENCLUE के कई फायदे हैं जो इस प्रकार हैं -
-
इसका एक ठोस संख्यात्मक आधार है और कई क्लस्टरिंग दृष्टिकोणों को सामान्य करता है, जैसे कि विभाजन, पदानुक्रमित और घनत्व-आधारित विधियां।
-
इसमें बड़ी मात्रा में शोर वाले डेटा सेट के लिए अच्छे क्लस्टरिंग गुण हैं।
-
यह उच्च-आयामी सूचना सेटों में मनमाने ढंग से आकार के समूहों के एक कॉम्पैक्ट संख्यात्मक विवरण को सक्षम बनाता है।
-
यह ग्रिड कोशिकाओं का उपयोग करता है, फिर भी केवल उन ग्रिड कोशिकाओं के बारे में जानकारी रखता है जिनमें वास्तव में डेटा बिंदु होते हैं। यह इन कोशिकाओं को पेड़-आधारित पहुंच संरचना में प्रबंधित करता है, और इस प्रकार कुछ प्रभावशाली एल्गोरिदम, जैसे डीबीएससीएएन से काफी तेज है।
-
इन विधियों में घनत्व पैरामीटर σ और शोर सीमा के सावधानीपूर्वक चयन की आवश्यकता होती है, क्योंकि ऐसे मापदंडों का चयन क्लस्टरिंग परिणामों की गुणवत्ता को महत्वपूर्ण रूप से प्रभावित कर सकता है।