PROCLUS,प्रोजेक्टेड क्लस्टरिंग के लिए खड़ा है। यह एक सामान्य आयाम-कमी सबस्पेस क्लस्टरिंग तकनीक है। यही है, व्यक्तिगत-आयामी रिक्त स्थान से शुरू करने के बजाय, यह उच्च-आयामी विशेषता क्षेत्र में समूहों के मूल सन्निकटन को खोजने से शुरू होता है।
प्रत्येक आयाम को प्रत्येक क्लस्टर के लिए एक भार बनाया जाता है, और ताज़ा वज़न का उपयोग क्लस्टर को फिर से बनाने के लिए अगले पुनरावृत्ति में किया जाता है। यह कुछ सुविधाजनक आयामीता के सभी उप-स्थानों में घने क्षेत्रों की खोज की ओर ले जाता है और निम्न आयामीता के अनुमानित आयामों में बड़ी संख्या में ओवरलैप किए गए समूहों की पीढ़ी को रोकता है।
PROCLUS CLARANS में प्रयुक्त पहाड़ी-चढ़ाई चरण के समान मेडोइड्स के सर्वोत्तम समूह की खोज करता है, लेकिन अनुमानित क्लस्टरिंग के साथ प्रबंधित करने के लिए सामान्यीकृत। यह एक दूरी माप को अपनाता है जिसे मैनहट्टन खंडीय दूरी के रूप में जाना जाता है, जो उपयुक्त आयामों के समूह पर मैनहट्टन दूरी है।
PROCLUS एल्गोरिथम में तीन प्रक्रियाएँ शामिल हैं जो इस प्रकार हैं:आरंभीकरण, पुनरावृत्ति और क्लस्टर शोधन। इनिशियलाइज़ेशन प्रक्रिया में, मूल मेडोइड्स का एक सेट चुनने के लिए एक लालची एल्गोरिथ्म की आवश्यकता होती है जो एक दूसरे से बहुत दूर होते हैं ताकि यह प्रदान किया जा सके कि प्रत्येक क्लस्टर चयनित सेट में न्यूनतम एक ऑब्जेक्ट द्वारा परिभाषित किया गया हो।
यह उत्पन्न करने के लिए आवश्यक कई समूहों के आनुपातिक डेटा बिंदुओं का एक यादृच्छिक नमूना चुन सकता है, और फिर अगली प्रक्रिया के लिए एक और भी छोटा अंतिम सबसेट प्राप्त करने के लिए लालची एल्गोरिदम का उपयोग करता है।
पुनरावृत्ति प्रक्रिया इस कम किए गए सेट (मेडोइड्स) से k मेडोइड्स का एक यादृच्छिक सेट चुनती है, और क्लस्टरिंग बढ़ने पर यादृच्छिक रूप से चुने गए नए मेडोइड्स के साथ "खराब" मेडोइड्स को पुनर्स्थापित करें।
प्रत्येक मेडॉइड के लिए, आयामों के एक समूह का चयन किया जाता है, जिनकी औसत दूरियां गणितीय अपेक्षा की तुलना में छोटी होती हैं। मेडोइड्स से संबंधित आयामों की कुल संख्या k×l होनी चाहिए, जहां l एक इनपुट पैरामीटर है जो क्लस्टर उपक्षेत्रों की औसत आयामीता का चयन करता है।
शोधन प्रक्रिया प्रत्येक मेडॉइड के लिए नए आयामों की गणना करती है जो खोजे गए समूहों पर निर्भर करती है, मेडोइड्स को अंक पुन:असाइन करती है, और आउटलेर्स को हटाती है। PROCLUS प्रदर्शित करता है कि यह विधि उच्च-आयामी समूहों की खोज में प्रभावी और मापनीय है।
CLIQUE के विपरीत, जो कई ओवरलैप किए गए समूहों को आउटपुट करता है, PROCLUS बिंदुओं के गैर-अतिव्यापी विभाजन को ढूंढता है। खोजे गए क्लस्टर उच्च-आयामी डेटा को बेहतर ढंग से समझ सकते हैं और बाद के अन्य विश्लेषणों का समर्थन कर सकते हैं।
CLIQUE आवश्यक रूप से सबसे बड़े आयामीता वाले उप-स्थानों की खोज करता है ताकि उन उप-स्थानों में उच्च-घनत्व क्लस्टर जारी रहें। यह इनपुट ऑब्जेक्ट के क्रम के प्रति अनुत्तरदायी है और कुछ विहित डेटा वितरण का ढोंग नहीं करता है। यह इनपुट के आकार के साथ रैखिक रूप से मापता है और इसमें सर्वोत्तम मापनीयता होती है क्योंकि डेटा में कई आयामों में सुधार होता है।