Computer >> कंप्यूटर ट्यूटोरियल >  >> प्रोग्रामिंग >> प्रोग्रामिंग

k-medoids एल्गोरिदम बड़े डेटा सेट पर कितना कुशल है?

<घंटा/>

PAM की तरह एक क्लासिक k-medoids विभाजन एल्गोरिथ्म छोटे डेटा सेट के लिए कुशलता से काम करता है लेकिन विशाल डेटा सेट के लिए अच्छी तरह से स्केल नहीं करता है। यह उच्च डेटा सेट से निपट सकता है, एक नमूना-आधारित विधि, जिसे क्लारा (क्लस्टरिंग लार्ज एप्लिकेशन) के रूप में जाना जाता है, का उपयोग किया जा सकता है।

क्लारा के पीछे का दृष्टिकोण इस प्रकार है:यदि नमूना काफी यादृच्छिक तरीके से चुना जाता है, तो उसे मूल डेटा सेट को बारीकी से परिभाषित करना चाहिए। चुने गए प्रतिनिधि ऑब्जेक्ट (मेडोइड्स) उन लोगों के समान होंगे जिन्हें पूरे डेटा सेट से चुना गया होगा। CLARA डेटा सेट के कई नमूने खींचता है, प्रत्येक नमूने पर PAM लागू करता है, और आउटपुट के रूप में अपनी सर्वश्रेष्ठ क्लस्टरिंग देता है।

क्लारा का प्रदर्शन नमूना आकार पर आधारित है। यह देखा गया है कि PAM किसी दिए गए डेटा सेट के बीच सर्वश्रेष्ठ k मेडोइड्स की खोज करता है, जबकि CLARA डेटा सेट के चयनित नमूनों के बीच सर्वश्रेष्ठ k मेडोइड्स की खोज करता है। एक k-medoids प्रकार एल्गोरिथ्म जिसे CLARANS के रूप में जाना जाता है (क्लस्टरिंग लार्ज एप्लिकेशन रैंडमाइज्ड सर्च पर निर्भर करता है) प्रस्तावित किया गया था। यह नमूनाकरण विधियों को PAM से जोड़ सकता है। जहां खोज के हर चरण में क्लारा का एक निश्चित नमूना होता है, वहीं CLARANS खोज के हर चरण में कुछ यादृच्छिकता के साथ एक नमूना तैयार करता है।

क्लस्टरिंग प्रक्रिया को एक ग्राफ के माध्यम से एक खोज के रूप में देखा जा सकता है, जहां प्रत्येक नोड एक संभावित समाधान (के मेडोइड्स का एक सेट) है। दो नोड पड़ोसी हैं (विशेषकर, ग्राफ में एक चाप से जुड़े हुए) यदि उनके सेट केवल एक वस्तु से भिन्न होते हैं। प्रत्येक नोड को एक लागत सौंपी जा सकती है जो प्रत्येक वस्तु और उसके क्लस्टर के मेडोइड के बीच कुल असमानता द्वारा दर्शायी जाती है।

प्रत्येक चरण में, PAM न्यूनतम लागत समाधान की खोज में नवीनतम नोड के सभी पड़ोसियों को निर्धारित करता है। नवीनतम नोड को फिर पड़ोसी द्वारा लागत में सबसे बड़े वंश के साथ बदल दिया जाता है। क्योंकि CLARA पूरे डेटा सेट के एक नमूने पर काम करता है, यह कम पड़ोसियों को निर्धारित करता है और खोज को उन सबग्राफ तक सीमित रखता है जो प्रारंभिक ग्राफ़ से छोटे होते हैं।

CLARANS को प्रयोगात्मक रूप से PAM और CLARA दोनों की तुलना में अधिक कुशल दिखाया गया है। इसका उपयोग किसी ऑब्जेक्ट की एक संपत्ति के सिल्हूट गुणांक का उपयोग करके क्लस्टर की सबसे "प्राकृतिक" संख्या को खोजने के लिए किया जा सकता है जो परिभाषित करता है कि ऑब्जेक्ट वास्तव में क्लस्टर पर कितना लागू होता है। CLARANS आउटलेर्स की खोज की भी अनुमति देते हैं।

CLARANS की कम्प्यूटेशनल जटिलता O(n 2 .) है ) जहां n वस्तुओं की संख्या है। इसके अलावा, इसकी क्लस्टरिंग गुणवत्ता इस्तेमाल की गई नमूना पद्धति पर आधारित है। डिस्क पर रहने वाले डेटा ऑब्जेक्ट्स के साथ प्रबंधन करने की CLARANS की क्षमता को R*-ट्री सहित स्थानिक डेटा संरचनाओं का पता लगाने वाली विधियों पर ध्यान केंद्रित करके और भी बेहतर बनाया जा सकता है।


  1. YouTube एल्गोरिथम कैसे काम करता है? YouTube एल्गोरिथम कैसे काम करता है?

    YouTube का अनुशंसित अनुभाग वह जगह है जहां लोग अक्सर नए वीडियो देखने के लिए जाते हैं। यहां वीडियो उपयोगकर्ता के लिए तैयार किए गए हैं ताकि उन्हें वीडियो पर क्लिक करने के लिए YouTube को लगता है कि वे सबसे अधिक देखने की संभावना रखते हैं। लेकिन इन वीडियो को वास्तव में कैसे चुना जाता है? अधिकांश लोग इस प

  1. Excel में बड़े डेटा सेट का विश्लेषण कैसे करें (6 प्रभावी तरीके) Excel में बड़े डेटा सेट का विश्लेषण कैसे करें (6 प्रभावी तरीके)

    लेख आपको दिखाएगा कि बड़े डेटा सेट . का विश्लेषण कैसे करें एक्सेल में। आपकी व्यावसायिक गतिविधियों के पेशेवरों और विपक्षों को जानना बहुत महत्वपूर्ण है। खातों और बिक्री रिकॉर्ड . को बनाए रखने के लिए यह एक गतिशील प्रक्रिया है एक संगठन का। क्योंकि समय की अवधि में बिक्री, खरीद या विनिमय अक्सर होता है। इस

  1. परफेक्ट डेटा बैकअप प्लान कैसे चुनें परफेक्ट डेटा बैकअप प्लान कैसे चुनें

    क्या प्लान ए विफल होने की स्थिति में आपके पास हमेशा एक प्लान बी होता है? यदि आपके पास सामान्य ज्ञान है, तो आपके पास एक होगा। खासकर अगर यह डिजिटल डेटा को संरक्षित करने से संबंधित है। डिजिटल डेटा का बैकअप लेना आवश्यक है क्योंकि आप कभी नहीं जानते कि आपका लैपटॉप कब क्रैश हो जाए, चोरी हो जाए या हैक हो जा