हम एप्रीओरी-आधारित खनन की दक्षता में और सुधार कैसे कर सकते हैं?

<घंटा/>

एप्रीओरी एल्गोरिथम के कुछ रूपांतर हैं जिनका अनुमान लगाया गया है कि मूल एल्गोरिथम की दक्षता को विकसित करने वाले लक्ष्य इस प्रकार हैं -

हैश-आधारित तकनीक (आइटमसेट को संबंधित बकेट में रखना) - हैश-आधारित तकनीक का उपयोग उम्मीदवार के-आइटमसेट के आकार को कम करने के लिए किया जा सकता है, C_k , k> 1 के लिए। उदाहरण के लिए, डेटाबेस में प्रत्येक लेन-देन को बार-बार 1-आइटम बनाने के लिए स्कैन करते समय,L₁ , उम्मीदवार से C₁ . में 1-आइटम सेट , यह प्रत्येक लेन-देन के लिए कुछ 2-आइटम बना सकता है, हैश (यानी, नक्शा) उन्हें हैश टेबल संरचना के कई बकेट में, और बराबर बकेट काउंट बढ़ा सकता है।

लेन-देन में कमी - एक लेन-देन जिसमें कुछ लगातार के-आइटम शामिल नहीं होते हैं, उनमें कुछ लगातार (के + 1)-आइटम शामिल नहीं हो सकते हैं। इस प्रकार, इस तरह के लेन-देन को आगे के विचार से चिह्नित या हटाया जा सकता है क्योंकि j-आइटमसेट के लिए डेटाबेस के बाद के स्कैन, जहां j> k, को इसकी आवश्यकता नहीं होगी।

विभाजन करना - एक विभाजन तकनीक का उपयोग किया जा सकता है जिसके लिए दो डेटाबेस स्कैन की आवश्यकता होती है ताकि बार-बार आइटम सेट किया जा सके। इसमें दो चरण शामिल हैं चरण I में, एल्गोरिथ्म डी के लेनदेन को n गैर-अतिव्यापी विभाजन में विभाजित करता है। यदि D में लेन-देन के लिए न्यूनतम समर्थन सीमा min_sup है, इसलिए किसी विभाजन के लिए न्यूनतम समर्थन गणना min_sup × उस विभाजन में लेन-देन की संख्या है।

प्रत्येक पार्टीशन के लिए, पार्टीशन के भीतर सभी लगातार आइटमसेट खोजे जाते हैं। इन्हें स्थानीय फ़्रीक्वेंट आइटमसेट के रूप में परिभाषित किया गया है। प्रक्रिया एक विशिष्ट डेटा संरचना को नियोजित करती है, जो प्रत्येक आइटमसेट के लिए, आइटमसेट में आइटम सहित लेनदेन के TID को रिकॉर्ड करती है। यह डेटाबेस के केवल एक स्कैन में k =1, 2... के लिए सभी स्थानीय लगातार k-आइटम खोजने में सक्षम बनाता है।

एक स्थानीय फ़्रीक्वेंट आइटमसेट अक्सर पूरे डेटाबेस से संबंधित हो सकता है या नहीं भी हो सकता है, D. कोई भी आइटमसेट जो संभवतः बार-बार संबंधित है D को फ़्रीक्वेंट आइटमसेट के रूप में प्रकट होना चाहिए, आंशिक रूप से विभाजन में से एक है। इस प्रकार, सभी स्थानीय फ़्रीक्वेंट आइटमसेट थोड़े से उम्मीदवार आइटम सेट हैं D. सभी विभाजनों से लगातार आइटम सेट का सेट D के लिए विश्ववार उम्मीदवार आइटम सेट बनाता है। चरण II में, D का दूसरा स्कैन आयोजित किया जाता है जिसमें प्रत्येक उम्मीदवार के वास्तविक समर्थन का आकलन किया जाता है वैश्विक बारंबार आइटमसेट तय करें।

नमूनाकरण - नमूनाकरण दृष्टिकोण का मूल विचार दिए गए डेटा डी के एक यादृच्छिक नमूना एस का चयन करना है, और फिर डी के बजाय एस में लगातार आइटमसेट की खोज करना है। इस पद्धति में, यह दक्षता के खिलाफ कुछ हद तक सटीकता का व्यापार कर सकता है। एस का नमूना आकार ऐसा है कि एस में लगातार आइटमसेट की खोज मुख्य मेमोरी में पूरी की जा सकती है, और इसलिए एस में लेनदेन के केवल एक स्कैन की आवश्यकता है।