नकारात्मक पैटर्न खनन के लिए तकनीकें क्या हैं?

<घंटा/>

खनन विरल पैटर्न के लिए उत्पादित तकनीकों का पहला वर्ग प्रत्येक आइटम को एक सममित बाइनरी चर के रूप में मानता है। लेन-देन की जानकारी को नकारात्मक वस्तुओं के साथ बढ़ाकर द्विअर्थी बनाया जा सकता है। यह प्रारंभिक डेटा को सकारात्मक और नकारात्मक दोनों प्रकार के लेनदेन में बदलने का एक उदाहरण प्रदर्शित करता है। संवर्धित लेनदेन पर एप्रीओरी सहित वर्तमान लगातार आइटमसेट पीढ़ी एल्गोरिदम का उपयोग करके, कुछ नकारात्मक आइटमसेट प्राप्त किए जा सकते हैं।

ऐसा दृष्टिकोण तभी संभव है जब कई चरों को सममित बाइनरी के रूप में माना जाता है (यानी, इसे नकारात्मक पैटर्न के लिए देखा जाता है जिसमें केवल कम संख्या में आइटम का निषेध होता है)। यदि प्रत्येक आइटम को सममित बाइनरी के रूप में माना जाना चाहिए, तो समस्या निम्नलिखित कारणों से कम्प्यूटेशनल रूप से कठिन हो जाती है।

जब प्रत्येक आइटम को उसके संगत नकारात्मक आइटम के साथ संवर्धित किया जाता है, तो कई आइटम दोगुना हो जाते हैं। आकार 2^d . के आइटमसेट जाली की खोज करने के बजाय , जहां d प्रारंभिक डेटा सेट में मदों की संख्या है, जाली अधिक हो जाती है।

जब नकारात्मक वस्तुओं को बढ़ाया जाता है तो समर्थन-आधारित छंटाई अधिक कुशल नहीं होती है। प्रत्येक चर x के लिए, या तो x या x^' 50% से अधिक या उसके बराबर प्रदान किया है। इसलिए, भले ही समर्थन सीमा 50% जितनी बड़ी हो, आधे आइटम बार-बार आएंगे।

निचली थ्रेसहोल्ड के लिए, कई आइटम और संभावित रूप से उनके सहित आइटमसेट अक्सर होंगे। एप्रीओरी द्वारा लगाए गए समर्थन-आधारित प्रूनिंग विधियां तभी कुशल होती हैं जब अधिकांश आइटमसेट के लिए समर्थन कम हो; इसलिए, विभिन्न लगातार आइटमसेट तेजी से बढ़ते हैं।

नकारात्मक आइटम संवर्धित होने पर प्रत्येक लेन-देन की चौड़ाई में सुधार होता है। विचार करें कि प्रारंभिक डेटा सेट में d आइटम उपलब्ध हैं। बाजार टोकरी लेनदेन सहित विरल डेटा सेट के लिए, प्रत्येक लेनदेन की चौड़ाई d की तुलना में बहुत कम होती है।

तदनुसार, बारंबार आइटमसेट का अधिकतम आकार, जो अधिकतम लेन-देन की चौड़ाई द्वारा सीमित होता है, w_max , सहयोगी रूप से छोटा होने के लिए प्रभावित करता है। जब नकारात्मक आइटम शामिल होते हैं, तो लेन-देन की चौड़ाई बढ़कर d हो जाती है क्योंकि कोई आइटम लेन-देन में मौजूद होता है या लेन-देन से अनुपस्थित होता है, लेकिन दोनों नहीं।

क्योंकि अधिकतम लेन-देन की चौड़ाई w_max . से बढ़ गई है घ करने के लिए, यह कई लगातार आइटमसेट तेजी से परिवर्तन की संख्या में वृद्धि होगी। तदनुसार, कुछ मौजूदा एल्गोरिदम तब टूट जाते हैं जब उनका उपयोग लंबे डेटा सेट के लिए किया जाता है।

पूर्व पाशविक बल दृष्टिकोण कम्प्यूटेशनल रूप से महंगा है क्योंकि यह हमें बड़ी संख्या में सकारात्मक और नकारात्मक पैटर्न के लिए समर्थन तय करने के लिए मजबूर करता है। नकारात्मक वस्तुओं के साथ सेट किए गए डेटा को बढ़ाने के बजाय, एक अन्य दृष्टिकोण नकारात्मक आइटमसेट के समर्थन को उनके सहसंबंधी सकारात्मक वस्तुओं के समर्थन के आधार पर तय करना है।