Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

GSP क्या है?

<घंटा/>

GSP का मतलब सामान्यीकृत अनुक्रमिक पैटर्न है। यह एक अनुक्रमिक पैटर्न खनन विधि है जिसे 1996 में श्रीकांत और अग्रवाल द्वारा तैयार किया गया था। यह सामान्य आइटमसेट खनन के लिए उनके मौलिक एल्गोरिदम का विस्तार है, जिसे अप्रियोरी कहा जाता है। जीएसपी को अनुक्रमिक पैटर्न के नीचे की ओर बंद होने की प्रकृति की आवश्यकता है और कई-पास, छात्रों को बनाने और परीक्षण करने के दृष्टिकोण को अपनाता है।

एल्गोरिथ्म इस प्रकार है। डेटाबेस के पहले स्कैन में, यह कुछ बार-बार आने वाली वस्तुओं की खोज कर सकता है, अर्थात, न्यूनतम समर्थन वाले। प्रत्येक आइटम उस आइटम सहित 1-घटना लगातार अनुक्रम उत्पन्न करता है। प्रत्येक बाद के पास अनुक्रमिक पैटर्न के बीज समूह और पहले के पास में पाए गए अनुक्रमिक पैटर्न के समूह के साथ शुरू होता है।

यह बीज सेट नए संभावित लगातार पैटर्न बना सकता है, जिसे उम्मीदवार अनुक्रम के रूप में जाना जाता है। प्रत्येक उम्मीदवार श्रृंखला में बीज अनुक्रमिक पैटर्न की तुलना में एक और आइटम शामिल होता है जिससे इसे बनाया गया था (जहां पैटर्न में प्रत्येक घटना में एक या एकाधिक आइटम शामिल हो सकते हैं)।

एक क्रम में आइटम के कई उदाहरण अनुक्रम की ऊंचाई है। इसलिए, किसी दिए गए पास में कुछ उम्मीदवार अनुक्रमों की ऊंचाई समान होगी। यह लंबाई k वाले अनुक्रम को k-अनुक्रम के रूप में परिभाषित करता है।

चलो Ck उम्मीदवार k- अनुक्रमों के सेट को इंगित करें। डेटाबेस पर एक पास प्रत्येक उम्मीदवार के-सीक्वेंस के लिए समर्थन का पता लगाता है। Ck . में उम्मीदवार न्यूनतम min_sup फॉर्म Lk . के साथ , सभी लगातार k- अनुक्रमों का सेट। यह सेट निम्नलिखित पास, k+1 के लिए बीज सेट में विकसित होता है। जब पास में कोई नया अनुक्रमिक पैटर्न नहीं खोजा जाता है, या कोई उम्मीदवार अनुक्रम नहीं बनाया जा सकता है, तो एल्गोरिथम हटा देता है।

GSP उम्मीदवारों के समूह को छोटा करने के लिए Apriori संपत्ति का उपयोग इस प्रकार करता है। k-th पास में, एक श्रंखला तभी एक उम्मीदवार होती है, जब उसकी लंबाई-(k −1) अनुक्रमों में से प्रत्येक (k −1)-th पास पर खोजा गया अनुक्रमिक पैटर्न हो।

डेटाबेस का एक नया स्कैन प्रत्येक उम्मीदवार अनुक्रम के लिए समर्थन को इकट्ठा करता है और अनुक्रमिक पैटर्न के एक नए सेट की खोज करता है, Lk . यह सेट निम्नलिखित पास के लिए बीज के रूप में विकसित होता है। जब पास में कोई अनुक्रमिक पैटर्न नहीं मिलता है या जब कोई उम्मीदवार अनुक्रम नहीं बनाया जाता है, तो एल्गोरिथम हटा देता है।

एप्रीओरी जैसी अनुक्रमिक पैटर्न खनन तकनीक (उम्मीदवार उत्पन्न और परीक्षण के आधार पर) का विश्लेषण अनुक्रम डेटाबेस को लंबवत डेटा प्रारूप में मापकर भी किया जा सकता है। लंबवत डेटा प्रारूप में, डेटाबेस फॉर्म के टुपल्स के सेट में बदल जाता है (आइटमसेट:(sequence_ID, event_ID))।

घटना पहचानकर्ता अनुक्रम के अंदर टाइमस्टैम्प के रूप में प्रदान करता है। एक क्रम में ith आइटमसेट (या ईवेंट) का event_ID i है। एक आइटमसेट एक से अधिक अनुक्रम में प्रकट हो सकता है। किसी दिए गए आइटमसेट के लिए संयोजन (सीक्वेंस आईडी, इवेंट आईडी) का सेट आइटमसेट की आईडी_सूची बनाता है।


  1. खनन अनुक्रम डेटा के प्रकार क्या हैं?

    अनुक्रम घटनाओं की एक क्रमबद्ध सूची है। घटनाओं की विशेषताओं के आधार पर अनुक्रमों को तीन समूहों में विभाजित किया जा सकता है, जिन्हें वे निम्नानुसार परिभाषित करते हैं - समय-श्रृंखला डेटा में समानता खोज एक समय-श्रृंखला डेटा सेट में समय की बार-बार गणना पर प्राप्त पूर्णांक मानों के अनुक्रम शामिल होते ह

  1. पाइथन में कोलन ':' ऑपरेटर क्या करता है?

    The :प्रतीक का प्रयोग Python में एक से अधिक उद्देश्यों के लिए किया जाता है अनुक्रम के साथ स्लाइस ऑपरेटर के रूप में - - ऑपरेटर एक अनुक्रम वस्तु जैसे सूची, टपल या स्ट्रिंग से एक भाग को काटता है। इसमें दो तर्क लगते हैं। पहला स्लाइस की शुरुआत का सूचकांक है और दूसरा स्लाइस के अंत का सूचकांक है। दोनों ऑपर

  1. पायथन में अनुक्रम डेटा प्रकार क्या है?

    अनुक्रम आपको एक से अधिक मूल्यों को व्यवस्थित और कुशल तरीके से संग्रहीत करने की अनुमति देते हैं। कई अनुक्रम प्रकार हैं:स्ट्रिंग्स, यूनिकोड स्ट्रिंग्स, सूचियाँ, टुपल्स, बायटेयर्स और रेंज ऑब्जेक्ट। शब्दकोश और सेट गैर-अनुक्रमिक डेटा के लिए कंटेनर हैं। आधिकारिक पायथन डॉक्स से - स्ट्रिंग्स यूनिकोड कोड