GSP का मतलब सामान्यीकृत अनुक्रमिक पैटर्न है। यह एक अनुक्रमिक पैटर्न खनन विधि है जिसे 1996 में श्रीकांत और अग्रवाल द्वारा तैयार किया गया था। यह सामान्य आइटमसेट खनन के लिए उनके मौलिक एल्गोरिदम का विस्तार है, जिसे अप्रियोरी कहा जाता है। जीएसपी को अनुक्रमिक पैटर्न के नीचे की ओर बंद होने की प्रकृति की आवश्यकता है और कई-पास, छात्रों को बनाने और परीक्षण करने के दृष्टिकोण को अपनाता है।
एल्गोरिथ्म इस प्रकार है। डेटाबेस के पहले स्कैन में, यह कुछ बार-बार आने वाली वस्तुओं की खोज कर सकता है, अर्थात, न्यूनतम समर्थन वाले। प्रत्येक आइटम उस आइटम सहित 1-घटना लगातार अनुक्रम उत्पन्न करता है। प्रत्येक बाद के पास अनुक्रमिक पैटर्न के बीज समूह और पहले के पास में पाए गए अनुक्रमिक पैटर्न के समूह के साथ शुरू होता है।
यह बीज सेट नए संभावित लगातार पैटर्न बना सकता है, जिसे उम्मीदवार अनुक्रम के रूप में जाना जाता है। प्रत्येक उम्मीदवार श्रृंखला में बीज अनुक्रमिक पैटर्न की तुलना में एक और आइटम शामिल होता है जिससे इसे बनाया गया था (जहां पैटर्न में प्रत्येक घटना में एक या एकाधिक आइटम शामिल हो सकते हैं)।
एक क्रम में आइटम के कई उदाहरण अनुक्रम की ऊंचाई है। इसलिए, किसी दिए गए पास में कुछ उम्मीदवार अनुक्रमों की ऊंचाई समान होगी। यह लंबाई k वाले अनुक्रम को k-अनुक्रम के रूप में परिभाषित करता है।
चलो Ck उम्मीदवार k- अनुक्रमों के सेट को इंगित करें। डेटाबेस पर एक पास प्रत्येक उम्मीदवार के-सीक्वेंस के लिए समर्थन का पता लगाता है। Ck . में उम्मीदवार न्यूनतम min_sup फॉर्म Lk . के साथ , सभी लगातार k- अनुक्रमों का सेट। यह सेट निम्नलिखित पास, k+1 के लिए बीज सेट में विकसित होता है। जब पास में कोई नया अनुक्रमिक पैटर्न नहीं खोजा जाता है, या कोई उम्मीदवार अनुक्रम नहीं बनाया जा सकता है, तो एल्गोरिथम हटा देता है।
GSP उम्मीदवारों के समूह को छोटा करने के लिए Apriori संपत्ति का उपयोग इस प्रकार करता है। k-th पास में, एक श्रंखला तभी एक उम्मीदवार होती है, जब उसकी लंबाई-(k −1) अनुक्रमों में से प्रत्येक (k −1)-th पास पर खोजा गया अनुक्रमिक पैटर्न हो।
डेटाबेस का एक नया स्कैन प्रत्येक उम्मीदवार अनुक्रम के लिए समर्थन को इकट्ठा करता है और अनुक्रमिक पैटर्न के एक नए सेट की खोज करता है, Lk . यह सेट निम्नलिखित पास के लिए बीज के रूप में विकसित होता है। जब पास में कोई अनुक्रमिक पैटर्न नहीं मिलता है या जब कोई उम्मीदवार अनुक्रम नहीं बनाया जाता है, तो एल्गोरिथम हटा देता है।
एप्रीओरी जैसी अनुक्रमिक पैटर्न खनन तकनीक (उम्मीदवार उत्पन्न और परीक्षण के आधार पर) का विश्लेषण अनुक्रम डेटाबेस को लंबवत डेटा प्रारूप में मापकर भी किया जा सकता है। लंबवत डेटा प्रारूप में, डेटाबेस फॉर्म के टुपल्स के सेट में बदल जाता है (आइटमसेट:(sequence_ID, event_ID))।
घटना पहचानकर्ता अनुक्रम के अंदर टाइमस्टैम्प के रूप में प्रदान करता है। एक क्रम में ith आइटमसेट (या ईवेंट) का event_ID i है। एक आइटमसेट एक से अधिक अनुक्रम में प्रकट हो सकता है। किसी दिए गए आइटमसेट के लिए संयोजन (सीक्वेंस आईडी, इवेंट आईडी) का सेट आइटमसेट की आईडी_सूची बनाता है।