वेब स्ट्रक्चर माइनिंग एक ऐसा उपकरण है जो डेटा या डायरेक्ट लिंक कनेक्शन से जुड़े वेब पेजों के बीच संबंध को पहचान सकता है। यह संरचित डेटा वेब पेजों के लिए डेटाबेस तकनीकों के माध्यम से वेब संरचना स्कीमा के प्रावधान द्वारा खोजा जा सकता है।
यह कनेक्शन एक खोज इंजन को एक खोज क्वेरी से जुड़े डेटा को सीधे उस वेबसाइट से कनेक्ट करने वाले वेब पेज पर खींचने में सक्षम बनाता है जिस पर सामग्री टिकी हुई है। यह पूर्णता वेबसाइटों को स्कैन करने, होम पेज लाने, और वांछित जानकारी सहित विशिष्ट पृष्ठ को सामने लाने के लिए संदर्भ कनेक्शन के माध्यम से डेटा को जोड़ने की आवश्यकता के माध्यम से होती है।
वेब माइनिंग को व्यापक रूप से वेब पर अनुकूलित डेटा माइनिंग विधियों के अनुप्रयोग के रूप में देखा जा सकता है, जबकि डेटा माइनिंग को एल्गोरिथम के अनुप्रयोग के रूप में दर्शाया जाता है, जो ज्ञान खोज प्रक्रिया में तय किए गए अधिकांश संरचित डेटा पर पैटर्न खोजने के लिए होता है।
कई डेटा प्रकारों के संग्रह का समर्थन करने के लिए वेब माइनिंग की एक विशिष्ट संपत्ति है। वेब में कई पहलू हैं जो खनन प्रक्रिया के लिए कई दृष्टिकोण उत्पन्न करते हैं, जैसे टेक्स्ट सहित वेब पेज, वेब पेज हाइपरलिंक के माध्यम से जुड़े हुए हैं, और उपयोगकर्ता गतिविधि की निगरानी वेब सर्वर लॉग के माध्यम से की जा सकती है।
बड़ी मात्रा में डेटा के कारण स्ट्रक्चर माइनिंग वर्ल्ड वाइड वेब की दो मुख्य समस्याओं को कम करता है। पहली समस्या खोज परिणामों के लिए अप्रासंगिक है।
खोज जानकारी की प्रासंगिकता को इस समस्या के कारण गलत समझा जाता है कि खोज इंजन अक्सर केवल कम सटीक मानदंड की अनुमति देते हैं।
दूसरी समस्या वेब पर समर्थित बड़ी मात्रा में डेटा को अनुक्रमित करने में असमर्थता है। यह सामग्री खनन के साथ याद रखने की कम मात्रा उत्पन्न करता है। यह न्यूनीकरण वेब संरचना खनन द्वारा समर्थित वेब हाइपरलिंक संरचना के अंतर्निहित मॉडल को खोजने की सेवा के साथ आंशिक रूप से प्रकट होता है।
संरचना खनन का उद्देश्य वेब पेजों के बीच पहले से अज्ञात संबंधों को निकालना है। डेटा माइनिंग की यह संरचना किसी व्यवसाय के लिए साइट मैप में नेविगेशन और क्लस्टर डेटा की अनुमति देने के लिए अपनी वेबसाइट के डेटा को जोड़ने के लिए उपयोग की पेशकश करती है।
यह अपने उपयोगकर्ताओं को कीवर्ड संबंधों और सामग्री खनन के माध्यम से वांछित डेटा बनाने की क्षमता प्रदान करता है। हाइपरलिंक पदानुक्रम को साइटों के भीतर संबंधित डेटा को प्रतिस्पर्धी लिंक के कनेक्शन और खोज इंजन और तृतीय-पक्ष सह-लिंक के माध्यम से कनेक्शन के लिए पथ करने का भी निर्णय लिया गया है। यह इन पृष्ठों के संबंध बनाने के लिए लिंक किए गए वेब पेजों के क्लस्टरिंग की अनुमति देता है।
वर्ल्ड वाइड वेब पर, संरचना खनन का उपयोग मूल संरचना की पहचान के माध्यम से क्लस्टरिंग करके वेब पेजों के समान आर्किटेक्चर के निर्धारण की अनुमति देता है।
इस डेटा का उपयोग वेब सामग्री की समानताएं डिजाइन करने के लिए किया जा सकता है। ज्ञात समानताएँ तब उच्च अनुपात में वेब-मकड़ियों की पहुँच की अनुमति देने के लिए किसी साइट के डेटा का समर्थन या सुधार करने की क्षमता का समर्थन करती हैं। वेब क्रॉलर की संख्या जितनी अधिक होगी, खोजों से संबंधित सामग्री के कारण साइट के लिए उतना ही अधिक लाभप्रद होगा।