वेब माइनिंग वेब-आधारित रिकॉर्ड और सेवाओं, सर्वर लॉग्स और हाइपरलिंक्स से निपटने के द्वारा वेब की मदद से आम तौर पर लाभकारी पैटर्न प्रवृत्तियों और डेटा को निकालने के लिए डेटा माइनिंग तकनीकों का उपयोग करने की प्रक्रिया को परिभाषित करता है। वेब माइनिंग का मुख्य लक्ष्य महत्वपूर्ण जानकारी प्राप्त करने के लिए डेटा एकत्र और विश्लेषण करके वेब डेटा में डिज़ाइन ढूंढना है।
वेब माइनिंग को व्यापक रूप से वेब पर अनुकूलित डेटा माइनिंग विधियों के अनुप्रयोग के रूप में देखा जा सकता है, जबकि डेटा माइनिंग को एल्गोरिथम के अनुप्रयोग के रूप में दर्शाया जाता है, जो ज्ञान खोज प्रक्रिया में तय किए गए अधिकांश संरचित डेटा पर पैटर्न खोजने के लिए होता है।
कई डेटा प्रकारों के संग्रह का समर्थन करने के लिए वेब माइनिंग की एक विशिष्ट संपत्ति है। वेब में कई पहलू हैं जो खनन प्रक्रिया के लिए कई दृष्टिकोण उत्पन्न करते हैं, जैसे टेक्स्ट सहित वेब पेज, वेब पेज हाइपरलिंक के माध्यम से जुड़े हुए हैं, और उपयोगकर्ता गतिविधि की निगरानी वेब सर्वर लॉग के माध्यम से की जा सकती है।
वेब माइनिंग के विभिन्न प्रकार हैं जो इस प्रकार हैं -
वेब सामग्री खनन - वेब कंटेंट माइनिंग वेब माइनिंग की एक प्रक्रिया है जिसमें वेबसाइटों (WWW) से आवश्यक वर्णनात्मक डेटा निकाला जाता है। सामग्री में ऑडियो, वीडियो, टेक्स्ट दस्तावेज़, हाइपरलिंक और संरचित रिकॉर्ड शामिल हैं। वेब सामग्री को टेक्स्ट, सूचियों, छवियों, वीडियो और तालिकाओं के डिजाइन में उपयोगकर्ताओं को रिकॉर्ड देने के लिए डिज़ाइन किया गया है।
सामग्री खनन का कार्य डेटा निष्कर्षण है, जहां संरचित डेटा को असंरचित वेबसाइटों से कॉपी किया जाता है। लक्ष्य निकाले गए संरचित डेटा का उपयोग करके कई वेबसाइटों पर डेटा एकत्रीकरण का समर्थन करना है।
वेब संरचित खनन - वेब स्ट्रक्चर माइनिंग, वेब माइनिंग की मुख्य तकनीकों में से एक है जो हाइपरलिंक्स स्ट्रक्चर से संबंधित है। संरचना खनन अनिवार्य रूप से वेबसाइट के संरचित सारांश को दर्शाता है। यह वेबसाइटों के लिंक किए गए वेब पेजों के बीच संबंधों को पहचानता है।
वेब माइनिंग केवल डेटा माइनिंग है जो वेब से जानकारी खोदती है। वेब से डेटा खोजने के लिए कई एल्गोरिथम तकनीकों का उपयोग किया जाता है। संरचना खनन सूचनात्मक अभिलेखों को इकट्ठा करने और समानता और संबंधों जैसे तत्वों में उन्हें छांटने के लिए वेबसाइट के हाइपरलिंक का विश्लेषण करता है। इंट्रा-पेज एक प्रकार का खनन है जिसे दस्तावेज़ स्तर पर लागू किया जाता है और हाइपरलिंक स्तर के खनन को इंटर-पेज खनन कहा जाता है।
वेब उपयोग खनन - वेब उपयोग खनन का उपयोग वेबलॉग डेटा से उपयोगी रिकॉर्ड, सूचना, ज्ञान निकालने के लिए किया जाता है, और वेब पेजों के लिए उपयोगकर्ता पहुंच पैटर्न की पहचान करने में मदद करता है।
खनन में, वेब संसाधनों का उपयोग, व्यक्ति एक वेबसाइट के आगंतुकों के अनुरोधों के रिकॉर्ड के बारे में सोच रहा है जिसे अक्सर वेब सर्वर लॉग के रूप में एकत्र किया जाता है। जबकि वेब पेजों के सेट की सामग्री और आर्किटेक्चर पृष्ठों के लेखकों के इरादों का पालन करते हैं, एकल अनुरोध दिखाते हैं कि उपयोगकर्ता इन पृष्ठों को कैसे देखते हैं। वेब उपयोग खनन उन संबंधों का खुलासा कर सकता है जो पृष्ठों के निर्माता द्वारा प्रस्तावित नहीं किए गए थे।