वेब कंटेंट माइनिंग को टेक्स्ट माइनिंग कहा जाता है। सामग्री खनन खोज क्वेरी के लिए सामग्री की प्रासंगिकता तय करने के लिए वेब पेज के टेक्स्ट, छवियों और ग्राफ़ की ब्राउज़िंग और खनन है।
यह ब्राउज़िंग संरचना खनन के माध्यम से वेब पेजों के क्लस्टरिंग के बाद की जाती है और सुझाई गई क्वेरी की प्रासंगिकता के तरीके के आधार पर परिणामों का समर्थन करती है।
वर्ल्ड वाइड वेब पर उपलब्ध बड़ी मात्रा में डेटा के साथ, सामग्री खनन क्वेरी में कीवर्ड के लिए सबसे बड़ी प्रयोज्यता के क्रम में खोज इंजन को परिणाम सूची का समर्थन करता है।
इसे मानक भाषा पाठ से आवश्यक डेटा निकालने के चरण के रूप में परिभाषित किया जा सकता है। कुछ डेटा जो यह पाठ संदेशों, फाइलों, ईमेल, दस्तावेजों के माध्यम से उत्पन्न कर सकता है, सामान्य भाषा के पाठ में लिखे गए हैं। टेक्स्ट माइनिंग ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न प्राप्त कर सकता है।
टेक्स्ट माइनिंग एक स्वचालित प्रक्रिया है जो असंरचित पाठ से मूल्यवान अंतर्दृष्टि प्राप्त करने के लिए प्राकृतिक भाषा प्रसंस्करण की सुविधा प्रदान करती है। डेटा को उस जानकारी में बदलकर जिसे डिवाइस सीख सकते हैं, टेक्स्ट माइनिंग भावनाओं, विषयों और इरादे के आधार पर टेक्स्ट को वर्गीकृत करने के चरण को स्वचालित करता है।
टेक्स्ट माइनिंग को सर्च इंजन में यूजर सर्च डेटा द्वारा समर्थित विशिष्ट डेटा की ओर निर्देशित किया जाता है। यह संपूर्ण वेब के ब्राउज़िंग को क्लस्टर सामग्री लाने में सक्षम बनाता है जिससे उन समूहों के भीतर निश्चित वेब पेजों की स्कैनिंग शुरू हो जाती है।
परिणाम सबसे बड़े स्तर पर प्रयोज्यता के निम्नतम स्तर के माध्यम से खोज इंजनों को प्रेषित पृष्ठ हैं। हालांकि खोज इंजन खोज सामग्री के बारे में सैकड़ों लोगों द्वारा वेब पेजों से कनेक्शन का समर्थन कर सकते हैं, इस प्रकार का वेब खनन अप्रासंगिक डेटा को कम करने की अनुमति देता है। निश्चित विषयों से संबंधित सामग्री डेटाबेस में उपयोग किए जाने पर वेब टेक्स्ट माइनिंग कुशल है।
उदाहरण के लिए, ऑनलाइन विश्वविद्यालयों को अपने अध्ययन के लगातार क्षेत्रों से संबंधित लेखों को याद करने के लिए एक पुस्तकालय प्रणाली की आवश्यकता होती है। यह निश्चित सामग्री डेटाबेस केवल उन विषयों के भीतर डेटा खींचने की अनुमति देता है, जो खोज इंजन में खोज क्वेरी के सबसे विशिष्ट परिणामों का समर्थन करता है।
समर्थित होने वाले केवल सबसे प्रासंगिक डेटा का यह भत्ता परिणामों की एक बड़ी गुणवत्ता देता है। उत्पादकता में यह वृद्धि पाठ और दृश्यों की सामग्री खनन की आवश्यकता के लिए प्रत्यक्ष है। इस प्रकार के डेटा माइनिंग की आवश्यकता डेटा का अनुरोध करने वाले उपयोगकर्ता के लिए WWW पर उपलब्ध सर्वोत्तम संभव डेटा को इकट्ठा करना, वर्गीकृत करना, व्यवस्थित करना और समर्थन करना है।
यह टूल वेब पेजों पर समर्थित कई HTML फ़ाइलों, छवियों और टेक्स्ट को ब्राउज़ करने के लिए अनिवार्य है। परिणामी डेटा हर खोज के उच्च उत्पादक परिणाम देने के लिए प्रासंगिकता के क्रम में खोज इंजन द्वारा समर्थित है।