टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह आसान विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग के लिए प्राकृतिक भाषा संसाधन (एनएलपी) की आवश्यकता होती है, जिससे उपकरण मानव भाषा सीख सकें और इसे स्वचालित रूप से संसाधित कर सकें।
इसे मानक भाषा पाठ से आवश्यक डेटा निकालने की प्रक्रिया के रूप में परिभाषित किया गया है। कुछ डेटा जो हम टेक्स्ट मैसेज, दस्तावेज़, ईमेल, फाइलों के माध्यम से उत्पन्न करते हैं, सामान्य भाषा के टेक्स्ट में लिखे जाते हैं। टेक्स्ट माइनिंग का उपयोग आम तौर पर ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न प्राप्त करने के लिए किया जाता है।
टेक्स्ट माइनिंग एक स्वचालित प्रक्रिया है जो असंरचित पाठ से मूल्यवान दृष्टि प्राप्त करने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करती है। यह डेटा को ऐसी जानकारी में बदल सकता है जिसे डिवाइस सीख सकते हैं, टेक्स्ट माइनिंग भावनाओं, विषय और मंशा के आधार पर टेक्स्ट को वर्गीकृत करने की प्रक्रिया को स्वचालित करता है।
टेक्स्ट माइनिंग प्रक्रिया में फाइलों से डेटा निकालने के लिए निम्नलिखित चरण होते हैं जो इस प्रकार हैं -
दस्तावेज़ एकत्र करना - पहले चरण में, टेक्स्ट दस्तावेज़ एकत्र किए जाते हैं, जो कई स्वरूपों में मौजूद होते हैं। दस्तावेज़ पीडीएफ, शब्द, एचटीएमएल दस्तावेज़, सीएसएस, आदि के रूप में हो सकता है।
दस्तावेज़ प्री-प्रोसेसिंग - इस प्रक्रिया में, दिए गए इनपुट दस्तावेज़ को अतिरेक, विसंगतियों, स्वतंत्र शब्दों, स्टेमिंग को समाप्त करने के लिए संसाधित किया जाता है और अगले चरण के लिए फ़ाइलें तैयार की जाती हैं, और लागू किए गए चरण इस प्रकार हैं -
-
टोकनकरण -दिए गए दस्तावेज़ को दस्तावेज़ में एक स्ट्रिंग और मान्यता प्राप्त एकल शब्द के रूप में माना जाता है यानी दिए गए दस्तावेज़ स्ट्रिंग को एक इकाई या टोकन में विभाजित किया जाता है।
-
स्टॉप वर्ड को हटाना - इस प्रक्रिया में निरंतर शब्दों जैसे a, a, but, and, of, the, आदि को हटाना।
-
स्टेमिंग - एक तना समान अर्थ वाले शब्दों का एक प्राकृतिक समूह है। यह दृष्टिकोण एक विशिष्ट शब्द के आधार को परिभाषित करता है। विभक्ति और व्युत्पन्न स्टेमिंग दो प्रकार की विधियाँ हैं। स्टेमिंग के लिए प्रसिद्ध एल्गोरिदम में से एक पोर्टर का एल्गोरिदम है जैसे कि यदि कोई दस्तावेज़ इस्तीफे, इस्तीफा देने, इस्तीफा देने जैसे शब्दों से संबंधित है तो इसे स्टेमिंग विधि का उपयोग करने के बाद इस्तीफा देने के रूप में माना जाएगा।
पाठ परिवर्तन - एक टेक्स्ट डॉक्यूमेंट शब्दों (फीचर) और उनके दिखावे का एक सेट है। ऐसे दस्तावेज़ों को प्रस्तुत करने के दो तरीके हैं, वेक्टर स्पेस मॉडल और शब्दों का थैला।
सुविधा चयन (विशेषता चयन) - इस दृष्टिकोण के परिणामस्वरूप इनपुट दस्तावेज़ से अप्रासंगिक स्वरूपों को निकालकर कम डेटाबेस स्थान, न्यूनतम खोज विधियां प्रदान की जाती हैं।
डेटा माइनिंग/पैटर्न चयन - इस प्रक्रिया में, पारंपरिक डेटा माइनिंग प्रक्रिया टेक्स्ट माइनिंग प्रक्रिया के साथ जुड़ जाती है। एक संरचित डेटाबेस क्लासिक डेटा माइनिंग तकनीकों की सुविधा देता है जो पहले के चरण से उत्पन्न होती हैं।
मूल्यांकन करें - यह चरण परिणाम की गणना करता है। इस परिणामी परिणाम को दूर केंद्रित किया जा सकता है या अनुक्रमों के निम्नलिखित सेट के लिए उपयोग किया जा सकता है।