टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है।
इसे मानक भाषा पाठ से महत्वपूर्ण जानकारी प्राप्त करने की प्रक्रिया के रूप में परिभाषित किया गया है। कुछ डेटा जो यह पाठ संदेश, रिकॉर्ड, ईमेल, फाइलों के माध्यम से उत्पन्न कर सकता है, सामान्य भाषा के पाठ में लिखे गए हैं। यह आमतौर पर ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न बनाने के लिए उपयोग किया जाता है।
टेक्स्ट माइनिंग एक स्वचालित विधि है जो असंरचित पाठ से मूल्यवान अंतर्दृष्टि प्राप्त करने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करती है। यह डेटा को उस जानकारी में परिवर्तित कर सकता है जिसे डिवाइस सीख सकते हैं, टेक्स्ट माइनिंग भावनाओं, विषय और इरादे के आधार पर टेक्स्ट को वर्गीकृत करने की विधि को स्वचालित करता है।
टेक्स्ट डेटा माइनिंग में, इसका उपयोग टेक्स्ट डेटा पर किया जाता है। यह पाठ्य सूचना को पढ़ और विश्लेषण कर सकता है। टेक्स्ट माइनिंग में, पैटर्न को असंरचित डेटा या प्राकृतिक भाषा टेक्स्ट से निकाला जाता है। टेक्स्ट माइनिंग में, इनपुट असंरचित टेक्स्ट होता है और फिर आउटपुट स्ट्रक्चर्ड टेक्स्ट होता है।
टेक्स्ट माइनिंग में टेक्स्ट दस्तावेज़ों का एक सेट शामिल है जो पीडीएफ, डॉक्टर, डॉक्स, टीएक्सटी, आदि के रूप में हैं। दस्तावेज़ प्राप्त करने के बाद, टेक्स्ट के प्री-प्रोसेसिंग (एनएलटी - प्राकृतिक भाषा टेक्स्ट की तुलना) और फिर टेक्स्ट माइनिंग दृष्टिकोण का उपयोग करके। इस प्रकार, पाठ दस्तावेज़ का विश्लेषण करने से अंत में ज्ञान प्राप्त होता है।
फ़िल्टरिंग और स्ट्रीमिंग के रूप में दो विधियाँ शामिल हैं। फ़िल्टर करने से अवांछित शब्द या प्रासंगिक जानकारी निकल सकती है। स्ट्रीमिंग शब्द संबंधित शब्दों के लिए मूल प्रदान करते हैं। स्ट्रीमिंग पद्धति का उपयोग करने के बाद प्रत्येक शब्द को उसके मूल नोड द्वारा डिज़ाइन किया जाता है।
टेक्स्ट माइनिंग एक ऐसा क्षेत्र है जो व्यावसायिक अनुप्रयोगों के लिए गोद लेने में एक अप्रत्याशित विस्फोट है। गोद लेने में विस्फोट टीएम के बारे में बढ़ी हुई जानकारी और कम कीमत बिंदुओं से शुरू होता है जिस पर टीएम उपकरण आज उपलब्ध हैं।
असंरचित पाठ्य डेटा का मैन्युअल विश्लेषण अधिक अव्यावहारिक है, और तदनुसार, डेटा के विश्लेषण की प्रक्रिया को स्वचालित करने के लिए टेक्स्ट माइनिंग विधियों को विकसित किया जा रहा है।
टेक्स्ट माइनिंग का प्राथमिक उद्देश्य उपयोगकर्ताओं को टेक्स्ट आधारित संपत्तियों से रिकॉर्ड निकालने की अनुमति देना है और पुनर्प्राप्ति, निष्कर्षण, सारांशीकरण, वर्गीकरण (पर्यवेक्षित), और क्लस्टरिंग (अनपर्यवेक्षित), सेगमेंटेशन और एसोसिएशन जैसी सेवाओं को संभालना है।
टेक्स्ट माइनिंग को अपनाने के बाद मुख्य कारण व्यापार उद्योग में अधिक शक्तिशाली प्रतिस्पर्धा है, कई संगठन अन्य संगठनों के साथ खेलने के लिए मूल्य वर्धित समाधान चाहते हैं। व्यवसाय में पूर्णता बढ़ाने और उपयोगकर्ता के दृष्टिकोण को बदलने के साथ, संगठनों को एक समाधान प्राप्त करने के लिए भारी निवेश मिल रहा है जो प्रतिस्पर्धा में सुधार के लिए उपयोगकर्ता और प्रतिकूल डेटा का विश्लेषण करने में सक्षम है।