टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है।
इसे मानक भाषा पाठ से आवश्यक जानकारी निकालने की प्रक्रिया के रूप में परिभाषित किया गया है। कुछ डेटा जो यह पाठ संदेश, रिकॉर्ड, ईमेल, फाइलों के माध्यम से उत्पन्न कर सकता है, सामान्य भाषा के पाठ में लिखे गए हैं। टेक्स्ट माइनिंग का उपयोग आम तौर पर ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न प्राप्त करने के लिए किया जाता है।
टेक्स्ट माइनिंग एक स्वचालित विधि है जो असंरचित पाठ से मूल्यवान अंतर्दृष्टि प्राप्त करने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करती है। यह डेटा को उस जानकारी में परिवर्तित कर सकता है जिसे डिवाइस सीख सकते हैं, टेक्स्ट माइनिंग भावनाओं, विषय और इरादे से टेक्स्ट को परिभाषित करने की विधि को स्वचालित करता है।
फ़िल्टरिंग और स्ट्रीमिंग के रूप में दो तरीके हैं। फ़िल्टरिंग अवांछित शब्द या प्रासंगिक डेटा को हटा सकता है। स्ट्रीमिंग शब्द संबंधित शब्दों के मूल का समर्थन करते हैं। स्ट्रीमिंग पद्धति का उपयोग करने के बाद प्रत्येक शब्द को उसके मूल नोड द्वारा परिभाषित किया जाता है।
टेक्स्ट माइनिंग का प्राथमिक लक्ष्य उपयोगकर्ताओं को टेक्स्ट-आधारित संपत्तियों से जानकारी निकालने और पुनर्प्राप्ति, निष्कर्षण, सारांशीकरण, श्रेणीकरण (पर्यवेक्षित), और क्लस्टरिंग (अनपर्यवेक्षित), सेगमेंटेशन और एसोसिएशन जैसे कार्यों को संभालने में सक्षम बनाना है।
टेक्स्ट माइनिंग को अपनाने के बाद मुख्य कारण व्यापार उद्योग में अधिक शक्तिशाली प्रतिस्पर्धा है, कई संगठन अन्य संगठनों के साथ खेलने के लिए मूल्य वर्धित समाधान चाहते हैं। व्यवसाय में पूर्णता बढ़ाने और उपयोगकर्ता के दृष्टिकोण को बदलने के साथ, संगठनों को एक समाधान प्राप्त करने के लिए भारी निवेश मिल रहा है जो प्रतिस्पर्धा में सुधार के लिए उपयोगकर्ता और प्रतिकूल डेटा का विश्लेषण करने में सक्षम है।
टेक्स्ट डेटा के प्रबंधन के लिए टेक्स्ट माइनिंग फायदेमंद है। टेक्स्ट डेटा असंरचित है, हेरफेर करना मुश्किल है, और अस्पष्ट है, इसलिए टेक्स्ट माइनिंग डेटा एक्सचेंज के लिए सबसे उपयोगी तरीका बन जाता है जबकि डेटा माइनिंग का उपयोग व्यावसायिक डेटा पर किया जाता है।
आर्थिक, शैक्षणिक और सामाजिक गतिविधियों के माध्यम से हर दिन व्यापक मात्रा में नए रिकॉर्ड और डेटा बनाए जाते हैं, जिनमें महत्वपूर्ण संभावित आर्थिक और सामाजिक मूल्य होते हैं।
टेक्स्ट और डेटा माइनिंग सहित कई तकनीकें हैं और इस क्षमता का दोहन करने के लिए एनालिटिक्स की आवश्यकता है। इस पद्धति का उद्देश्य पाठ्य दस्तावेज़ों के विशाल सेट से डेटा प्राप्त करने के लिए आवश्यक प्रयासों को कम करना है।
- संरचित डेटा - यह उन सभी अभिलेखों से संबंधित है जिन्हें पंक्तियों और स्तंभों के साथ तालिका में डेटाबेस SQL में सहेजा जा सकता है। उनके पास एक रिलेशनल कुंजी है और इसे पूर्व-डिज़ाइन किए गए फ़ील्ड में आसानी से मैप किया जा सकता है। आज, वे डेटा विकास में सबसे अधिक संसाधित और जानकारी को संभालने का सबसे सरल तरीका है।
- अर्ध-संरचित डेटा - अर्ध-संरचित डेटा वह डेटा होता है जो एक रिलेशनल डेटाबेस में शामिल नहीं होता है, लेकिन इसमें कई संगठनात्मक विशेषताएं होती हैं जो विश्लेषण करना आसान बनाती हैं। कुछ प्रक्रियाओं के साथ, यह उन्हें एक संबंधपरक डेटाबेस में सहेज सकता है (यह कुछ प्रकार के अर्ध-संरचित डेटा के लिए बहुत कठिन हो सकता है), लेकिन अर्ध-संरचना अंतरिक्ष, निश्चितता या गणना को आसान बनाने के लिए मौजूद है।
- असंरचित डेटा - असंरचित डेटा लगभग 80% डेटा का वर्णन करता है। इसमें टेक्स्ट और मल्टीमीडिया सामग्री शामिल है। इसमें ई-मेल संदेश, वर्ड प्रोसेसिंग फाइलें, वीडियो, फोटो, ऑडियो फाइलें, प्रस्तुतियां, वेबपेज और कई प्रकार के व्यावसायिक दस्तावेज शामिल हैं।