टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है।
इसे मानक भाषा पाठ से महत्वपूर्ण जानकारी निकालने की प्रक्रिया के रूप में परिभाषित किया गया है। कुछ डेटा जो यह पाठ संदेश, रिकॉर्ड, ईमेल, फाइलों के माध्यम से उत्पन्न कर सकता है, सामान्य भाषा के पाठ में लिखे गए हैं। टेक्स्ट माइनिंग का उपयोग आम तौर पर ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न प्राप्त करने के लिए किया जाता है।
डेटा माइनिंग में टेक्स्ट माइनिंग के निम्नलिखित क्षेत्र हैं जो इस प्रकार हैं -
सूचना पुनर्प्राप्ति -सूचना पुनर्प्राप्ति को फ़ाइल पुनर्प्राप्ति के अतिरिक्त माना जाता है और घोषित किए गए ग्रंथों को समेकित करने के लिए संसाधित किया जाता है। इसलिए दस्तावेज़ पुनर्प्राप्ति के बाद टेक्स्ट सारांशीकरण प्रक्रिया होती है और उपयोगकर्ता द्वारा औपचारिक क्वेरी पर लक्षित होती है।
IR सिस्टम एक विशिष्ट समस्या के लिए प्रासंगिक रिकॉर्ड के सेट को कम करने का समर्थन करते हैं। टेक्स्ट माइनिंग में उदार दस्तावेज़ संग्रह के लिए बहुत जटिल एल्गोरिदम का उपयोग करना शामिल है। साथ ही, IR दस्तावेज़ों की संख्या को कम करके विश्लेषण को महत्वपूर्ण रूप से आगे बढ़ा सकता है।
डेटा माइनिंग - डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
डेटा माइनिंग में, डेटा के छिपे हुए पैटर्न को कई श्रेणियों के अनुसार उपयोगी डेटा के एक टुकड़े में माना जाता है। इस डेटा को विश्लेषण के लिए डेटा वेयरहाउस सहित एक क्षेत्र में इकट्ठा किया जाता है, और डेटा माइनिंग एल्गोरिदम का प्रदर्शन किया जाता है। यह डेटा प्रभावी निर्णय लेने में मदद करता है जो मूल्य में कटौती करते हैं और राजस्व में वृद्धि करते हैं।
प्राकृतिक भाषा संसाधन (एनएलपी) -एनएलपी मानव भाषा की कला है। टेक्स्ट माइनिंग में एनएलपी का उद्देश्य डेटा निष्कर्षण प्रक्रिया में सिस्टम को इनपुट के रूप में वितरित करना है।
एनएलपी एप्लिकेशन का विकास कठिन है क्योंकि कंप्यूटर को आमतौर पर मनुष्यों को एक प्रोग्रामिंग भाषा में "बोलने" की आवश्यकता होती है जो विशिष्ट, मुफ्त और असाधारण रूप से संरचित होती है। मानव भाषण नियमित रूप से प्रामाणिक नहीं होता है, इसलिए यह कई जटिल चरों पर आधारित हो सकता है, जिसमें कठबोली, सामाजिक संदर्भ और क्षेत्रीय बोलियाँ शामिल हैं।
सूचना निष्कर्षण (आईई) -सूचना निष्कर्षण असंरचित से संरचित डेटा को स्वचालित रूप से निकालने का कार्य है। सामान्य मामलों में, इस गतिविधि में एनएलपी का उपयोग करके मानव भाषा के पाठों को संसाधित करना शामिल है।