टेक्स्ट माइनिंग
टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है।
इसे मानक भाषा पाठ से आवश्यक जानकारी निकालने की प्रक्रिया के रूप में परिभाषित किया जा सकता है। कुछ डेटा जो यह पाठ संदेश, रिकॉर्ड, ईमेल, फाइलों के माध्यम से उत्पन्न कर सकता है, सामान्य भाषा के पाठ में लिखे गए हैं। टेक्स्ट माइनिंग का उपयोग आम तौर पर ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न प्राप्त करने के लिए किया जाता है।
टेक्स्ट माइनिंग एक स्वचालित विधि है जो असंरचित पाठ से मूल्यवान अंतर्दृष्टि प्राप्त करने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करती है। यह डेटा को उस जानकारी में परिवर्तित कर सकता है जिसे डिवाइस सीख सकते हैं, टेक्स्ट माइनिंग भावनाओं, विषय और इरादे से टेक्स्ट को परिभाषित करने की विधि को स्वचालित करता है।
फ़िल्टरिंग और स्ट्रीमिंग के रूप में दो तरीके हैं। फ़िल्टरिंग अवांछित शब्द या प्रासंगिक डेटा को हटा सकता है। स्ट्रीमिंग शब्द संबंधित शब्दों के मूल का समर्थन करते हैं। स्ट्रीमिंग पद्धति का उपयोग करने के बाद प्रत्येक शब्द को उसके मूल नोड द्वारा परिभाषित किया जाता है।
टेक्स्ट माइनिंग का प्राथमिक लक्ष्य उपयोगकर्ताओं को टेक्स्ट-आधारित संपत्तियों से जानकारी निकालने और पुनर्प्राप्ति, निष्कर्षण, सारांशीकरण, श्रेणीकरण (पर्यवेक्षित), और क्लस्टरिंग (अनपर्यवेक्षित), सेगमेंटेशन और एसोसिएशन जैसे कार्यों को संभालने में सक्षम बनाना है।
डेटा माइनिंग
डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।
यह डेटाबेस के मालिक के लिए स्पष्ट और लाभकारी परिणाम प्राप्त करने के लिए पहले अज्ञात नियमितताओं या संबंधों को खोजने के लिए उच्च मात्रा में जानकारी के चयन, अन्वेषण और मॉडलिंग की प्रक्रिया है।
डेटा माइनिंग डेटा साइंस के समान है। यह एक व्यक्ति द्वारा, एक विशेष स्थिति में, एक विशिष्ट डेटा सेट पर, एक उद्देश्य के साथ किया जाता है। इस चरण में टेक्स्ट माइनिंग, वेब माइनिंग, ऑडियो और वीडियो माइनिंग, सचित्र डेटा माइनिंग और सोशल मीडिया माइनिंग सहित कई प्रकार की सेवाएँ शामिल हैं। यह सॉफ्टवेयर के माध्यम से पूरा होता है जो सरल या बहुत विशिष्ट होता है।
डेटा माइनिंग को आउटसोर्स करके, कम परिचालन लागत के साथ सभी काम तेजी से किए जा सकते हैं। विशिष्ट फर्म डेटा को बचाने के लिए नई तकनीकों का भी उपयोग कर सकती हैं जिन्हें मैन्युअल रूप से खोजना असंभव है। कई प्लेटफार्मों पर टन डेटा उपलब्ध है, लेकिन बहुत सीमित ज्ञान उपलब्ध है।
प्रमुख चुनौती आवश्यक डेटा निकालने के लिए डेटा का विश्लेषण करना है जिसका उपयोग किसी समस्या को हल करने या कंपनी के विकास के लिए किया जा सकता है। डेटा को माइन करने और उससे बेहतर निर्णय लेने के लिए कई गतिशील उपकरण और तकनीक उपलब्ध हैं।