Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

टेक्स्ट डेटा माइनिंग क्या है?

<घंटा/>

टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है।

इसे मानक भाषा पाठ से महत्वपूर्ण जानकारी प्राप्त करने की प्रक्रिया के रूप में परिभाषित किया गया है। कुछ डेटा जो यह पाठ संदेश, रिकॉर्ड, ईमेल, फाइलों के माध्यम से उत्पन्न कर सकता है, सामान्य भाषा के पाठ में लिखे गए हैं। यह आमतौर पर ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न बनाने के लिए उपयोग किया जाता है।

टेक्स्ट माइनिंग एक स्वचालित विधि है जो असंरचित पाठ से मूल्यवान अंतर्दृष्टि प्राप्त करने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करती है। यह डेटा को उस जानकारी में परिवर्तित कर सकता है जिसे डिवाइस सीख सकते हैं, टेक्स्ट माइनिंग भावनाओं, विषय और इरादे के आधार पर टेक्स्ट को वर्गीकृत करने की विधि को स्वचालित करता है।

टेक्स्ट डेटा माइनिंग में, इसका उपयोग टेक्स्ट डेटा पर किया जाता है। यह पाठ्य सूचना को पढ़ और विश्लेषण कर सकता है। टेक्स्ट माइनिंग में, पैटर्न को असंरचित डेटा या प्राकृतिक भाषा टेक्स्ट से निकाला जाता है। टेक्स्ट माइनिंग में, इनपुट असंरचित टेक्स्ट होता है और फिर आउटपुट स्ट्रक्चर्ड टेक्स्ट होता है।

टेक्स्ट माइनिंग में टेक्स्ट दस्तावेज़ों का एक सेट शामिल है जो पीडीएफ, डॉक्टर, डॉक्स, टीएक्सटी, आदि के रूप में हैं। दस्तावेज़ प्राप्त करने के बाद, टेक्स्ट के प्री-प्रोसेसिंग (एनएलटी - प्राकृतिक भाषा टेक्स्ट की तुलना) और फिर टेक्स्ट माइनिंग दृष्टिकोण का उपयोग करके। इस प्रकार, पाठ दस्तावेज़ का विश्लेषण करने से अंत में ज्ञान प्राप्त होता है।

फ़िल्टरिंग और स्ट्रीमिंग के रूप में दो विधियाँ शामिल हैं। फ़िल्टर करने से अवांछित शब्द या प्रासंगिक जानकारी निकल सकती है। स्ट्रीमिंग शब्द संबंधित शब्दों के लिए मूल प्रदान करते हैं। स्ट्रीमिंग पद्धति का उपयोग करने के बाद प्रत्येक शब्द को उसके मूल नोड द्वारा डिज़ाइन किया जाता है।

टेक्स्ट माइनिंग एक ऐसा क्षेत्र है जो व्यावसायिक अनुप्रयोगों के लिए गोद लेने में एक अप्रत्याशित विस्फोट है। गोद लेने में विस्फोट टीएम के बारे में बढ़ी हुई जानकारी और कम कीमत बिंदुओं से शुरू होता है जिस पर टीएम उपकरण आज उपलब्ध हैं।

असंरचित पाठ्य डेटा का मैन्युअल विश्लेषण अधिक अव्यावहारिक है, और तदनुसार, डेटा के विश्लेषण की प्रक्रिया को स्वचालित करने के लिए टेक्स्ट माइनिंग विधियों को विकसित किया जा रहा है।

टेक्स्ट माइनिंग का प्राथमिक उद्देश्य उपयोगकर्ताओं को टेक्स्ट आधारित संपत्तियों से रिकॉर्ड निकालने की अनुमति देना है और पुनर्प्राप्ति, निष्कर्षण, सारांशीकरण, वर्गीकरण (पर्यवेक्षित), और क्लस्टरिंग (अनपर्यवेक्षित), सेगमेंटेशन और एसोसिएशन जैसी सेवाओं को संभालना है।

टेक्स्ट माइनिंग को अपनाने के बाद मुख्य कारण व्यापार उद्योग में अधिक शक्तिशाली प्रतिस्पर्धा है, कई संगठन अन्य संगठनों के साथ खेलने के लिए मूल्य वर्धित समाधान चाहते हैं। व्यवसाय में पूर्णता बढ़ाने और उपयोगकर्ता के दृष्टिकोण को बदलने के साथ, संगठनों को एक समाधान प्राप्त करने के लिए भारी निवेश मिल रहा है जो प्रतिस्पर्धा में सुधार के लिए उपयोगकर्ता और प्रतिकूल डेटा का विश्लेषण करने में सक्षम है।


  1. टेम्पोरल डेटा माइनिंग क्या है?

    अस्थायी डेटा खनन अस्थायी डेटा के बड़े सेट से गैर-तुच्छ, निहित और संभावित रूप से आवश्यक डेटा के निष्कर्षण की प्रक्रिया को परिभाषित करता है। अस्थायी डेटा प्राथमिक डेटा प्रकारों की एक श्रृंखला है, आम तौर पर संख्यात्मक मान, और यह अस्थायी डेटा से लाभकारी ज्ञान एकत्र करने से संबंधित है। अस्थायी डेटा माइन

  1. Spatiotemporal डेटा माइनिंग क्या है?

    Spatiotemporal डेटा माइनिंग, spatiotemporal डेटा से पैटर्न और ज्ञान खोजने की प्रक्रिया को परिभाषित करता है। स्पोटियोटेम्पोरल डेटा माइनिंग के एक उदाहरण में शहरों और भूमि के विकास के इतिहास का पता लगाना, मौसम के डिजाइन को उजागर करना, भूकंप और तूफान की भविष्यवाणी करना और ग्लोबल वार्मिंग के रुझान तय करन

  1. MySQL में टेक्स्ट डेटा टाइप क्या है?

    TEXT डेटा ऑब्जेक्ट एक MySQL डेटाबेस में लंबी-फ़ॉर्म टेक्स्ट स्ट्रिंग्स को संग्रहीत करने के लिए उपयोगी होते हैं। TEXT डेटा प्रकार के बारे में कुछ बिंदु निम्नलिखित हैं - TEXT, उच्च क्षमता वाले कैरेक्टर स्टोरेज के रूप में लक्षित कॉलम प्रकार का परिवार है। वास्तविक टेक्स्ट कॉलम प्रकार चार प्रकार का होता