Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

टेक्स्ट माइनिंग की तकनीकें क्या हैं?

<घंटा/>

टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है।

टेक्स्ट माइनिंग एक स्वचालित प्रक्रिया है जो असंरचित पाठ से मूल्यवान अंतर्दृष्टि निकालने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करती है। यह डेटा को ऐसी जानकारी में बदल सकता है जिसे डिवाइस समझ सकते हैं, टेक्स्ट माइनिंग भावनाओं, विषय और इरादे से टेक्स्ट को परिभाषित करने की प्रक्रिया को स्वचालित करता है।

टेक्स्ट माइनिंग की निम्नलिखित तकनीकें हैं जो इस प्रकार हैं -

सूचना निष्कर्षण -सूचना निष्कर्षण असंरचित पाठ का विश्लेषण करने का पहला चरण है। यह असंरचित और अर्ध-संरचित डिवाइस-पठनीय दस्तावेज़ों से संरचित डेटा को स्वचालित रूप से निकालने की सेवा है।

संक्षेपण - इस प्रक्रिया का उद्देश्य बड़ी संख्या में टेक्स्ट दस्तावेज़ों से सटीक पाठ का उद्देश्य है। स्वचालित संक्षेपण एक कंप्यूटर प्रोग्राम के साथ एक पाठ दस्तावेज़ को कम करने की प्रक्रिया है जो एक सारांश बनाने के लिए है जो प्रारंभिक दस्तावेज़ के सबसे महत्वपूर्ण बिंदुओं को बरकरार रखता है। स्वचालित डेटा संक्षेपण मशीन लर्निंग और डेटा माइनिंग का एक तत्व है।

विषय ट्रैकिंग - विषय ट्रैकिंग संरचना की अवधारणा पिछली खोजों के आधार पर उपयोगकर्ता प्रोफाइल का समर्थन करना है और उपयोगकर्ता प्रोफाइल के आधार पर अन्य दस्तावेजों का बहुत कुशलता से अनुमान लगाना है।

टेक्स्ट माइनिंग एक ऐसा क्षेत्र है जो असंरचित टेक्स्ट डेटा से पहले अज्ञात और उपयोगी डेटा को स्वचालित रूप से निकालता है। इसका प्राकृतिक भाषा प्रसंस्करण के साथ शक्तिशाली संबंध हैं। विषय ट्रैकिंग उन तकनीकों में से एक है जिसे बनाया गया है और पाठ खनन प्रक्रिया में उपयोग किया जा सकता है।

वर्गीकरण - यह मेटाडेटा डालने और दस्तावेज़ का विश्लेषण करके फाइलों के मुख्य विषय की खोज करने की प्रक्रिया है। यह विधि शब्दों की गिनती ढूंढती है और उस गिनती से फाइलों का विषय तय करती है। इस प्रक्रिया में, टेक्स्ट दस्तावेज़ों को पूर्वनिर्धारित क्लास लेबल में वर्गीकृत किया जाता है।

वर्गीकरण - टेक्स्ट वर्गीकरण मुक्त-पाठ दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों को निर्दिष्ट करने का कार्य है। यह दस्तावेज़ सेट के वैचारिक विचारों का समर्थन कर सकता है और वास्तविक दुनिया में महत्वपूर्ण सॉफ़्टवेयर रखता है।

क्लस्टरिंग - क्लस्टरिंग को सबसे आवश्यक अनुपयोगी शिक्षण समस्या माना जा सकता है; इसलिए, इस प्रकार के एक-दूसरे के मुद्दों की तरह, यह बिना लेबल वाले डेटा के एक सेट में एक संरचना की खोज से संबंधित है।

अवधारणा लिंकेज - टेक्स्ट माइनिंग संबंधित दस्तावेज़ को खोजने के लिए तकनीक अवधारणा लिंकेज का उपयोग करता है। यह तंत्र खोज के बजाय दस्तावेज़ों को ब्राउज़ करता है। यह संबंधित दस्तावेजों को लिंक करने की सुविधा प्रदान करता है।

प्राकृतिक भाषा संसाधन -प्राकृतिक भाषा कुछ और नहीं बल्कि मानव भाषा है और जो कंप्यूटर भाषा के साथ संसाधित होती है, इस पूरी बातचीत को प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कहा जाता है। एनएलपी का मुख्य लक्ष्य ऐसी कंप्यूटर प्रणाली का डिजाइन और निर्माण करना है जो एनएलपी की जांच, समझ और उत्पादन करेगी।


  1. वेब माइनिंग के अनुप्रयोग क्या हैं?

    वेब माइनिंग डेटा माइनिंग तकनीकों का उपयोग करने की प्रक्रिया को परिभाषित करता है, जो वेब-आधारित रिकॉर्ड्स और सेवाओं, सर्वर लॉग्स, सर्वर लॉग्स, और हाइपरलिंक। वेब माइनिंग का उद्देश्य महत्वपूर्ण अंतर्दृष्टि प्राप्त करने के लिए डेटा को समूहीकृत और विश्लेषण करके वेब जानकारी में डिज़ाइन की खोज करना है। वे

  1. सूचना सुरक्षा में टेक्स्ट स्टेग्नोग्राफ़ी की तकनीकें क्या हैं?

    स्टेग्नोग्राफ़ी किसी संदेश को दूसरे संदेश के भीतर छुपाने की कला और विज्ञान है, ताकि दूसरों पर कोई संदेह न हो ताकि संदेश को उसके इच्छित प्राप्तकर्ता द्वारा ही पहचाना जा सके। टेक्स्ट स्टेग्नोग्राफ़ी की विभिन्न तकनीकें हैं जो इस प्रकार हैं - लाइन-शिफ्ट कोडिंग - विशेषताओं को पाठ में लाइनों को बदलकर चि

  1. डेस की विविधताएं क्या हैं?

    डेटा एन्क्रिप्शन मानक की दो मुख्य विविधताएँ इस प्रकार हैं - डबल डेस - डबल डेस एक एन्क्रिप्शन दृष्टिकोण है जिसे एक ही सादे पाठ पर डेस के दो उदाहरणों की आवश्यकता होती है। दोनों ही उदाहरणों में यह सादे पाठ को एन्क्रिप्ट करने के लिए कई कुंजियों का उपयोग करता है। डिक्रिप्शन के समय दोनों कुंजियों की आव