Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

डेटा माइनिंग में टेक्स्ट माइनिंग के क्षेत्र क्या हैं?

<घंटा/>

टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है।

इसे मानक भाषा पाठ से महत्वपूर्ण जानकारी निकालने की प्रक्रिया के रूप में परिभाषित किया गया है। कुछ डेटा जो यह पाठ संदेश, रिकॉर्ड, ईमेल, फाइलों के माध्यम से उत्पन्न कर सकता है, सामान्य भाषा के पाठ में लिखे गए हैं। टेक्स्ट माइनिंग का उपयोग आम तौर पर ऐसे डेटा से लाभकारी अंतर्दृष्टि या पैटर्न प्राप्त करने के लिए किया जाता है।

डेटा माइनिंग में टेक्स्ट माइनिंग के निम्नलिखित क्षेत्र हैं जो इस प्रकार हैं -

सूचना पुनर्प्राप्ति -सूचना पुनर्प्राप्ति को फ़ाइल पुनर्प्राप्ति के अतिरिक्त माना जाता है और घोषित किए गए ग्रंथों को समेकित करने के लिए संसाधित किया जाता है। इसलिए दस्तावेज़ पुनर्प्राप्ति के बाद टेक्स्ट सारांशीकरण प्रक्रिया होती है और उपयोगकर्ता द्वारा औपचारिक क्वेरी पर लक्षित होती है।

IR सिस्टम एक विशिष्ट समस्या के लिए प्रासंगिक रिकॉर्ड के सेट को कम करने का समर्थन करते हैं। टेक्स्ट माइनिंग में उदार दस्तावेज़ संग्रह के लिए बहुत जटिल एल्गोरिदम का उपयोग करना शामिल है। साथ ही, IR दस्तावेज़ों की संख्या को कम करके विश्लेषण को महत्वपूर्ण रूप से आगे बढ़ा सकता है।

डेटा माइनिंग - डेटा माइनिंग सांख्यिकीय और गणितीय तकनीकों सहित पैटर्न पहचान तकनीकों का उपयोग करके, रिपॉजिटरी में सहेजे गए डेटा की एक उच्च मात्रा के माध्यम से उपयोगी नए सहसंबंध, पैटर्न और प्रवृत्तियों को खोजने की प्रक्रिया है। यह अनपेक्षित संबंधों की खोज करने के लिए तथ्यात्मक डेटासेट का विश्लेषण है और डेटा स्वामी के लिए तार्किक और सहायक दोनों तरह के नए तरीकों में रिकॉर्ड को सारांशित करना है।

डेटा माइनिंग में, डेटा के छिपे हुए पैटर्न को कई श्रेणियों के अनुसार उपयोगी डेटा के एक टुकड़े में माना जाता है। इस डेटा को विश्लेषण के लिए डेटा वेयरहाउस सहित एक क्षेत्र में इकट्ठा किया जाता है, और डेटा माइनिंग एल्गोरिदम का प्रदर्शन किया जाता है। यह डेटा प्रभावी निर्णय लेने में मदद करता है जो मूल्य में कटौती करते हैं और राजस्व में वृद्धि करते हैं।

प्राकृतिक भाषा संसाधन (एनएलपी) -एनएलपी मानव भाषा की कला है। टेक्स्ट माइनिंग में एनएलपी का उद्देश्य डेटा निष्कर्षण प्रक्रिया में सिस्टम को इनपुट के रूप में वितरित करना है।

एनएलपी एप्लिकेशन का विकास कठिन है क्योंकि कंप्यूटर को आमतौर पर मनुष्यों को एक प्रोग्रामिंग भाषा में "बोलने" की आवश्यकता होती है जो विशिष्ट, मुफ्त और असाधारण रूप से संरचित होती है। मानव भाषण नियमित रूप से प्रामाणिक नहीं होता है, इसलिए यह कई जटिल चरों पर आधारित हो सकता है, जिसमें कठबोली, सामाजिक संदर्भ और क्षेत्रीय बोलियाँ शामिल हैं।

सूचना निष्कर्षण (आईई) -सूचना निष्कर्षण असंरचित से संरचित डेटा को स्वचालित रूप से निकालने का कार्य है। सामान्य मामलों में, इस गतिविधि में एनएलपी का उपयोग करके मानव भाषा के पाठों को संसाधित करना शामिल है।


  1. डेटा माइनिंग में OLAP संचालन क्या हैं?

    OLAP,ऑन-लाइन विश्लेषणात्मक प्रसंस्करण के लिए खड़ा है। OLAP सॉफ्टवेयर प्रौद्योगिकी का एक तत्व है जो विश्लेषकों, प्रबंधकों और अधिकारियों को डेटा के संभावित विचारों की एक विस्तृत विविधता में तेज, सुसंगत, इंटरैक्टिव एक्सेस के माध्यम से डेटा में अंतर्दृष्टि प्राप्त करने के लिए अधिकृत करता है, जिसे वास्तव

  1. डेटा माइनिंग में OLAP टूल्स क्या हैं?

    OLAP टूल की तीन मुख्य श्रेणियां हैं जो इस प्रकार हैं - मोलैप - MOLAP बहुआयामी OLAP का प्रतिनिधित्व करता है। यह डेटा स्टोरेज यूनिट के रूप में टुपल्स को सपोर्ट करता है। MOLAP डेटा को संभालने के लिए एक समर्पित n-आयामी सरणी भंडारण इंजन और OLAP मिडलवेयर लागू करता है। इसलिए, OLAP प्रश्नों को संबंधित बहुआ

  1. वेब माइनिंग के तरीके क्या हैं?

    वेब माइनिंग सीखने या ज्ञान प्राप्त करने के लक्ष्यों के लिए वेब-आधारित डेटा के लिए मशीन लर्निंग (डेटा माइनिंग) दृष्टिकोण का अनुप्रयोग है। वेब माइनिंग के तरीकों को तीन अलग-अलग तत्वों में से एक में परिभाषित किया जा सकता है जो इस प्रकार हैं - वेब उपयोग खनन - वेब यूसेज माइनिंग एक तरह का वेब माइनिंग है ज