Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

टेक्स्ट रिट्रीवल के तरीके क्या हैं?

<घंटा/>

टेक्स्ट रिट्रीवल अर्थपूर्ण पैटर्न और नई अंतर्दृष्टि की पहचान करने के लिए असंरचित टेक्स्ट को एक संरचित प्रारूप में बदलने की प्रक्रिया है। Naïve Bayes, सपोर्ट वेक्टर मशीन (SVM), और अन्य गहन शिक्षण एल्गोरिदम सहित उन्नत विश्लेषणात्मक तकनीकों का उपयोग करके, संगठन अपने असंरचित डेटा के अंदर छिपे हुए संबंधों का पता लगाने और खोजने में सक्षम हैं। टेक्स्ट रिट्रीवल के दो तरीके हैं जो इस प्रकार हैं -

दस्तावेज़ चयन -दस्तावेज़ चयन विधियों में, क्वेरी को प्रासंगिक दस्तावेज़ों को चुनने के लिए परिभाषित बाधा के रूप में माना जाता है। इस श्रेणी का एक सामान्य दृष्टिकोण बूलियन पुनर्प्राप्ति मॉडल है, जिसमें एक दस्तावेज़ को कीवर्ड के एक सेट द्वारा परिभाषित किया जाता है और उपयोगकर्ता कीवर्ड की एक बूलियन अभिव्यक्ति प्रदान करता है, जैसे कार और मरम्मत की दुकानें, चाय या कॉफी, या डेटाबेस सिस्टम लेकिन ओरेकल नहीं ।

पुनर्प्राप्ति प्रणाली ऐसी बूलियन क्वेरी ले सकती है और बूलियन अभिव्यक्ति को संतुष्ट करने वाले रिकॉर्ड लौटा सकती है। बूलियन क्वेरी के साथ आवश्यक उपयोगकर्ता के डेटा को निर्धारित करने में जटिलता के कारण, बूलियन पुनर्प्राप्ति तकनीक आमतौर पर केवल तभी अच्छी तरह से काम करती है जब उपयोगकर्ता दस्तावेज़ सेट के बारे में बहुत कुछ समझता है और इस तरह से सबसे अच्छी क्वेरी तैयार कर सकता है।

दस्तावेज़ रैंकिंग - दस्तावेज़ रैंकिंग विधियाँ प्रयोज्यता के क्रम में सभी रिकॉर्ड को रैंक करने के लिए क्वेरी का उपयोग करती हैं। सामान्य उपयोगकर्ताओं और खोजपूर्ण प्रश्नों के लिए, ये तकनीकें दस्तावेज़ चयन विधियों की तुलना में अधिक उपयुक्त हैं। अधिकांश वर्तमान डेटा पुनर्प्राप्ति प्रणालियाँ उपयोगकर्ता की कीवर्ड क्वेरी के जवाब में फ़ाइलों की एक रैंक की गई सूची प्रस्तुत करती हैं।

बीजगणित, तर्क, संभाव्यता और सांख्यिकी जैसे संख्यात्मक नींव के विशाल स्पेक्ट्रम के आधार पर कई रैंकिंग विधियां हैं। इन सभी तकनीकों के पीछे सामान्य अंतर्ज्ञान यह है कि यह क्वेरी में कीवर्ड को रिकॉर्ड में मौजूद कीवर्ड से जोड़ सकता है और प्रत्येक रिकॉर्ड को इस आधार पर स्कोर कर सकता है कि यह क्वेरी से कितनी अच्छी तरह मेल खाता है।

इसका उद्देश्य दस्तावेज़ में शब्दों की आवृत्ति और पूरे सेट सहित जानकारी के आधार पर गणना किए गए स्कोर के साथ रिकॉर्ड की प्रासंगिकता की डिग्री का अनुमान लगाना है। कीवर्ड के एक सेट के बीच प्रासंगिकता की डिग्री का सटीक माप प्रदान करना स्वाभाविक रूप से कठिन है। उदाहरण के लिए, डेटा माइनिंग और डेटा विश्लेषण के बीच की दूरी को मापना मुश्किल है।

इस पद्धति का सबसे लोकप्रिय तरीका सदिश अंतरिक्ष मॉडल है। वेक्टर स्पेस मॉडल का मूल विचार निम्नलिखित है:यह एक दस्तावेज़ और एक क्वेरी दोनों को एक उच्च-आयामी अंतरिक्ष में वैक्टर के रूप में प्रस्तुत कर सकता है जो सभी कीवर्ड से संबंधित है और क्वेरी वेक्टर और रिकॉर्ड वेक्टर के बीच समानता का मूल्यांकन करने के लिए एक उपयुक्त समानता माप का उपयोग करता है। समानता के मूल्यों का उपयोग दस्तावेजों की रैंकिंग के लिए किया जा सकता है।


  1. ऑडियो स्टेग्नोग्राफ़ी के तरीके क्या हैं?

    ऑडियो स्टेग्नोग्राफ़ी में, गुप्त संदेश को डिजीटल ऑडियो सिग्नल में स्थापित किया जाता है जिसके परिणामस्वरूप मेल खाने वाली ऑडियो फ़ाइल की बाइनरी श्रृंखला में परिवर्तन होता है। ऑडियो स्टेग्नोग्राफ़ी के लिए कई विधियाँ उपलब्ध हैं जो इस प्रकार हैं - लो-बिट एन्कोडिंग - बाइनरी जानकारी को ध्वनि फ़ाइलों के कम

  1. सूचना सुरक्षा में छवि स्टेग्नोग्राफ़ी के तरीके क्या हैं?

    छवि स्टेग्नोग्राफ़ी वास्तव में त्वरित, गतिशील कंप्यूटरों के आविष्कार के साथ अत्याधुनिक है। सॉफ्टवेयर डेटा छवियों के प्रसंस्करण और छिपाने के लिए आसानी से सुलभ है। छवियों को भी बहुत सरलता से पुनर्प्राप्त किया जा सकता है। छवियों में जानकारी छिपाने के तीन मुख्य तरीके हैं जो इस प्रकार हैं - कम से कम मह

  1. डेस की विविधताएं क्या हैं?

    डेटा एन्क्रिप्शन मानक की दो मुख्य विविधताएँ इस प्रकार हैं - डबल डेस - डबल डेस एक एन्क्रिप्शन दृष्टिकोण है जिसे एक ही सादे पाठ पर डेस के दो उदाहरणों की आवश्यकता होती है। दोनों ही उदाहरणों में यह सादे पाठ को एन्क्रिप्ट करने के लिए कई कुंजियों का उपयोग करता है। डिक्रिप्शन के समय दोनों कुंजियों की आव