Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

सूचना पुनर्प्राप्ति क्या है?

<घंटा/>

सूचना पुनर्प्राप्ति (IR) एक ऐसा क्षेत्र है जो कई वर्षों से डेटाबेस सिस्टम के समानांतर विकसित हो रहा है। डेटाबेस सिस्टम के क्षेत्र के विपरीत, जिसमें संरचित डेटा की लक्षित क्वेरी और लेनदेन प्रसंस्करण है, सूचना पुनर्प्राप्ति का संबंध कई पाठ-आधारित दस्तावेज़ों से डेटा के संगठन और पुनर्प्राप्ति से है।

चूंकि सूचना पुनर्प्राप्ति और डेटाबेस सिस्टम प्रत्येक विभिन्न प्रकार के डेटा को संभालते हैं, कुछ डेटाबेस सिस्टम समस्याएं आमतौर पर सूचना पुनर्प्राप्ति सिस्टम में मौजूद नहीं होती हैं, जैसे कि संगामिति नियंत्रण, पुनर्प्राप्ति, लेनदेन प्रबंधन और अद्यतन। कुछ सामान्य सूचना पुनर्प्राप्ति समस्याएं हैं जिनका आमतौर पर पारंपरिक डेटाबेस सिस्टम में सामना नहीं किया जाता है, जैसे कि असंरचित दस्तावेज़, कीवर्ड के आधार पर अनुमानित खोज, और प्रासंगिकता की धारणा।

टेक्स्ट डेटा की प्रचुरता के कारण, सूचना पुनर्प्राप्ति ने कई अनुप्रयोगों की खोज की है। ऑनलाइन लाइब्रेरी कैटलॉग सिस्टम, ऑनलाइन रिकॉर्ड प्रबंधन सिस्टम और वर्तमान में विकसित वेब सर्च इंजन सहित कई सूचना पुनर्प्राप्ति प्रणालियां मौजूद हैं।

एक सामान्य डेटा पुनर्प्राप्ति समस्या उपयोगकर्ता की क्वेरी के आधार पर दस्तावेज़ सेट में प्रासंगिक दस्तावेज़ों का पता लगाना है, जो अक्सर कुछ कीवर्ड होते हैं जो किसी सूचना की आवश्यकता को परिभाषित करते हैं, हालांकि यह प्रासंगिक रिकॉर्ड का एक उदाहरण भी हो सकता है।

यह तब सबसे उपयुक्त होता है जब उपयोगकर्ता को कुछ तदर्थ (अर्थात, अल्पकालिक) डेटा की आवश्यकता होती है, जिसमें पुरानी कार खरीदने के लिए डेटा ढूंढना भी शामिल है। जब किसी उपयोगकर्ता को लंबे समय तक डेटा की आवश्यकता होती है (उदाहरण के लिए, एक शोधकर्ता के हित), तो एक पुनर्प्राप्ति प्रणाली किसी भी नए आने वाले डेटा तत्वों को "पुश" करने की पहल भी कर सकती है यदि तत्व को उपयोगकर्ता के डेटा के लिए प्रासंगिक माना जाता है। जरूरत है।

पाठ पुनर्प्राप्ति की गुणवत्ता का आकलन करने के लिए दो बुनियादी उपाय हैं जो इस प्रकार हैं -

परिशुद्धता - यह पुनर्प्राप्त डेटा का प्रतिशत है जो वास्तव में क्वेरी के लिए प्रासंगिक है (यानी, "सही" प्रतिक्रियाएं)। इसे औपचारिक रूप से

. के रूप में दर्शाया जाता है

$1

याद रखें - यह उन रिकॉर्ड्स का प्रतिशत है जो क्वेरी के लिए प्रासंगिक हैं और वास्तव में पुनर्प्राप्त किए गए थे। इसे औपचारिक रूप से

. के रूप में दर्शाया जाता है

$$recall=\frac{|\left\{प्रासंगिक \दाएं\}\cap\बाएं\{ पुनः प्राप्त \दाएं\}|}{|\बाएं\{ प्रासंगिक \दाएं\}|} $$

एक सूचना पुनर्प्राप्ति प्रणाली को अक्सर सटीक या इसके विपरीत के लिए ट्रेड-ऑफ रिकॉल की आवश्यकता होती है। आमतौर पर इस्तेमाल किया जाने वाला एक ट्रेड-ऑफ एफ-स्कोर है, जिसे रिकॉल और सटीक के हार्मोनिक माध्य के रूप में दर्शाया जाता है -

$1

हार्मोनिक का अर्थ है एक ऐसी प्रणाली को परेशान करना जो एक उपाय को दूसरे के लिए भी अत्यधिक बलिदान करती है। रिकॉर्ड के पुनर्प्राप्त संग्रह के मूल उपाय सटीक, याद और एफ-स्कोर हैं। फ़ाइलों की दो रैंक वाली सूचियों की तुलना करने के लिए ये तीन उपाय आम तौर पर उपयोगी नहीं होते हैं क्योंकि वे पुनर्प्राप्त सेट में दस्तावेज़ों की आंतरिक रैंकिंग के प्रति संवेदनशील नहीं होते हैं।


  1. सूचना सुरक्षा में सूचना वर्गीकरण क्या है?

    सूचना वर्गीकरण डेटा को प्रासंगिक श्रेणियों में वर्गीकृत करने की प्रक्रिया है। उदाहरण के लिए, एक कंपनी के अंदर, जनसंपर्क विभाग के दस्तावेजों के साथ वित्तीय दस्तावेज विविध नहीं होने चाहिए। इसके बजाय, उन्हें स्वतंत्र फ़ोल्डरों में रखा जाना चाहिए, और उन जिम्मेदार व्यक्तियों तक सीमित होना चाहिए जिन्हें न

  1. सूचना सुरक्षा में एंटरप्राइज़ डेटाबेस सुरक्षा क्या है?

    एंटरप्राइज़ सुरक्षा एक बहुआयामी चिंता है जिसमें कंपनी के आंतरिक या मालिकाना व्यावसायिक रहस्य और गोपनीयता कानूनों से जुड़े कर्मचारी और उपयोगकर्ता डेटा दोनों शामिल हैं। एंटरप्राइज़ सुरक्षा व्यवहार में डेटा सेंटर, नेटवर्किंग और नेटवर्क सर्वर संचालन पर लक्षित है, लेकिन तकनीकी रूप से मानव संसाधनों से शुर

  1. सूचना सुरक्षा में एन्क्रिप्शन क्या है?

    डेटा एन्क्रिप्शन जानकारी को एक पठनीय प्रारूप से सूचना के एक तले हुए तत्व में बदलने की प्रक्रिया है। यह ट्रांज़िट में गोपनीय जानकारी पढ़ने से चुभती आँखों से बचने के लिए पूरा किया गया है। एन्क्रिप्शन का उपयोग दस्तावेज़ों, फ़ाइलों, संदेशों या नेटवर्क पर संचार के किसी भिन्न रूप में किया जा सकता है। एन्