सूचना पुनर्प्राप्ति (IR) एक ऐसा क्षेत्र है जो कई वर्षों से डेटाबेस सिस्टम के समानांतर विकसित हो रहा है। डेटाबेस सिस्टम के क्षेत्र के विपरीत, जिसमें संरचित डेटा की लक्षित क्वेरी और लेनदेन प्रसंस्करण है, सूचना पुनर्प्राप्ति का संबंध कई पाठ-आधारित दस्तावेज़ों से डेटा के संगठन और पुनर्प्राप्ति से है।
चूंकि सूचना पुनर्प्राप्ति और डेटाबेस सिस्टम प्रत्येक विभिन्न प्रकार के डेटा को संभालते हैं, कुछ डेटाबेस सिस्टम समस्याएं आमतौर पर सूचना पुनर्प्राप्ति सिस्टम में मौजूद नहीं होती हैं, जैसे कि संगामिति नियंत्रण, पुनर्प्राप्ति, लेनदेन प्रबंधन और अद्यतन। कुछ सामान्य सूचना पुनर्प्राप्ति समस्याएं हैं जिनका आमतौर पर पारंपरिक डेटाबेस सिस्टम में सामना नहीं किया जाता है, जैसे कि असंरचित दस्तावेज़, कीवर्ड के आधार पर अनुमानित खोज, और प्रासंगिकता की धारणा।
टेक्स्ट डेटा की प्रचुरता के कारण, सूचना पुनर्प्राप्ति ने कई अनुप्रयोगों की खोज की है। ऑनलाइन लाइब्रेरी कैटलॉग सिस्टम, ऑनलाइन रिकॉर्ड प्रबंधन सिस्टम और वर्तमान में विकसित वेब सर्च इंजन सहित कई सूचना पुनर्प्राप्ति प्रणालियां मौजूद हैं।
एक सामान्य डेटा पुनर्प्राप्ति समस्या उपयोगकर्ता की क्वेरी के आधार पर दस्तावेज़ सेट में प्रासंगिक दस्तावेज़ों का पता लगाना है, जो अक्सर कुछ कीवर्ड होते हैं जो किसी सूचना की आवश्यकता को परिभाषित करते हैं, हालांकि यह प्रासंगिक रिकॉर्ड का एक उदाहरण भी हो सकता है।
यह तब सबसे उपयुक्त होता है जब उपयोगकर्ता को कुछ तदर्थ (अर्थात, अल्पकालिक) डेटा की आवश्यकता होती है, जिसमें पुरानी कार खरीदने के लिए डेटा ढूंढना भी शामिल है। जब किसी उपयोगकर्ता को लंबे समय तक डेटा की आवश्यकता होती है (उदाहरण के लिए, एक शोधकर्ता के हित), तो एक पुनर्प्राप्ति प्रणाली किसी भी नए आने वाले डेटा तत्वों को "पुश" करने की पहल भी कर सकती है यदि तत्व को उपयोगकर्ता के डेटा के लिए प्रासंगिक माना जाता है। जरूरत है।
पाठ पुनर्प्राप्ति की गुणवत्ता का आकलन करने के लिए दो बुनियादी उपाय हैं जो इस प्रकार हैं -
परिशुद्धता - यह पुनर्प्राप्त डेटा का प्रतिशत है जो वास्तव में क्वेरी के लिए प्रासंगिक है (यानी, "सही" प्रतिक्रियाएं)। इसे औपचारिक रूप से
. के रूप में दर्शाया जाता है$1
याद रखें - यह उन रिकॉर्ड्स का प्रतिशत है जो क्वेरी के लिए प्रासंगिक हैं और वास्तव में पुनर्प्राप्त किए गए थे। इसे औपचारिक रूप से
. के रूप में दर्शाया जाता है$$recall=\frac{|\left\{प्रासंगिक \दाएं\}\cap\बाएं\{ पुनः प्राप्त \दाएं\}|}{|\बाएं\{ प्रासंगिक \दाएं\}|} $$
एक सूचना पुनर्प्राप्ति प्रणाली को अक्सर सटीक या इसके विपरीत के लिए ट्रेड-ऑफ रिकॉल की आवश्यकता होती है। आमतौर पर इस्तेमाल किया जाने वाला एक ट्रेड-ऑफ एफ-स्कोर है, जिसे रिकॉल और सटीक के हार्मोनिक माध्य के रूप में दर्शाया जाता है -
$1
हार्मोनिक का अर्थ है एक ऐसी प्रणाली को परेशान करना जो एक उपाय को दूसरे के लिए भी अत्यधिक बलिदान करती है। रिकॉर्ड के पुनर्प्राप्त संग्रह के मूल उपाय सटीक, याद और एफ-स्कोर हैं। फ़ाइलों की दो रैंक वाली सूचियों की तुलना करने के लिए ये तीन उपाय आम तौर पर उपयोगी नहीं होते हैं क्योंकि वे पुनर्प्राप्त सेट में दस्तावेज़ों की आंतरिक रैंकिंग के प्रति संवेदनशील नहीं होते हैं।