टेक्स्ट इंडेक्सिंग की तकनीकें क्या हैं?

<घंटा/>

कई लोकप्रिय पाठ पुनर्प्राप्ति अनुक्रमण तकनीकें हैं जैसे उल्टे सूचकांक और हस्ताक्षर फ़ाइलें।

उल्टा सूचकांक - एक उलटा सूचकांक एक सूचकांक संरचना है जो दो हैश अनुक्रमित या बी + - पेड़ अनुक्रमित तालिकाओं को बनाए रखता है:दस्तावेज़_टेबल और टर्म_टेबल, जहां दस्तावेज़_टेबल में दस्तावेज़ रिकॉर्ड का एक सेट होता है, प्रत्येक में दो फ़ील्ड शामिल होते हैं:doc_id और पोस्टिंग_लिस्ट, जहां पोस्टिंग_लिस्ट विधियों की एक सूची है (या विधियों के संकेत) जो दस्तावेज़ में दिखाई देते हैं, कुछ प्रासंगिकता माप के अनुसार व्यवस्थित होते हैं।

टर्म_टेबल में टर्म रिकॉर्ड का एक सेट शामिल है, प्रत्येक में दो फ़ील्ड शामिल हैं:टर्म_आईडी और पोस्टिंग_लिस्ट, जहां पोस्टिंग_लिस्ट रिकॉर्ड पहचानकर्ताओं की एक सूची निर्दिष्ट करता है जिसमें शब्द होता है।

यह दिए गए शर्तों के सेट से जुड़े सभी दस्तावेज़ ढूंढ सकता है। इसका उपयोग दस्तावेजों के दिए गए सेट से जुड़े सभी शब्दों को खोजने के लिए किया जाता है। उदाहरण के लिए, यह शर्तों के एक समूह से जुड़े सभी दस्तावेज़ ढूंढ सकता है, हम पहले प्रत्येक शब्द के लिए शब्द तालिका में दस्तावेज़ पहचानकर्ताओं की एक सूची ढूंढ सकते हैं, और फिर प्रासंगिक रिकॉर्ड का संग्रह प्राप्त करने के लिए उन्हें प्रतिच्छेद कर सकते हैं।

उल्टे सूचकांकों का व्यापक रूप से बाजार में उपयोग किया जाता है। वे निष्पादित करने के लिए सरल हैं। पोस्टिंग सूचियां काफी लंबी हो सकती हैं, जिससे भंडारण की आवश्यकता काफी बड़ी हो जाती है। वे लागू करने के लिए सरल हैं लेकिन समानार्थी (जहां दो अलग-अलग शब्दों के समान अर्थ हो सकते हैं) और पॉलीसेमी (जहां एक शब्द के कई अर्थ हो सकते हैं) के प्रबंधन में संतोषजनक नहीं हैं।

एक हस्ताक्षर फ़ाइल एक फ़ाइल है जो डेटाबेस में प्रत्येक रिकॉर्ड के लिए हस्ताक्षर डेटा सहेजती है। प्रत्येक हस्ताक्षर में शर्तों को परिभाषित करने वाले बी बिट्स का निरंतर आकार होता है। एक साधारण एन्कोडिंग डिज़ाइन इस प्रकार है। रिकॉर्ड हस्ताक्षर का प्रत्येक बिट 0 से शुरू होता है।

एक बिट को 1 पर सेट किया जाता है यदि यह परिभाषित शब्द रिकॉर्ड में दिखाई देता है। एक हस्ताक्षर एस₁ दूसरे हस्ताक्षर S₂ . से मेल खाता है यदि प्रत्येक बिट जो हस्ताक्षर S₂ . में सेट है S₁ . में भी सेट है . चूंकि आम तौर पर उपलब्ध बिट्स की तुलना में अधिक शब्द होते हैं, इसलिए कई शब्दों को एक समान बिट में मैप किया जा सकता है।

इस तरह के एकाधिक-से-एक मैपिंग खोज को महंगा बनाते हैं क्योंकि किसी क्वेरी के हस्ताक्षर को जोड़ने वाले रिकॉर्ड में क्वेरी के कीवर्ड का सेट शामिल नहीं होता है। रिकॉर्ड्स को पुनर्प्राप्त, पार्स, स्टेम और परीक्षण किया जाना है। पहले आवृत्ति विश्लेषण, स्टेमिंग, और स्टॉप शब्दों को फ़िल्टर करके सुधार किया जा सकता है, और फिर हैशिंग विधियों और सुपरिम्पोज्ड कोडिंग तकनीकों का उपयोग करके बिट प्रतिनिधित्व में विधियों की सूची को एन्कोड किया जा सकता है।