Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

टेक्स्ट इंडेक्सिंग की तकनीकें क्या हैं?

<घंटा/>

कई लोकप्रिय पाठ पुनर्प्राप्ति अनुक्रमण तकनीकें हैं जैसे उल्टे सूचकांक और हस्ताक्षर फ़ाइलें।

उल्टा सूचकांक - एक उलटा सूचकांक एक सूचकांक संरचना है जो दो हैश अनुक्रमित या बी + - पेड़ अनुक्रमित तालिकाओं को बनाए रखता है:दस्तावेज़_टेबल और टर्म_टेबल, जहां दस्तावेज़_टेबल में दस्तावेज़ रिकॉर्ड का एक सेट होता है, प्रत्येक में दो फ़ील्ड शामिल होते हैं:doc_id और पोस्टिंग_लिस्ट, जहां पोस्टिंग_लिस्ट विधियों की एक सूची है (या विधियों के संकेत) जो दस्तावेज़ में दिखाई देते हैं, कुछ प्रासंगिकता माप के अनुसार व्यवस्थित होते हैं।

टर्म_टेबल में टर्म रिकॉर्ड का एक सेट शामिल है, प्रत्येक में दो फ़ील्ड शामिल हैं:टर्म_आईडी और पोस्टिंग_लिस्ट, जहां पोस्टिंग_लिस्ट रिकॉर्ड पहचानकर्ताओं की एक सूची निर्दिष्ट करता है जिसमें शब्द होता है।

यह दिए गए शर्तों के सेट से जुड़े सभी दस्तावेज़ ढूंढ सकता है। इसका उपयोग दस्तावेजों के दिए गए सेट से जुड़े सभी शब्दों को खोजने के लिए किया जाता है। उदाहरण के लिए, यह शर्तों के एक समूह से जुड़े सभी दस्तावेज़ ढूंढ सकता है, हम पहले प्रत्येक शब्द के लिए शब्द तालिका में दस्तावेज़ पहचानकर्ताओं की एक सूची ढूंढ सकते हैं, और फिर प्रासंगिक रिकॉर्ड का संग्रह प्राप्त करने के लिए उन्हें प्रतिच्छेद कर सकते हैं।

उल्टे सूचकांकों का व्यापक रूप से बाजार में उपयोग किया जाता है। वे निष्पादित करने के लिए सरल हैं। पोस्टिंग सूचियां काफी लंबी हो सकती हैं, जिससे भंडारण की आवश्यकता काफी बड़ी हो जाती है। वे लागू करने के लिए सरल हैं लेकिन समानार्थी (जहां दो अलग-अलग शब्दों के समान अर्थ हो सकते हैं) और पॉलीसेमी (जहां एक शब्द के कई अर्थ हो सकते हैं) के प्रबंधन में संतोषजनक नहीं हैं।

एक हस्ताक्षर फ़ाइल एक फ़ाइल है जो डेटाबेस में प्रत्येक रिकॉर्ड के लिए हस्ताक्षर डेटा सहेजती है। प्रत्येक हस्ताक्षर में शर्तों को परिभाषित करने वाले बी बिट्स का निरंतर आकार होता है। एक साधारण एन्कोडिंग डिज़ाइन इस प्रकार है। रिकॉर्ड हस्ताक्षर का प्रत्येक बिट 0 से शुरू होता है।

एक बिट को 1 पर सेट किया जाता है यदि यह परिभाषित शब्द रिकॉर्ड में दिखाई देता है। एक हस्ताक्षर एस1 दूसरे हस्ताक्षर S2 . से मेल खाता है यदि प्रत्येक बिट जो हस्ताक्षर S2 . में सेट है S1 . में भी सेट है . चूंकि आम तौर पर उपलब्ध बिट्स की तुलना में अधिक शब्द होते हैं, इसलिए कई शब्दों को एक समान बिट में मैप किया जा सकता है।

इस तरह के एकाधिक-से-एक मैपिंग खोज को महंगा बनाते हैं क्योंकि किसी क्वेरी के हस्ताक्षर को जोड़ने वाले रिकॉर्ड में क्वेरी के कीवर्ड का सेट शामिल नहीं होता है। रिकॉर्ड्स को पुनर्प्राप्त, पार्स, स्टेम और परीक्षण किया जाना है। पहले आवृत्ति विश्लेषण, स्टेमिंग, और स्टॉप शब्दों को फ़िल्टर करके सुधार किया जा सकता है, और फिर हैशिंग विधियों और सुपरिम्पोज्ड कोडिंग तकनीकों का उपयोग करके बिट प्रतिनिधित्व में विधियों की सूची को एन्कोड किया जा सकता है।

  1. डेटा एन्क्रिप्शन की तकनीकें क्या हैं?

    डेटा एन्क्रिप्शन की कुछ तकनीकें इस प्रकार हैं - देस - DES का मतलब डेटा एन्क्रिप्शन स्टैंडर्ड है। डेटा एन्क्रिप्शन स्टैंडर्ड (डीईएस) एल्गोरिदम का आविष्कार आईबीएम ने 1970 के दशक की शुरुआत में किया था। यह 64-बिट ब्लॉक में प्लेनटेक्स्ट को स्वीकार करता है और इसे सिफरटेक्स्ट में बदल देता है जिसे जानकारी

  1. डेस की विविधताएं क्या हैं?

    डेटा एन्क्रिप्शन मानक की दो मुख्य विविधताएँ इस प्रकार हैं - डबल डेस - डबल डेस एक एन्क्रिप्शन दृष्टिकोण है जिसे एक ही सादे पाठ पर डेस के दो उदाहरणों की आवश्यकता होती है। दोनों ही उदाहरणों में यह सादे पाठ को एन्क्रिप्ट करने के लिए कई कुंजियों का उपयोग करता है। डिक्रिप्शन के समय दोनों कुंजियों की आव

  1. Monoalphabetic सिफर की तकनीकें क्या हैं?

    Monoalphabetic cipher की विभिन्न तकनीकें हैं जो इस प्रकार हैं - एडिटिव सिफर - एडिटिव सिफर वर्णमाला के अक्षरों के क्रमपरिवर्तन को बदलने की एक विधि है। वर्णमाला के प्रत्येक अक्षर को चक्रीय रूप से बराबर मात्रा में बदला जाता है और अक्षरों के सापेक्ष क्रम को समान रखा जाता है। पत्र को जिस स्थिति में परि