Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

केंद्रित वेब क्रॉलर के घटक क्या हैं?

<घंटा/>

फ़ोकस किए गए वेब क्रॉलर के विभिन्न घटक हैं जो इस प्रकार हैं -

बीज डिटेक्टर -सीड डिटेक्टर की सेवा पहले n URL लाकर निश्चित कीवर्ड के लिए सीड URL तय करना है। पेजरैंक एल्गोरिथम या उसके समान हिट एल्गोरिथम या एल्गोरिथम के आधार पर सीड पेजों की पहचान की जाती है और उन्हें प्राथमिकता दी जाती है।

क्रॉलर प्रबंधक - क्रॉलर मैनेजर हाइपरटेक्स्ट एनालाइजर के बाद सिस्टम का एक अनिवार्य घटक है। घटक वैश्विक वेब से फ़ाइलें डाउनलोड करता है। URL रिपॉजिटरी में URL पुनर्प्राप्त किए जाते हैं और क्रॉलर मैनेजर में बफर में बनाए जाते हैं।

URL बफ़र एक प्राथमिकता कतार है। यह यूआरएल बफर के आकार पर निर्भर करता है, क्रॉलर मैनेजर गतिशील रूप से क्रॉलर्स के लिए एक उदाहरण बनाता है, जो फाइलों को डाउनलोड करेगा।

अधिक प्रभावशीलता के लिए, क्रॉलर प्रबंधक क्रॉलर पूल उत्पन्न कर सकता है। क्रॉलर की गति को सीमित करने और उनके बीच भार को संतुलित करने के लिए प्रबंधक भी उत्तरदायी है। यह क्रॉलर का निरीक्षण करके पूरा किया जाता है।

क्रॉलर - क्रॉलर एक मल्टी-थ्रेड जावा कोड है, जो वेब से वेब पेजों को डाउनलोड करने और दस्तावेज़ रिपॉजिटरी में फाइलों को सहेजने के लिए पर्याप्त है। प्रत्येक क्रॉलर की अपनी कतार होती है, जो क्रॉल किए जाने वाले URL की सूची को प्रभावित करती है। क्रॉलर ने क्यू से URL को पुनः प्राप्त किया।

अलग-अलग क्रॉलर ने एक समान सर्वर से अनुरोध साझा किया होगा। इसलिए एक समान सर्वर को अनुरोध भेजने से सर्वर ओवरलोड हो जाएगा। सर्वर उस अनुरोध को पूरा करने में सक्रिय है जो अनुरोध को साझा करने वाले क्रॉलर से प्रकट होना है और प्रतिक्रिया की प्रतीक्षा कर रहा है।

सर्वर सिंक्रनाइज़ बनाया गया है। यदि URL के लिए अनुरोध पहले साझा नहीं किया गया है, तो अनुरोध HTTP संरचना को अग्रेषित किया जाता है। यह प्रदान करता है कि क्रॉलर कुछ सर्वरों को अधिभारित नहीं करता है।

लिंक एक्सट्रैक्टर - लिंक एक्सट्रैक्टर दस्तावेज़ रिपॉजिटरी में मौजूद फाइलों से कनेक्शन प्राप्त करता है। URL में URL के लिए घटक परीक्षण पुनर्प्राप्त किए गए। यदि नहीं खोजा जाता है, तो हाइपरलिंक से पहले और बाद के पाठ, शीर्षक या उप-शीर्षक जिसके अंतर्गत कनेक्शन मौजूद है, निकाले जाते हैं।

हाइपरटेक्स्ट विश्लेषक - हाइपरटेक्स्ट एनालाइज़र लिंक एक्सट्रैक्टर से कीवर्ड प्राप्त करता है और टैक्सोनॉमी पदानुक्रम को परिभाषित करने वाले खोज कीवर्ड के साथ विधियों की प्रासंगिकता का पता लगाता है।

HTTP प्रोटोकॉल मॉड्यूल - HTTP प्रोटोकॉल मॉड्यूल उन फ़ाइलों के लिए अनुरोध साझा करता है जिनके URL को कतार से स्वीकार किया गया है। यह दस्तावेज़ प्राप्त होने पर, डाउनलोड किए गए दस्तावेज़ का URL टाइमस्टैम्प के साथ प्राप्त किए गए URL में संग्रहीत किया जाता है और दस्तावेज़ को दस्तावेज़ रिपॉजिटरी में संग्रहीत किया जाता है।


  1. सूचना सुरक्षा में आधुनिक ब्लॉक सिफर के घटक क्या हैं?

    एक आधुनिक ब्लॉक सिफर एक सिफर है जो सादे टेक्स्ट के एम-बिट ब्लॉक को एन्क्रिप्ट करता है और सिफरटेक्स्ट के एम-बिट ब्लॉक को डिक्रिप्ट करता है। एन्क्रिप्शन या डिक्रिप्शन के लिए, आधुनिक ब्लॉक सिफर एक K बिट कुंजी की सुविधा देता है और डिक्रिप्शन एल्गोरिथम एन्क्रिप्शन एल्गोरिदम के विपरीत होना चाहिए और एन्क्र

  1. सी टोकन क्या हैं?

    सी प्रोग्राम निर्देशों का एक संग्रह है और प्रत्येक निर्देश अलग-अलग इकाइयों का संग्रह है। C प्रोग्राम की प्रत्येक छोटी व्यक्तिगत इकाई को आम तौर पर टोकन कहा जाता है और C प्रोग्राम में प्रत्येक निर्देश टोकन का एक संग्रह होता है। टोकन का उपयोग C प्रोग्राम के निर्माण के लिए किया जाता है और उन्हें C प्र

  1. सी # में टिप्पणियां क्या हैं?

    टिप्पणियों का उपयोग कोड समझाने के लिए किया जाता है। संकलक टिप्पणी प्रविष्टियों की उपेक्षा करते हैं। C# प्रोग्राम में बहुपंक्ति टिप्पणियाँ /* से शुरू होती हैं और नीचे दिखाए गए अनुसार */ के साथ समाप्त होती हैं। बहु-पंक्ति टिप्पणियां /* The following is a mult-line comment In C# /* . में एक बहु-पंक्ति