Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> प्रोग्रामिंग

केंद्रित वेब क्रॉलर क्या हैं?

<घंटा/>

एक केंद्रित वेब क्रॉलर एक हाइपरटेक्स्ट सिस्टम है जो वेब के अपेक्षाकृत संकीर्ण खंड को परिभाषित करने वाले विषयों के एक निश्चित सेट पर पृष्ठों की जांच, अधिग्रहण, अनुक्रमण और समर्थन करता है। इसके लिए हार्डवेयर और वेब संसाधनों में बहुत कम निवेश की आवश्यकता होती है और फिर भी एक त्वरित दर पर सम्मानजनक कवरेज का प्रबंधन करता है, केवल इसलिए कि करने के लिए अपेक्षाकृत छोटा है।

फ़ोकस किए गए वेब क्रॉलर का संचालन एक क्लासिफ़ायर द्वारा किया जाता है जो एक विषय वर्गीकरण में एम्बेड किए गए उदाहरणों से प्रासंगिकता की पहचान करना सीखता है, और एक डिस्टिलर जो इंटरनेट पर सामयिक सहूलियत बिंदुओं को पहचानता है।

लक्षित वेब क्रॉलर किसी लक्षित विषय के लिए विशिष्ट वेब पृष्ठों को क्रॉल करने के लिए लंबवत खोज इंजन का उपयोग करते हैं। प्राप्त किए गए प्रत्येक पृष्ठ को पूर्वनिर्धारित लक्ष्य विषय(विषयों) में वर्गीकृत किया गया है। यदि पृष्ठ के विषय पर होने की भविष्यवाणी की जाती है, तो उसके लिंक निकाले जाते हैं और उन्हें URL कतार में जोड़ दिया जाता है।

अन्यथा, क्रॉलिंग प्रक्रिया इस पृष्ठ से आगे नहीं बढ़ती है। इस तरह के केंद्रित वेब क्रॉलर को "पूर्ण-पृष्ठ" केंद्रित वेब क्रॉलर के रूप में जाना जाता है क्योंकि यह पूर्ण पृष्ठ सामग्री को वर्गीकृत करता है। दूसरे शब्द में, पृष्ठ पर सभी कनेक्शनों का संदर्भ पूर्ण पृष्ठ सामग्री ही है।

इस प्रकार का वेब क्रॉलर वर्ल्ड वाइड वेब के विशाल भंडार से डेटा की त्वरित और अधिक प्रासंगिक पुनर्प्राप्ति की बुनियादी आवश्यकता को प्राप्त करने में हमारी मदद करने के लिए अधिक प्रभावी ढंग से अनुक्रमण बनाता है। कई खोज इंजनों ने इस पद्धति का उपयोग करना शुरू कर दिया है ताकि उपयोगकर्ताओं को अधिक समृद्ध अनुभव प्रदान किया जा सके, जबकि वेब सामग्री को सीधे उनकी हिट संख्या में वृद्धि की जा सके।

हाइपरटेक्स्ट एनालाइज़र के बाद क्रॉलर मैनेजर सिस्टम का एक महत्वपूर्ण तत्व है। घटक वैश्विक वेब से फ़ाइलें डाउनलोड करता है। URL रिपॉजिटरी में URL पुनर्प्राप्त किए जाते हैं और क्रॉलर मैनेजर में बफर में बनाए जाते हैं।

URL बफ़र एक प्राथमिकता कतार है। यह यूआरएल बफर के आकार पर निर्भर करता है, क्रॉलर प्रबंधक गतिशील रूप से क्रॉलर के लिए एक उदाहरण बनाता है, जो फाइलों को डाउनलोड करेगा। अधिक प्रभावशीलता के लिए, क्रॉलर प्रबंधक क्रॉलर पूल उत्पन्न कर सकता है। क्रॉलर की गति को सीमित करने और उनके बीच भार को संतुलित करने के लिए प्रबंधक भी उत्तरदायी है। यह क्रॉलर का निरीक्षण करके पूरा किया जाता है।

क्रॉलर एक बहु-थ्रेड जावा कोड है, जो इंटरनेट से वेब पेजों को डाउनलोड करने और दस्तावेज़ रिपॉजिटरी में फ़ाइलों को सहेजने के लिए पर्याप्त है। प्रत्येक क्रॉलर की अपनी कतार होती है, जो क्रॉल किए जाने वाले URL की फ़ाइल को प्रभावित करती है। क्रॉलर ने क्यू से URL को पुनः प्राप्त किया।

अलग-अलग क्रॉलर ने एक ही सर्वर से एक अनुरोध साझा किया होगा। यदि ऐसा है, तो समान सर्वर को अनुरोध भेजने से सर्वर ओवरलोड हो जाएगा। सर्वर उस अनुरोध को पूरा करने में सक्रिय है जो अनुरोध साझा करने वाले क्रॉलर से प्रकट होना है और प्रतिक्रिया की प्रतीक्षा कर रहा है।


  1. सी # में प्रतिबिंब क्या हैं?

    परावर्तन वस्तुओं का उपयोग रनटाइम पर प्रकार की जानकारी प्राप्त करने के लिए किया जाता है। एक चल रहे प्रोग्राम के मेटाडेटा तक पहुँच प्रदान करने वाली कक्षाएं System.Reflection नाम स्थान में हैं। सिस्टम का MemberInfo ऑब्जेक्ट। किसी वर्ग से जुड़ी विशेषताओं की खोज के लिए परावर्तन वर्ग को प्रारंभ करने की आ

  1. सी # में इंडेक्सर्स क्या हैं?

    एक अनुक्रमणिका किसी वस्तु को अनुक्रमित करने की अनुमति देता है जैसे कि एक सरणी। आइए सिंटैक्स देखें - element-type this[int index] {    // The get accessor.    get {       // return the value specified by index    }    // The set accessor.  

  1. सी # में नामस्थान क्या हैं?

    एक नाम स्थान नामों के एक सेट को दूसरे से अलग रखने का तरीका प्रदान करने के लिए है। नेमस्पेस की परिभाषा कीवर्ड नेमस्पेस से शुरू होती है और उसके बाद नेमस्पेस नाम इस प्रकार है - namespace namespace_name {    // code declarations } नेमस्पेस परिभाषित करें - namespace namespace_name {   &nb