फ़ोकस किए गए वेब क्रॉलर के विभिन्न घटक हैं जो इस प्रकार हैं -
बीज डिटेक्टर -सीड डिटेक्टर की सेवा पहले n URL लाकर निश्चित कीवर्ड के लिए सीड URL तय करना है। पेजरैंक एल्गोरिथम या उसके समान हिट एल्गोरिथम या एल्गोरिथम के आधार पर सीड पेजों की पहचान की जाती है और उन्हें प्राथमिकता दी जाती है।
क्रॉलर प्रबंधक - क्रॉलर मैनेजर हाइपरटेक्स्ट एनालाइजर के बाद सिस्टम का एक अनिवार्य घटक है। घटक वैश्विक वेब से फ़ाइलें डाउनलोड करता है। URL रिपॉजिटरी में URL पुनर्प्राप्त किए जाते हैं और क्रॉलर मैनेजर में बफर में बनाए जाते हैं।
URL बफ़र एक प्राथमिकता कतार है। यह यूआरएल बफर के आकार पर निर्भर करता है, क्रॉलर मैनेजर गतिशील रूप से क्रॉलर्स के लिए एक उदाहरण बनाता है, जो फाइलों को डाउनलोड करेगा।
अधिक प्रभावशीलता के लिए, क्रॉलर प्रबंधक क्रॉलर पूल उत्पन्न कर सकता है। क्रॉलर की गति को सीमित करने और उनके बीच भार को संतुलित करने के लिए प्रबंधक भी उत्तरदायी है। यह क्रॉलर का निरीक्षण करके पूरा किया जाता है।
क्रॉलर - क्रॉलर एक मल्टी-थ्रेड जावा कोड है, जो वेब से वेब पेजों को डाउनलोड करने और दस्तावेज़ रिपॉजिटरी में फाइलों को सहेजने के लिए पर्याप्त है। प्रत्येक क्रॉलर की अपनी कतार होती है, जो क्रॉल किए जाने वाले URL की सूची को प्रभावित करती है। क्रॉलर ने क्यू से URL को पुनः प्राप्त किया।
अलग-अलग क्रॉलर ने एक समान सर्वर से अनुरोध साझा किया होगा। इसलिए एक समान सर्वर को अनुरोध भेजने से सर्वर ओवरलोड हो जाएगा। सर्वर उस अनुरोध को पूरा करने में सक्रिय है जो अनुरोध को साझा करने वाले क्रॉलर से प्रकट होना है और प्रतिक्रिया की प्रतीक्षा कर रहा है।
सर्वर सिंक्रनाइज़ बनाया गया है। यदि URL के लिए अनुरोध पहले साझा नहीं किया गया है, तो अनुरोध HTTP संरचना को अग्रेषित किया जाता है। यह प्रदान करता है कि क्रॉलर कुछ सर्वरों को अधिभारित नहीं करता है।
लिंक एक्सट्रैक्टर - लिंक एक्सट्रैक्टर दस्तावेज़ रिपॉजिटरी में मौजूद फाइलों से कनेक्शन प्राप्त करता है। URL में URL के लिए घटक परीक्षण पुनर्प्राप्त किए गए। यदि नहीं खोजा जाता है, तो हाइपरलिंक से पहले और बाद के पाठ, शीर्षक या उप-शीर्षक जिसके अंतर्गत कनेक्शन मौजूद है, निकाले जाते हैं।
हाइपरटेक्स्ट विश्लेषक - हाइपरटेक्स्ट एनालाइज़र लिंक एक्सट्रैक्टर से कीवर्ड प्राप्त करता है और टैक्सोनॉमी पदानुक्रम को परिभाषित करने वाले खोज कीवर्ड के साथ विधियों की प्रासंगिकता का पता लगाता है।
HTTP प्रोटोकॉल मॉड्यूल - HTTP प्रोटोकॉल मॉड्यूल उन फ़ाइलों के लिए अनुरोध साझा करता है जिनके URL को कतार से स्वीकार किया गया है। यह दस्तावेज़ प्राप्त होने पर, डाउनलोड किए गए दस्तावेज़ का URL टाइमस्टैम्प के साथ प्राप्त किए गए URL में संग्रहीत किया जाता है और दस्तावेज़ को दस्तावेज़ रिपॉजिटरी में संग्रहीत किया जाता है।