Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन में html5lib और lxml पार्सर्स

html5lib HTML को पार्स करने के लिए एक शुद्ध-अजगर पुस्तकालय है। इसे WHATWG HTML विनिर्देश के अनुरूप बनाया गया है, जैसा कि सभी प्रमुख वेब ब्राउज़र द्वारा कार्यान्वित किया जाता है। यह HTML दस्तावेज़ के लगभग सभी तत्वों को पार्स कर सकता है, इसे अलग-अलग टैग और टुकड़ों में तोड़ सकता है जिन्हें विभिन्न उपयोग मामलों के लिए फ़िल्टर किया जा सकता है। यह टेक्स्ट को उसी तरह से पार्स करता है जैसे प्रमुख ब्राउज़रों द्वारा किया जाता है। यह टूटे हुए HTML टैग से भी निपट सकता है और संरचना को पूरा करने के लिए कुछ आवश्यक टैग जोड़ सकता है। साथ ही इसे प्योर पाइथॉन कोड में लिखा गया है।

एलएक्सएमएल यह भी एक समान पार्सर है लेकिन HTML की तुलना में XML सुविधाओं द्वारा संचालित है। इसकी बाहरी सी पुस्तकालयों पर निर्भरता है। यह html5lib की तुलना में तेज़ है।

आइए एक नमूना टैग उदाहरण लेकर इन दो पार्सर्स के व्यवहार में अंतर देखें और आउटपुट देखें।

उदाहरण

from bs4 import BeautifulSoup
html5_structure = BeautifulSoup("<head><li></p>", "html5lib")
print(html5_structure)
lxml_structure = BeautifulSoup("<head><li></p>", "lxml")
print(lxml_structure)

उपरोक्त कोड को चलाने से हमें निम्नलिखित परिणाम मिलते हैं

आउटपुट

<html><head></head><body><li><p></p></li></body></html>
<html><head></head><body><li></li></body></html>

जैसा कि हम देख सकते हैं कि html5lib

. को शामिल करके अधिक संपूर्ण html दस्तावेज़ बनाता है

टैग। एलएक्सएमएल पुस्तकालय एक्सएमएल जैसी संरचना की ओर अधिक केंद्रित है और टैग को पूरी तरह से अनदेखा करता है।


  1. पायथन में सहसंबंध और प्रतिगमन

    सहसंबंध कुछ सांख्यिकीय संबंधों को संदर्भित करता है जिसमें दो डेटा सेट के बीच निर्भरता शामिल होती है। जबकि रैखिक प्रतिगमन एक आश्रित चर और एक या अधिक स्वतंत्र चर के बीच संबंध स्थापित करने के लिए एक रैखिक दृष्टिकोण है। एक एकल स्वतंत्र चर को रैखिक प्रतिगमन कहा जाता है जबकि कई स्वतंत्र चर को एकाधिक प्रति

  1. html.parser — पायथन में सरल HTML और XHTML पार्सर

    इस मॉड्यूल में परिभाषित HTMLParser वर्ग HTML और XHMTL दस्तावेज़ों को पार्स करने के लिए कार्यक्षमता प्रदान करता है। इस वर्ग में हैंडलर विधियां हैं जो टैग, डेटा, टिप्पणियों और अन्य HTML तत्वों की पहचान कर सकती हैं। हमें एक नए वर्ग को परिभाषित करना है जो HTMLParser वर्ग को इनहेरिट करता है और फ़ीड () प

  1. पायथन में =+ और +=क्या करते हैं?

    +=ऑपरेटर ऑब्जेक्ट के लिए सिंटैक्टिक शुगर है।__iadd__() फ़ंक्शन। पायथन डॉक्स से: इन विधियों को संवर्धित अंकगणितीय असाइनमेंट को लागू करने के लिए कहा जाता है (+=, -=, *=, @=, /=, //=, %=, **=, =, &=, ^=, |=). इन विधियों को ऑपरेशन को जगह में करने का प्रयास करना चाहिए (स्वयं को संशोधित करना) और परिणाम व