विभिन्न प्रकार के संचालन को संभालने के लिए पायथन में पुस्तकालयों का एक बड़ा समूह है। इस लेख के माध्यम से, हम देखेंगे कि पीडीएफ फाइल को एक्सेल फाइल में कैसे बदला जाए। पीडीएफ को सीएसवी में बदलने के लिए पाइथन में कई पैकेज उपलब्ध हैं लेकिन हम Tabula-py मॉड्यूल का उपयोग करेंगे। tabula-py का प्रमुख भाग जावा में लिखा गया है जो pdf दस्तावेज़ को पढ़ता है और python DataFrame को JSON ऑब्जेक्ट में परिवर्तित करता है।
tabula-py के साथ काम करने के लिए, हमारे सिस्टम में java प्रीइंस्टॉल्ड होना चाहिए। अब, पीडीएफ फाइल को सीएसवी में बदलने के लिए हम चरणों का पालन करेंगे-
-
सबसे पहले, पाइप इंस्टॉल tabula-py . लिखकर आवश्यक पैकेज इंस्टॉल करें कमांड शेल में।
-
अब read_pdf("file location", pages=number) . का उपयोग करके फ़ाइल को पढ़ें समारोह। यह डेटाफ़्रेम लौटाएगा।
-
tabula.convert_into('pdf-filename', 'name_this_file.csv',output_format="csv", pages="all") का उपयोग करके DataFrame को एक्सेल फाइल में बदलें। . यह आम तौर पर पीडीएफ फाइल को एक्सेल फाइल में एक्सपोर्ट करता है
उदाहरण
इस उदाहरण में, हमने आईपीएल मैच शेड्यूल दस्तावेज़ . का उपयोग किया है इसे एक्सेल फ़ाइल में बदलने के लिए।
# Import the required Module import tabula # Read a PDF File df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0] # convert PDF into CSV tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all') print(df)
आउटपुट
उपरोक्त कोड को चलाने से पीडीएफ फाइल एक्सेल (सीएसवी) फाइल में बदल जाएगी।