विभिन्न प्रकार के संचालन को संभालने के लिए पायथन में पुस्तकालयों का एक बड़ा समूह है। इस लेख के माध्यम से, हम देखेंगे कि पीडीएफ फाइल को एक्सेल फाइल में कैसे बदला जाए। पीडीएफ को सीएसवी में बदलने के लिए पाइथन में कई पैकेज उपलब्ध हैं लेकिन हम Tabula-py मॉड्यूल का उपयोग करेंगे। tabula-py का प्रमुख भाग जावा में लिखा गया है जो pdf दस्तावेज़ को पढ़ता है और python DataFrame को JSON ऑब्जेक्ट में परिवर्तित करता है।
tabula-py के साथ काम करने के लिए, हमारे सिस्टम में java प्रीइंस्टॉल्ड होना चाहिए। अब, पीडीएफ फाइल को सीएसवी में बदलने के लिए हम चरणों का पालन करेंगे-
-
सबसे पहले, पाइप इंस्टॉल tabula-py . लिखकर आवश्यक पैकेज इंस्टॉल करें कमांड शेल में।
-
अब read_pdf("file location", pages=number) . का उपयोग करके फ़ाइल को पढ़ें समारोह। यह डेटाफ़्रेम लौटाएगा।
-
tabula.convert_into('pdf-filename', 'name_this_file.csv',output_format="csv", pages="all") का उपयोग करके DataFrame को एक्सेल फाइल में बदलें। . यह आम तौर पर पीडीएफ फाइल को एक्सेल फाइल में एक्सपोर्ट करता है
उदाहरण
इस उदाहरण में, हमने आईपीएल मैच शेड्यूल दस्तावेज़ . का उपयोग किया है इसे एक्सेल फ़ाइल में बदलने के लिए।
# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df) आउटपुट
उपरोक्त कोड को चलाने से पीडीएफ फाइल एक्सेल (सीएसवी) फाइल में बदल जाएगी।
