Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

Python का उपयोग करके PDF को CSV में बदलें

पायथन अपने विशाल संकुल पुस्तकालय के लिए जाना जाता है। पुस्तकालयों की सहायता से, हम देखेंगे कि PDF को CSV फ़ाइल में कैसे परिवर्तित किया जाए। CSV फ़ाइल कुछ और नहीं बल्कि डेटा का एक संग्रह है, जिसे पंक्तियों और स्तंभों के एक सेट के साथ तैयार किया गया है। PDF को CSV में बदलने के लिए Python लाइब्रेरी में कई पैकेज उपलब्ध हैं, लेकिन हम Tabula-py मॉड्यूल का उपयोग करेंगे। . tabula-py का प्रमुख भाग जावा में लिखा गया है जो पहले PDF दस्तावेज़ को पढ़ता है और Python DataFrame को JSON ऑब्जेक्ट में परिवर्तित करता है।

tabula-py के साथ काम करने के लिए, हमारे सिस्टम में Java पहले से इंस्टॉल होना चाहिए। पीडीएफ फाइल को सीएसवी में बदलने के लिए, हम इन चरणों का पालन करेंगे -

  • सबसे पहले, पाइप इंस्‍टॉल tabula-py . लिखकर आवश्‍यक पैकेज इंस्‍टॉल करें कमांड शेल में।

  • अब, read_pdf("file location", pages=number) . का उपयोग करके फ़ाइल को पढ़ें समारोह। यह डेटाफ़्रेम लौटाएगा।

  • tabula.convert_into('pdf-filename', 'name_this_file.csv',output_format="csv", pages="all") का उपयोग करके DataFrame को एक्सेल फाइल में बदलें। . यह आम तौर पर पीडीएफ फाइल को एक्सेल फाइल में एक्सपोर्ट करता है।

उदाहरण

इस उदाहरण में, हमने आईपीएल मैच शेड्यूल दस्तावेज़ . का उपयोग किया है इसे एक्सेल फाइल में बदलने के लिए।

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

आउटपुट

उपरोक्त कोड को चलाने से पीडीएफ फाइल एक्सेल (सीएसवी) फाइल में बदल जाएगी।

Python का उपयोग करके PDF को CSV में बदलें


  1. TXT को CSV में कैसे बदलें?

    एक टेक्स्ट फ़ाइल एक मानक टेक्स्ट दस्तावेज़ है जिसमें सादा पाठ होता है और इसमें कोई अतिरिक्त स्वरूपण नहीं होता है। टेक्स्ट फ़ाइलें अधिकांश उपकरणों के साथ संगत हैं और उनमें एक .txt एक्सटेंशन होगा। जबकि CSV (कॉमा सेपरेटेड वैल्यू) फाइलों में अधिक विशिष्ट स्वरूपण तत्व होंगे। कभी-कभी उपयोगकर्ता को CSV फ़ा

  1. EPS फाइल को पीडीएफ में कैसे बदलें?

    एनकैप्सुलेटेड पोस्टस्क्रिप्ट (ईपीएस) एक मानक ग्राफिक्स फ़ाइल प्रारूप है जिसमें चित्र, बिटमैप, टेक्स्ट और 2 डी वेक्टर ग्राफिक्स शामिल हैं। जबकि पीडीएफ फाइल एक पोर्टेबल दस्तावेज प्रारूप है जिसका उपयोग केवल-पढ़ने के लिए दस्तावेजों के लिए किया जाता है। कुछ उपयोगकर्ताओं को अपने अन्य दस्तावेज़ों के साथ वि

  1. मौजूदा फाइल को पीडीएफ में कैसे बदलें?

    ऐसे कई लोग हैं जिन्हें पहले से मौजूद एमएस वर्ड या एमएस एक्सेल फाइल को पीडीएफ में बदलना बहुत मुश्किल लगता है। और फिर ऐसी वेबसाइटें भी हैं जिनका इस्तेमाल लोग इन फाइलों को पीडीएफ फॉर्मेट में बदलने के लिए करते थे। एक नियमित फाइल को पीडीएफ बनाने के लिए आपको वास्तव में एक वेबसाइट का उपयोग करने की आवश्यकता