Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पीडीएफ को टेक्स्ट में बदलने के लिए पायथन में कौन से मॉड्यूल उपलब्ध हैं?


PDF को टेक्स्ट में बदलने के लिए आप PDFMiner पैकेज का उपयोग कर सकते हैं।

उदाहरण

आप इसे निम्न प्रकार से उपयोग कर सकते हैं:

 import sys
from cStringIO import StringIO
 from pdfminer.pdfpage importPDFPage
from pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter
from pdfminer.layout importLAParams
from pdfminer.converter importXMLConverter, HTMLConverter, TextConverter
 def pdfparser(data):
    fp = file(data, 'rb')
    resource_manager = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(resource_manager,retstr, codec=codec, laparams=laparams)
    interpreter =PDFPageInterpreter(resource_manager, device)
 
    # Process each page contained in thedocument.
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
        data = retstr.getvalue()
    print data
 pdfparser('filename.pdf')

यह एक पीडीएफ फाइल लेता है और पीडीएफपेजइंटरप्रेटर क्लास से प्रोसेस_पेज फ़ंक्शन का उपयोग करके पेज से पेज से टेक्स्ट निकालता है।

टेक्स्ट निकालने के लिए उपयोग करने के लिए बहुत आसान एपीआई के साथ PDFMiner का एक विकल्प है। पीपीडीएफ ठीक काम करता है (यह मानते हुए कि आप अच्छी तरह से गठित पीडीएफ के साथ काम कर रहे हैं)। यदि आप केवल टेक्स्ट (रिक्त स्थान के साथ) चाहते हैं, तो आप निम्न कार्य कर सकते हैं:

import pyPdf
pdf = pyPdf.PdfFileReader(open('filename.pdf',"rb"))
for page in pdf.pages:
    print page.extractText()

  1. टेक्स्ट माइनिंग की तकनीकें क्या हैं?

    टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है। टेक

  1. टेक्स्ट माइनिंग के अनुप्रयोग क्या हैं?

    टेक्स्ट माइनिंग को टेक्स्ट एनालिसिस के रूप में भी जाना जाता है। यह सरल विश्लेषण के लिए असंरचित पाठ को संरचित डेटा में बदलने की प्रक्रिया है। टेक्स्ट माइनिंग नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) को लागू करता है, जिससे मशीनों को मानव भाषा जानने और इसे स्वचालित रूप से प्रोसेस करने में मदद मिलती है। इसे

  1. डेस की विविधताएं क्या हैं?

    डेटा एन्क्रिप्शन मानक की दो मुख्य विविधताएँ इस प्रकार हैं - डबल डेस - डबल डेस एक एन्क्रिप्शन दृष्टिकोण है जिसे एक ही सादे पाठ पर डेस के दो उदाहरणों की आवश्यकता होती है। दोनों ही उदाहरणों में यह सादे पाठ को एन्क्रिप्ट करने के लिए कई कुंजियों का उपयोग करता है। डिक्रिप्शन के समय दोनों कुंजियों की आव