Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

Python3 में पाठ विश्लेषण

इस असाइनमेंट में हम फाइलों के साथ काम करते हैं। फ़ाइलें इस ब्रह्मांड में हर जगह हैं। कंप्यूटर सिस्टम में फाइलें अनिवार्य हिस्सा हैं। ऑपरेटिंग सिस्टम में बहुत सारी फाइलें होती हैं।

पायथन में दो तरह की फाइलें होती हैं- टेक्स्ट फाइल्स और बाइनरी फाइल्स।

Python3 में पाठ विश्लेषण

यहां हम टेक्स्ट फाइलों के बारे में चर्चा करते हैं

यहां हम फाइलों पर कुछ महत्वपूर्ण कार्यों पर ध्यान केंद्रित करते हैं।

  • शब्दों की संख्या
  • वर्णों की संख्या
  • औसत शब्द लंबाई
  • स्टॉप शब्दों की संख्या
  • विशेष वर्णों की संख्या
  • संख्यात्मक संख्या
  • अपरकेस शब्दों की संख्या

हमारे पास एक परीक्षण फ़ाइल "css3.txt" है, हम उस फ़ाइल पर काम कर रहे हैं

शब्दों की संख्या

जब हम वाक्यों में शब्दों की संख्या गिनते हैं, तो हम विभाजन . का उपयोग करते हैं समारोह। यह सबसे आसान तरीका है। इस मामले में हम स्प्लिट फंक्शन भी लागू करते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =सामग्री.विभाजन () number_words =लेन (शब्द) प्रिंट ("कुल शब्द" + फ़ाइल नाम, "है", str(number_words))

आउटपुट

C:/Users/TP/Desktop/css3.txt का कुल शब्द 3574 है

वर्णों की संख्या

यहां हम एक शब्द में वर्णों की संख्या की गणना करते हैं, यहां हम शब्द की लंबाई का उपयोग करते हैं। अगर लंबाई 5 है तो उस शब्द में 5 अक्षर होते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =0 वर्ण =0 शब्दसूची =सामग्री। विभाजन () शब्द + =लेन (शब्दसूची) वर्ण + =शब्द सूची में शब्द के लिए योग (लेन (शब्द)) #प्रिंट (लाइनो) प्रिंट ("एक पाठ फ़ाइल में कुल वर्ण =",अक्षर)

आउटपुट

एक टेक्स्ट फ़ाइल में कुल वर्ण =17783

औसत शब्द लंबाई

यहां, हम सभी शब्दों की लंबाई के योग की गणना करते हैं और इसे कुल लंबाई से विभाजित करते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =0 शब्दसूची =सामग्री। विभाजित () शब्द =लेन (शब्दसूची) औसत =योग (शब्द सूची में शब्द के लिए लेन (शब्द)) / शब्द प्रिंट ("औसत =", औसत) 

आउटपुट

औसत=4.97

स्टॉप शब्दों की संख्या

इसे हल करने के लिए हम Python में NLP लाइब्रेरी का उपयोग करते हैं।

उदाहरण कोड

nltk.corpus से nltk.tokenize से स्टॉपवर्ड आयात करें word_tokenize my_example_sent ="यह एक नमूना वाक्य है" mystop_words =set(stopwords.words('english')) my_word_tokens =word_tokenize(my_example_sent) my_filtered_sentence के लिए my_filtered_sent my_word_tokens यदि mystop_words में w नहीं है] my_filtered_sentence =[] my_word_tokens में w के लिए:यदि w mystop_words में नहीं है:my_filtered_sentence.append(w) Print(my_word_tokens) Print(my_filtered_sentence) 

विशेष वर्णों की संख्या

यहां हम हैशटैग या उसमें मौजूद उल्लेखों की संख्या की गणना कर सकते हैं। यह हमारे टेक्स्ट डेटा से अतिरिक्त जानकारी निकालने में मदद करता है।

उदाहरण कोड

ctfilename="C:/Users/TP/Desktop/css3.txt" के रूप में संग्रह आयात करें (संदेश) और:शब्द =सामग्री। विभाजित () संख्या_शब्द =लेन (शब्द) विशेष_चार्स ="#" नया =योग (के लिए वी, सीटी में वी। काउंटर (शब्द)। आइटम () यदि k विशेष_चार में) प्रिंट ( "कुल विशेष वर्ण", नया)

आउटपुट

कुल विशेष वर्ण 0

संख्यात्मक संख्या

यहां हम टेक्स्ट फाइलों में मौजूद संख्यात्मक डेटा की संख्या की गणना कर सकते हैं। यह एक शब्द में वर्णों की संख्या की गणना के समान है।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =योग (मानचित्र (str.isdigit, content.split ())) प्रिंट ("एक पाठ फ़ाइल में कुल संख्यात्मक =", शब्द)

आउटपुट

एक टेक्स्ट फ़ाइल में कुल संख्या =2

अपरकेस शब्दों की संख्या

isupper() फ़ंक्शन का उपयोग करके, हम टेक्स्ट में बड़े अक्षरों की संख्या की गणना कर सकते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =योग (मानचित्र (str.isupper, सामग्री। विभाजित ())) प्रिंट ("एक पाठ फ़ाइल में कुल अपरकेस शब्द =", शब्द)

आउटपुट

पाठ फ़ाइल में कुल अपरकेस शब्द =121

  1. Android पर एक निश्चित संख्या से टेक्स्ट संदेशों को ब्लॉक करें

    इससे परेशान करने वाले टेक्स्ट मैसेज पाकर थक गए हैं अज्ञात नंबर? चिंता न करें आप एंड्रॉइड फोन पर एक निश्चित नंबर से टेक्स्ट संदेशों को आसानी से ब्लॉक कर सकते हैं। हम अपने करीबी लोगों के साथ संवाद करने के लिए टेक्स्ट संदेश भेजते और प्राप्त करते हैं। लेकिन हमें कंपनियों, विज्ञापनों और घोटालों से स्पैम

  1. Excel में अग्रणी शून्य के साथ नंबर को टेक्स्ट में कैसे बदलें

    अग्रणी शून्य मुख्य रूप से किसी संख्या की लंबाई निर्दिष्ट करने में सहायता करते हैं। किसी विशेष पहचान संख्या, ज़िप कोड, सुरक्षा नंबर आदि जैसे रिकॉर्ड बनाए रखने के मामले में, आपको अग्रणी शून्य रखना होगा कोशिकाओं पर। हालांकि, जब आप 00901 . जैसा कोई ज़िप कोड दर्ज करने का प्रयास करते हैं एक सेल में प्यूर्

  1. एक्सेल में नंबर को शब्दों में कैसे बदलें (4 उपयुक्त तरीके)

    कई लोग अपने दैनिक कार्यों में स्प्रेडशीट का उपयोग करते हैं, जिससे वे अपने कार्यालय का एक महत्वपूर्ण तत्व बन जाते हैं। जबकि अधिकांश लोग स्प्रैडशीट का उपयोग यथोचित बुनियादी तरीके से करते हैं, कुछ उन्नत उपयोगकर्ताओं को संख्या को शब्दों में कनवर्ट करना मुश्किल या जटिल लगता है। एक्सेल में। इस गाइड में, ह