Python3 में पाठ विश्लेषण

इस असाइनमेंट में हम फाइलों के साथ काम करते हैं। फ़ाइलें इस ब्रह्मांड में हर जगह हैं। कंप्यूटर सिस्टम में फाइलें अनिवार्य हिस्सा हैं। ऑपरेटिंग सिस्टम में बहुत सारी फाइलें होती हैं।

पायथन में दो तरह की फाइलें होती हैं- टेक्स्ट फाइल्स और बाइनरी फाइल्स।

यहां हम टेक्स्ट फाइलों के बारे में चर्चा करते हैं

यहां हम फाइलों पर कुछ महत्वपूर्ण कार्यों पर ध्यान केंद्रित करते हैं।

शब्दों की संख्या
वर्णों की संख्या
औसत शब्द लंबाई
स्टॉप शब्दों की संख्या
विशेष वर्णों की संख्या
संख्यात्मक संख्या
अपरकेस शब्दों की संख्या

हमारे पास एक परीक्षण फ़ाइल "css3.txt" है, हम उस फ़ाइल पर काम कर रहे हैं

शब्दों की संख्या

जब हम वाक्यों में शब्दों की संख्या गिनते हैं, तो हम विभाजन . का उपयोग करते हैं समारोह। यह सबसे आसान तरीका है। इस मामले में हम स्प्लिट फंक्शन भी लागू करते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =सामग्री.विभाजन () number_words =लेन (शब्द) प्रिंट ("कुल शब्द" + फ़ाइल नाम, "है", str(number_words))

आउटपुट

C:/Users/TP/Desktop/css3.txt का कुल शब्द 3574 है

वर्णों की संख्या

यहां हम एक शब्द में वर्णों की संख्या की गणना करते हैं, यहां हम शब्द की लंबाई का उपयोग करते हैं। अगर लंबाई 5 है तो उस शब्द में 5 अक्षर होते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =0 वर्ण =0 शब्दसूची =सामग्री। विभाजन () शब्द + =लेन (शब्दसूची) वर्ण + =शब्द सूची में शब्द के लिए योग (लेन (शब्द)) #प्रिंट (लाइनो) प्रिंट ("एक पाठ फ़ाइल में कुल वर्ण =",अक्षर)

आउटपुट

एक टेक्स्ट फ़ाइल में कुल वर्ण =17783

औसत शब्द लंबाई

यहां, हम सभी शब्दों की लंबाई के योग की गणना करते हैं और इसे कुल लंबाई से विभाजित करते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =0 शब्दसूची =सामग्री। विभाजित () शब्द =लेन (शब्दसूची) औसत =योग (शब्द सूची में शब्द के लिए लेन (शब्द)) / शब्द प्रिंट ("औसत =", औसत)

आउटपुट

औसत=4.97

स्टॉप शब्दों की संख्या

इसे हल करने के लिए हम Python में NLP लाइब्रेरी का उपयोग करते हैं।

उदाहरण कोड

nltk.corpus से nltk.tokenize से स्टॉपवर्ड आयात करें word_tokenize my_example_sent ="यह एक नमूना वाक्य है" mystop_words =set(stopwords.words('english')) my_word_tokens =word_tokenize(my_example_sent) my_filtered_sentence के लिए my_filtered_sent my_word_tokens यदि mystop_words में w नहीं है] my_filtered_sentence =[] my_word_tokens में w के लिए:यदि w mystop_words में नहीं है:my_filtered_sentence.append(w) Print(my_word_tokens) Print(my_filtered_sentence)

विशेष वर्णों की संख्या

यहां हम हैशटैग या उसमें मौजूद उल्लेखों की संख्या की गणना कर सकते हैं। यह हमारे टेक्स्ट डेटा से अतिरिक्त जानकारी निकालने में मदद करता है।

उदाहरण कोड

ctfilename="C:/Users/TP/Desktop/css3.txt" के रूप में संग्रह आयात करें (संदेश) और:शब्द =सामग्री। विभाजित () संख्या_शब्द =लेन (शब्द) विशेष_चार्स ="#" नया =योग (के लिए वी, सीटी में वी। काउंटर (शब्द)। आइटम () यदि k विशेष_चार में) प्रिंट ( "कुल विशेष वर्ण", नया)

आउटपुट

कुल विशेष वर्ण 0

संख्यात्मक संख्या

यहां हम टेक्स्ट फाइलों में मौजूद संख्यात्मक डेटा की संख्या की गणना कर सकते हैं। यह एक शब्द में वर्णों की संख्या की गणना के समान है।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =योग (मानचित्र (str.isdigit, content.split ())) प्रिंट ("एक पाठ फ़ाइल में कुल संख्यात्मक =", शब्द)

आउटपुट

एक टेक्स्ट फ़ाइल में कुल संख्या =2

अपरकेस शब्दों की संख्या

isupper() फ़ंक्शन का उपयोग करके, हम टेक्स्ट में बड़े अक्षरों की संख्या की गणना कर सकते हैं।

उदाहरण कोड

filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =योग (मानचित्र (str.isupper, सामग्री। विभाजित ())) प्रिंट ("एक पाठ फ़ाइल में कुल अपरकेस शब्द =", शब्द)

आउटपुट

पाठ फ़ाइल में कुल अपरकेस शब्द =121