इस असाइनमेंट में हम फाइलों के साथ काम करते हैं। फ़ाइलें इस ब्रह्मांड में हर जगह हैं। कंप्यूटर सिस्टम में फाइलें अनिवार्य हिस्सा हैं। ऑपरेटिंग सिस्टम में बहुत सारी फाइलें होती हैं।
पायथन में दो तरह की फाइलें होती हैं- टेक्स्ट फाइल्स और बाइनरी फाइल्स।
यहां हम टेक्स्ट फाइलों के बारे में चर्चा करते हैं
यहां हम फाइलों पर कुछ महत्वपूर्ण कार्यों पर ध्यान केंद्रित करते हैं।
- शब्दों की संख्या
- वर्णों की संख्या
- औसत शब्द लंबाई
- स्टॉप शब्दों की संख्या
- विशेष वर्णों की संख्या
- संख्यात्मक संख्या
- अपरकेस शब्दों की संख्या
हमारे पास एक परीक्षण फ़ाइल "css3.txt" है, हम उस फ़ाइल पर काम कर रहे हैं
शब्दों की संख्या
जब हम वाक्यों में शब्दों की संख्या गिनते हैं, तो हम विभाजन . का उपयोग करते हैं समारोह। यह सबसे आसान तरीका है। इस मामले में हम स्प्लिट फंक्शन भी लागू करते हैं।
उदाहरण कोड
filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =सामग्री.विभाजन () number_words =लेन (शब्द) प्रिंट ("कुल शब्द" + फ़ाइल नाम, "है", str(number_words))
आउटपुट
C:/Users/TP/Desktop/css3.txt का कुल शब्द 3574 है
वर्णों की संख्या
यहां हम एक शब्द में वर्णों की संख्या की गणना करते हैं, यहां हम शब्द की लंबाई का उपयोग करते हैं। अगर लंबाई 5 है तो उस शब्द में 5 अक्षर होते हैं।
उदाहरण कोड
filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =0 वर्ण =0 शब्दसूची =सामग्री। विभाजन () शब्द + =लेन (शब्दसूची) वर्ण + =शब्द सूची में शब्द के लिए योग (लेन (शब्द)) #प्रिंट (लाइनो) प्रिंट ("एक पाठ फ़ाइल में कुल वर्ण =",अक्षर)
आउटपुट
एक टेक्स्ट फ़ाइल में कुल वर्ण =17783
औसत शब्द लंबाई
यहां, हम सभी शब्दों की लंबाई के योग की गणना करते हैं और इसे कुल लंबाई से विभाजित करते हैं।
उदाहरण कोड
filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =0 शब्दसूची =सामग्री। विभाजित () शब्द =लेन (शब्दसूची) औसत =योग (शब्द सूची में शब्द के लिए लेन (शब्द)) / शब्द प्रिंट ("औसत =", औसत)
आउटपुट
औसत=4.97
स्टॉप शब्दों की संख्या
इसे हल करने के लिए हम Python में NLP लाइब्रेरी का उपयोग करते हैं।
उदाहरण कोड
nltk.corpus से nltk.tokenize से स्टॉपवर्ड आयात करें word_tokenize my_example_sent ="यह एक नमूना वाक्य है" mystop_words =set(stopwords.words('english')) my_word_tokens =word_tokenize(my_example_sent) my_filtered_sentence के लिए my_filtered_sent my_word_tokens यदि mystop_words में w नहीं है] my_filtered_sentence =[] my_word_tokens में w के लिए:यदि w mystop_words में नहीं है:my_filtered_sentence.append(w) Print(my_word_tokens) Print(my_filtered_sentence)
विशेष वर्णों की संख्या
यहां हम हैशटैग या उसमें मौजूद उल्लेखों की संख्या की गणना कर सकते हैं। यह हमारे टेक्स्ट डेटा से अतिरिक्त जानकारी निकालने में मदद करता है।
उदाहरण कोड
ctfilename="C:/Users/TP/Desktop/css3.txt" के रूप में संग्रह आयात करें (संदेश) और:शब्द =सामग्री। विभाजित () संख्या_शब्द =लेन (शब्द) विशेष_चार्स ="#" नया =योग (के लिए वी, सीटी में वी। काउंटर (शब्द)। आइटम () यदि k विशेष_चार में) प्रिंट ( "कुल विशेष वर्ण", नया)आउटपुट
कुल विशेष वर्ण 0
संख्यात्मक संख्या
यहां हम टेक्स्ट फाइलों में मौजूद संख्यात्मक डेटा की संख्या की गणना कर सकते हैं। यह एक शब्द में वर्णों की संख्या की गणना के समान है।
उदाहरण कोड
filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =योग (मानचित्र (str.isdigit, content.split ())) प्रिंट ("एक पाठ फ़ाइल में कुल संख्यात्मक =", शब्द)
आउटपुट
एक टेक्स्ट फ़ाइल में कुल संख्या =2
अपरकेस शब्दों की संख्या
isupper() फ़ंक्शन का उपयोग करके, हम टेक्स्ट में बड़े अक्षरों की संख्या की गणना कर सकते हैं।
उदाहरण कोड
filename="C:/Users/TP/Desktop/css3.txt"try:open(filename) as file_object के साथ:content=file_object.read() FileNotFoundError को छोड़कर:message="sorry" +filename print(message) अन्य:शब्द =योग (मानचित्र (str.isupper, सामग्री। विभाजित ())) प्रिंट ("एक पाठ फ़ाइल में कुल अपरकेस शब्द =", शब्द)
आउटपुट
पाठ फ़ाइल में कुल अपरकेस शब्द =121