Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन (एनएलपी) में पठनीयता सूचकांक?

प्राकृतिक भाषा प्रसंस्करण स्वचालित पीढ़ी और प्राकृतिक मानव भाषाओं की समझ का अध्ययन है। यह हल करने के लिए अधिक से अधिक दिलचस्प कार्य होता जा रहा है, क्योंकि आजकल लगभग हर उद्योग में कंप्यूटर प्रौद्योगिकी को एकीकृत किया गया है। हम प्राकृतिक भाषा प्रसंस्करण के भीतर एक विशिष्ट क्षेत्र का अध्ययन करने जा रहे हैं; पठनीयता इसमें पाठ की पठनीयता निर्धारित करने का विषय शामिल है। यह इंगित करता है कि किसी पाठ को पढ़ना या समझना कितना कठिन है।

एक पठनीयता सूचकांक एक संख्यात्मक मान है जो इंगित करता है कि किसी पाठ को पढ़ना और समझना कितना कठिन (या आसान) है। पठनीयता निर्धारित करने के लिए कई अलग-अलग परीक्षण हैं, और उनके उपयोग के विभिन्न क्षेत्र हैं।

"पठनीयता उस आसानी का वर्णन करती है जिसके साथ एक दस्तावेज़ को पढ़ा जा सकता है" [13]। पठनीयता की गणना के लिए कई अलग-अलग परीक्षण [9] मौजूद हैं। पठनीयता परीक्षण "पढ़ने में आसानी की भविष्यवाणी माना जाता है लेकिन पठनीयता निर्धारित करने का एकमात्र तरीका नहीं है"

कुछ परीक्षण भाषा तटस्थ होते हैं, लेकिन कुछ ऐसे परीक्षण होते हैं जो कुछ भाषाओं के लिए अधिक उपयुक्त होते हैं। विभिन्न पठनीयता परीक्षणों का ज्ञान हमारे लिए आवश्यक है।

पठनीयता परीक्षण −
<वें शैली ="चौड़ाई:31.2245%;">(भाषा(ओं)) के लिए अभिप्रेत है −
<वें शैली="चौड़ाई:40.8367%;">संक्षिप्त विवरण और सूत्र −
स्वचालित पठनीयता सूचकांक (ARI)
अंग्रेज़ी
एक पाठ की समझ को मापने के लिए डिज़ाइन किया गया। आउटपुट एक टेक्स्ट को समझने के लिए आवश्यक यू.एस. ग्रेड स्तर का अनुमानित प्रतिनिधित्व है।
ARI =4.71 * (अक्षर/शब्द) + 0.5 * (शब्द/वाक्य) -21.43

Flesch Reading Ease

अंग्रेज़ी
यह इंगित करने के लिए डिज़ाइन किया गया है कि किसी पठन मार्ग को समझना कितना कठिन है। उच्च अंक उस सामग्री को इंगित करते हैं जिसे पढ़ना आसान है; कम संख्याएं पढ़ने में कठिन अंशों को चिह्नित करती हैं।
FleschKincaid ग्रेड स्तर
अंग्रेज़ी
यह इंगित करने के लिए डिज़ाइन किया गया है कि किसी पठन मार्ग को समझना कितना कठिन है। परिणाम एक संख्या है जो यू.एस. ग्रेड स्तर से मेल खाती है।
FKGL =0.39 * (कुल शब्द/ कुल वाक्य) + 11.8 (कुल शब्दांश/ कुल शब्द) -15.59

कोलमैन-लिआउ इंडेक्स
अंग्रेज़ी
एक पाठ की समझ को मापने के लिए डिज़ाइन किया गया। आउटपुट अनुमानित यू.एस. ग्रेड स्तर है जिसे पाठ को समझने के लिए आवश्यक समझा जाता है।
CLI =(5.89 * (अक्षर/ शब्द)) - (30 *(वाक्य/शब्द)) - 15.8

गनिंग फॉग इंडेक्स
अंग्रेज़ी
अंग्रेजी लेखन के नमूने की पठनीयता को मापने के लिए डिज़ाइन किया गया। परिणामी सूचकांक औपचारिक शिक्षा (यू.एस ग्रेड) के वर्षों की संख्या का एक संकेत है जो एक व्यक्ति को पहली बार पढ़ने पर पाठ को आसानी से समझने के लिए आवश्यक है।
GFI =0.4 * ((शब्द/वाक्य) + 100 * (जटिल शब्द/शब्द))
Linsear write
अंग्रेज़ी
अंग्रेजी पाठ के लिए एक पठनीयता मीट्रिक, वायु सेना के लिए विकसित की गई ताकि उन्हें उनके तकनीकी मैनुअल की पठनीयता की गणना करने में मदद मिल सके। विकिपीडिया से सूत्र:
  • अपने लेखन से 100 शब्दों का नमूना खोजें।

  • आसान शब्दों की गणना करें (दो सिलेबल्स या उससे कम के रूप में परिभाषित) और प्रत्येक शब्द पर एक संख्या "1" रखें, यहां तक ​​कि ए, ए, द और अन्य सरल शब्दों को भी शामिल करें।

  • कठिन शब्दों की गणना करें (तीन शब्दांश या अधिक के रूप में परिभाषित) और प्रत्येक शब्द के ऊपर एक संख्या "3" रखें जैसा कि शब्दकोश द्वारा उच्चारण किया गया है।

  • आसान शब्दों की संख्या को "1." से गुणा करें।

  • कठिन शब्दों की संख्या को "3." से गुणा करें।

  • पिछली दो संख्याओं को एक साथ जोड़ें।

  • उस योग को वाक्यों की संख्या से विभाजित करें।

दर सूचकांक (RIX)
पश्चिमी यूरोपीय भाषाएं
यह उपयोगी है क्योंकि इसका उपयोग किसी भी पश्चिमी यूरोपीय भाषा के दस्तावेज़ों पर किया जा सकता है [3]। आउटपुट 0 (बहुत आसान) और 55+ (बहुत कठिन) के बीच का स्कोर है।
RIX =(लंबे शब्द/वाक्य)(लंबे शब्द =शब्द जहां वर्णों की संख्या> 6)
Lesbarhets Index (LIX)
पश्चिमी यूरोपीय भाषाएं
यह उपयोगी है क्योंकि इसका उपयोग किसी भी पश्चिमी यूरोपीय भाषा के दस्तावेज़ों पर किया जा सकता है [2][3]। आउटपुट एक सूचकांक है जो एक ग्रेड स्तर को इंगित करता है। 0.1 से नीचे का सूचकांक ग्रेड 1 है जबकि 7.2 और उससे ऊपर का कॉलेज ग्रेड है। /पूर्व>

उदाहरण के लिए, टेक्स्ट फ़ाइल की पठनीयता को निर्धारित करने के लिए फ़्लेश इंडेक्स के माध्यम से प्रोग्राम नीचे दिया गया है।

धारणा

फ्लेश इंडेक्स
<वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="286"> टेक्स्ट फ़ाइल रीडिंग ग्रेड
0-30
कॉलेज
50-60
हाई स्कूल
90-100
चौथी कक्षा

ऊपर से flesch-kincaid ग्रेड स्तर सूत्र का उपयोग समकक्ष ग्रेड स्तर G की गणना करने के लिए किया जाता है -

FKGL =0.39 * (कुल शब्द/ कुल वाक्य) + 11.8 (कुल शब्दांश/ कुल शब्द) -15.59

कोड

आयात osdire =os.getcwd()listOfdir =os.listdir(dire)जबकि ट्रू:UserFileName =input('Enter file name:') if (UserFileName in listOfdir) और (UserFileName.endswith(.txt") ):InputFile =open(UserFileName,'r') text =InputFile.read() वाक्य =text.count('.') + text.count('!') + text.count(';') + text. काउंट (':') + टेक्स्ट। काउंट ('?') शब्द =लेन (टेक्स्ट। स्प्लिट ()) शब्दांश =0 टेक्स्ट में शब्द के लिए। स्प्लिट ():स्वर के लिए ['ए', 'ई',' i', 'o', 'u']:शब्दांश + =शब्द। गिनती (स्वर) ['es', 'ed', 'e'] में समाप्त होने के लिए:यदि शब्द। समाप्त होता है (समाप्त होता है):शब्दांश - =1 if word.endswith('le'):शब्दांश + =1 G =राउंड ((0.39*words)/Sentence+ (11.8*sylable)/words-15.59) अगर G> =0 और G <=30:प्रिंट ('The पठनीयता का स्तर कॉलेज है') elif G> =50 और G <=60:प्रिंट ('पठनीयता स्तर हाई स्कूल है') elif G> =90 और G <=100:प्रिंट ('पठनीयता स्तर इसके लिए है urth ग्रेड') प्रिंट ('इस टेक्स्ट में %d शब्द हैं'%(words)) elif UserFileName सूची में नहीं हैOfdir:प्रिंट ('यह टेक्स्ट फ़ाइल वर्तमान निर्देशिका में मौजूद नहीं है') elif not(UserFileName.endswith('.txt') )):प्रिंट करें ('यह टेक्स्ट फ़ाइल नहीं है।')

आउटपुट

फ़ाइल का नाम दर्ज करें:dataVisualization.txtपठनीयता स्तर कॉलेज हैइस पाठ में 64 शब्द हैं

  1. पायथन प्लॉट्स के बाहर टेक्स्ट कैसे डालें?

    टेक्स्ट को प्लॉट के बाहर रखने के लिए, हम text_pos_x के मान को बदलकर टेक्स्ट की स्थिति बदल सकते हैं। और text_pos_y कदम x और y के लिए डेटा बिंदु बनाएं। x और y की टेक्स्ट स्थिति को इनिशियलाइज़ करें। x और y को प्लॉट करने के लिए, color=red . के साथ प्लॉट() विधि का उपयोग करें । आकृति में टेक्स्ट जोड़ने

  1. पायथन पाठ अनुक्रम प्रकार

    पायथन में str ऑब्जेक्ट, टेक्स्ट या स्ट्रिंग प्रकार डेटा को संभालता है। स्ट्रिंग्स अपरिवर्तनीय हैं। तार यूनिकोड वर्णों के अनुक्रम हैं। स्ट्रिंग अक्षर को परिभाषित करने के लिए हम सिंगल कोट, डबल कोट्स या ट्रिपल कोट्स का उपयोग कर सकते हैं। ‘यह सिंगल कोट वाली स्ट्रिंग है’ “दोहरे उद्धरणों वाला एक और पाठ”

  1. पायथन में एनएलटीके का उपयोग करके टेक्स्ट को टोकनाइज़ करें

    एक वर्ण अनुक्रम और एक परिभाषित दस्तावेज़ इकाई को देखते हुए, टोकननाइज़ेशन इसे टुकड़ों में काटने का कार्य है, जिसे टोकन कहा जाता है, शायद उसी समय कुछ वर्णों को दूर करना, जैसे विराम चिह्न। एनएलटीके और पायथन के संदर्भ में, यह केवल प्रत्येक टोकन को एक सूची में डालने की प्रक्रिया है ताकि एक बार में प्रत्य