प्राकृतिक भाषा प्रसंस्करण स्वचालित पीढ़ी और प्राकृतिक मानव भाषाओं की समझ का अध्ययन है। यह हल करने के लिए अधिक से अधिक दिलचस्प कार्य होता जा रहा है, क्योंकि आजकल लगभग हर उद्योग में कंप्यूटर प्रौद्योगिकी को एकीकृत किया गया है। हम प्राकृतिक भाषा प्रसंस्करण के भीतर एक विशिष्ट क्षेत्र का अध्ययन करने जा रहे हैं; पठनीयता इसमें पाठ की पठनीयता निर्धारित करने का विषय शामिल है। यह इंगित करता है कि किसी पाठ को पढ़ना या समझना कितना कठिन है।
एक पठनीयता सूचकांक एक संख्यात्मक मान है जो इंगित करता है कि किसी पाठ को पढ़ना और समझना कितना कठिन (या आसान) है। पठनीयता निर्धारित करने के लिए कई अलग-अलग परीक्षण हैं, और उनके उपयोग के विभिन्न क्षेत्र हैं।
"पठनीयता उस आसानी का वर्णन करती है जिसके साथ एक दस्तावेज़ को पढ़ा जा सकता है" [13]। पठनीयता की गणना के लिए कई अलग-अलग परीक्षण [9] मौजूद हैं। पठनीयता परीक्षण "पढ़ने में आसानी की भविष्यवाणी माना जाता है लेकिन पठनीयता निर्धारित करने का एकमात्र तरीका नहीं है"
कुछ परीक्षण भाषा तटस्थ होते हैं, लेकिन कुछ ऐसे परीक्षण होते हैं जो कुछ भाषाओं के लिए अधिक उपयुक्त होते हैं। विभिन्न पठनीयता परीक्षणों का ज्ञान हमारे लिए आवश्यक है।
पठनीयता परीक्षण − वें> <वें शैली ="चौड़ाई:31.2245%;">(भाषा(ओं)) के लिए अभिप्रेत है − वें> <वें शैली="चौड़ाई:40.8367%;">संक्षिप्त विवरण और सूत्र − वें> | ||
---|---|---|
स्वचालित पठनीयता सूचकांक (ARI) | अंग्रेज़ी | एक पाठ की समझ को मापने के लिए डिज़ाइन किया गया। आउटपुट एक टेक्स्ट को समझने के लिए आवश्यक यू.एस. ग्रेड स्तर का अनुमानित प्रतिनिधित्व है।ARI =4.71 * (अक्षर/शब्द) + 0.5 * (शब्द/वाक्य) -21.43 |
Flesch Reading Ease | अंग्रेज़ी | यह इंगित करने के लिए डिज़ाइन किया गया है कि किसी पठन मार्ग को समझना कितना कठिन है। उच्च अंक उस सामग्री को इंगित करते हैं जिसे पढ़ना आसान है; कम संख्याएं पढ़ने में कठिन अंशों को चिह्नित करती हैं। |
FleschKincaid ग्रेड स्तर | अंग्रेज़ी | यह इंगित करने के लिए डिज़ाइन किया गया है कि किसी पठन मार्ग को समझना कितना कठिन है। परिणाम एक संख्या है जो यू.एस. ग्रेड स्तर से मेल खाती है।FKGL =0.39 * (कुल शब्द/ कुल वाक्य) + 11.8 (कुल शब्दांश/ कुल शब्द) -15.59 |
कोलमैन-लिआउ इंडेक्स | अंग्रेज़ी | एक पाठ की समझ को मापने के लिए डिज़ाइन किया गया। आउटपुट अनुमानित यू.एस. ग्रेड स्तर है जिसे पाठ को समझने के लिए आवश्यक समझा जाता है।CLI =(5.89 * (अक्षर/ शब्द)) - (30 *(वाक्य/शब्द)) - 15.8 |
गनिंग फॉग इंडेक्स | अंग्रेज़ी | अंग्रेजी लेखन के नमूने की पठनीयता को मापने के लिए डिज़ाइन किया गया। परिणामी सूचकांक औपचारिक शिक्षा (यू.एस ग्रेड) के वर्षों की संख्या का एक संकेत है जो एक व्यक्ति को पहली बार पढ़ने पर पाठ को आसानी से समझने के लिए आवश्यक है।GFI =0.4 * ((शब्द/वाक्य) + 100 * (जटिल शब्द/शब्द)) |
Linsear write | अंग्रेज़ी | अंग्रेजी पाठ के लिए एक पठनीयता मीट्रिक, वायु सेना के लिए विकसित की गई ताकि उन्हें उनके तकनीकी मैनुअल की पठनीयता की गणना करने में मदद मिल सके। विकिपीडिया से सूत्र:
|
दर सूचकांक (RIX) | पश्चिमी यूरोपीय भाषाएं | यह उपयोगी है क्योंकि इसका उपयोग किसी भी पश्चिमी यूरोपीय भाषा के दस्तावेज़ों पर किया जा सकता है [3]। आउटपुट 0 (बहुत आसान) और 55+ (बहुत कठिन) के बीच का स्कोर है।RIX =(लंबे शब्द/वाक्य)(लंबे शब्द =शब्द जहां वर्णों की संख्या> 6) |
Lesbarhets Index (LIX) | पश्चिमी यूरोपीय भाषाएं | यह उपयोगी है क्योंकि इसका उपयोग किसी भी पश्चिमी यूरोपीय भाषा के दस्तावेज़ों पर किया जा सकता है [2][3]। आउटपुट एक सूचकांक है जो एक ग्रेड स्तर को इंगित करता है। 0.1 से नीचे का सूचकांक ग्रेड 1 है जबकि 7.2 और उससे ऊपर का कॉलेज ग्रेड है। /पूर्व> |
उदाहरण के लिए, टेक्स्ट फ़ाइल की पठनीयता को निर्धारित करने के लिए फ़्लेश इंडेक्स के माध्यम से प्रोग्राम नीचे दिया गया है।
धारणा
फ्लेश इंडेक्स वें> <वें शैली ="पाठ-संरेखण:केंद्र;" चौड़ाई ="286"> टेक्स्ट फ़ाइल रीडिंग ग्रेड वें> | |
---|---|
0-30 | कॉलेज |
50-60 | हाई स्कूल |
90-100 | चौथी कक्षा |
ऊपर से flesch-kincaid ग्रेड स्तर सूत्र का उपयोग समकक्ष ग्रेड स्तर G की गणना करने के लिए किया जाता है -
FKGL =0.39 * (कुल शब्द/ कुल वाक्य) + 11.8 (कुल शब्दांश/ कुल शब्द) -15.59
कोड
आयात osdire =os.getcwd()listOfdir =os.listdir(dire)जबकि ट्रू:UserFileName =input('Enter file name:') if (UserFileName in listOfdir) और (UserFileName.endswith(.txt") ):InputFile =open(UserFileName,'r') text =InputFile.read() वाक्य =text.count('.') + text.count('!') + text.count(';') + text. काउंट (':') + टेक्स्ट। काउंट ('?') शब्द =लेन (टेक्स्ट। स्प्लिट ()) शब्दांश =0 टेक्स्ट में शब्द के लिए। स्प्लिट ():स्वर के लिए ['ए', 'ई',' i', 'o', 'u']:शब्दांश + =शब्द। गिनती (स्वर) ['es', 'ed', 'e'] में समाप्त होने के लिए:यदि शब्द। समाप्त होता है (समाप्त होता है):शब्दांश - =1 if word.endswith('le'):शब्दांश + =1 G =राउंड ((0.39*words)/Sentence+ (11.8*sylable)/words-15.59) अगर G> =0 और G <=30:प्रिंट ('The पठनीयता का स्तर कॉलेज है') elif G> =50 और G <=60:प्रिंट ('पठनीयता स्तर हाई स्कूल है') elif G> =90 और G <=100:प्रिंट ('पठनीयता स्तर इसके लिए है urth ग्रेड') प्रिंट ('इस टेक्स्ट में %d शब्द हैं'%(words)) elif UserFileName सूची में नहीं हैOfdir:प्रिंट ('यह टेक्स्ट फ़ाइल वर्तमान निर्देशिका में मौजूद नहीं है') elif not(UserFileName.endswith('.txt') )):प्रिंट करें ('यह टेक्स्ट फ़ाइल नहीं है।')
आउटपुट
फ़ाइल का नाम दर्ज करें:dataVisualization.txtपठनीयता स्तर कॉलेज हैइस पाठ में 64 शब्द हैं