सेगमेंटेशन से तात्पर्य टेक्स्ट को शब्द जैसी इकाइयों में विभाजित करने की क्रिया से है। इसका उपयोग उन मामलों में किया जाता है जहां शब्दों को अलग करने के लिए स्पेस वर्णों का उपयोग किया जाता है, लेकिन चीनी और जापानी जैसी कुछ भाषाएं रिक्त स्थान का उपयोग नहीं करती हैं। जर्मन जैसी कुछ भाषाओं में लंबे यौगिक होते हैं जिन्हें उनके अर्थ का विश्लेषण करने के लिए विभाजित करने की आवश्यकता होती है।
और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?
मॉडल जो प्राकृतिक भाषा को संसाधित करते हैं वे विभिन्न भाषाओं को संभालते हैं जिनमें अलग-अलग वर्ण सेट होते हैं। यूनिकोड को मानक एन्कोडिंग प्रणाली के रूप में माना जाता है जिसका उपयोग लगभग सभी भाषाओं के चरित्र का प्रतिनिधित्व करने के लिए किया जाता है। प्रत्येक वर्ण को एक अद्वितीय पूर्णांक कोड बिंदु की सहायता से एन्कोड किया गया है जो 0 और 0x10FFFF के बीच है। यूनिकोड स्ट्रिंग शून्य या अधिक कोड मानों का एक क्रम है।
आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।
हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।
print("Below is the sentence that is processed") sentence_texts = [u'Hello, there.', u'世界こんにちは'] print("The code point values for characters in the sentence") sentence_char_codepoint = tf.strings.unicode_decode(sentence_texts, 'UTF-8') print(sentence_char_codepoint) print("The unicode script values for characters in the sentence") sentence_char_script = tf.strings.unicode_script(sentence_char_codepoint) print(sentence_char_script)
कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode
आउटपुट
Below is the sentence that is processed The code point values for characters in the sentence The unicode script values for characters in the sentence <tf.RaggedTensor [[25, 25, 25, 25, 25, 0, 0, 25, 25, 25, 25, 25, 0], [17, 17, 20, 20, 20, 20, 20]]>
स्पष्टीकरण
- सेगमेंटेशन टेक्स्ट को शब्द जैसी इकाइयों में विभाजित करने के कार्य को संदर्भित करता है।
- इसका उपयोग तब किया जाता है जब स्पेस वर्णों का उपयोग शब्दों को अलग करने के लिए किया जाता है, लेकिन चीनी और जापानी जैसी कुछ भाषाएं रिक्त स्थान का उपयोग नहीं करती हैं।
- जर्मन जैसी कुछ भाषाओं में लंबे यौगिक होते हैं जिन्हें उनके अर्थ का विश्लेषण करने के लिए विभाजित करने की आवश्यकता होती है।
- वेब पर पाठ के लिए, विभिन्न भाषाओं और लिपियों को आमतौर पर एक साथ मिलाया जाता है, जैसा कि "NY株価" (न्यूयॉर्क स्टॉक एक्सचेंज) में होता है।
- स्क्रिप्ट को अनुमानित शब्द सीमाओं में बदलकर, एमएल मॉडल का उपयोग किए बिना रफ सेगमेंटेशन किया जा सकता है।
- यह "NY株価" जैसे स्ट्रिंग्स के लिए काम करेगा। यह अधिकांश भाषाओं के लिए काम करता है जो रिक्त स्थान का उपयोग करते हैं, क्योंकि विभिन्न लिपियों के अंतरिक्ष वर्णों को USCRIPT_COMMON के रूप में वर्गीकृत किया जाता है, जो एक विशेष स्क्रिप्ट कोड है जो किसी भी वास्तविक पाठ से अलग है।
- उपरोक्त कोड में, प्रत्येक वाक्य में प्रत्येक वर्ण के लिए कोडपॉइंट उत्पन्न होता है।
- अगला, प्रत्येक वाक्य में प्रत्येक वर्ण की यूनिकोड लिपि उत्पन्न होती है।