Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

Tensorflow में टेक्स्ट डेटा के संबंध में विभाजन क्या है?

सेगमेंटेशन से तात्पर्य टेक्स्ट को शब्द जैसी इकाइयों में विभाजित करने की क्रिया से है। इसका उपयोग उन मामलों में किया जाता है जहां शब्दों को अलग करने के लिए स्पेस वर्णों का उपयोग किया जाता है, लेकिन चीनी और जापानी जैसी कुछ भाषाएं रिक्त स्थान का उपयोग नहीं करती हैं। जर्मन जैसी कुछ भाषाओं में लंबे यौगिक होते हैं जिन्हें उनके अर्थ का विश्लेषण करने के लिए विभाजित करने की आवश्यकता होती है।

और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है?

मॉडल जो प्राकृतिक भाषा को संसाधित करते हैं वे विभिन्न भाषाओं को संभालते हैं जिनमें अलग-अलग वर्ण सेट होते हैं। यूनिकोड को मानक एन्कोडिंग प्रणाली के रूप में माना जाता है जिसका उपयोग लगभग सभी भाषाओं के चरित्र का प्रतिनिधित्व करने के लिए किया जाता है। प्रत्येक वर्ण को एक अद्वितीय पूर्णांक कोड बिंदु की सहायता से एन्कोड किया गया है जो 0 और 0x10FFFF के बीच है। यूनिकोड स्ट्रिंग शून्य या अधिक कोड मानों का एक क्रम है।

आइए समझें कि पायथन का उपयोग करके यूनिकोड स्ट्रिंग्स का प्रतिनिधित्व कैसे करें, और यूनिकोड समकक्षों का उपयोग करने वालों में हेरफेर करें। सबसे पहले, हम यूनिकोड स्ट्रिंग्स को मानक स्ट्रिंग ऑप्स के यूनिकोड समकक्षों की सहायता से स्क्रिप्ट डिटेक्शन के आधार पर टोकन में अलग करते हैं।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

print("Below is the sentence that is processed")
sentence_texts = [u'Hello, there.', u'世界こんにちは']
print("The code point values for characters in the sentence")
sentence_char_codepoint = tf.strings.unicode_decode(sentence_texts, 'UTF-8')
print(sentence_char_codepoint)
print("The unicode script values for characters in the sentence")
sentence_char_script = tf.strings.unicode_script(sentence_char_codepoint)
print(sentence_char_script)

कोड क्रेडिट:https://www.tensorflow.org/tutorials/load_data/unicode

आउटपुट

Below is the sentence that is processed
The code point values for characters in the sentence

The unicode script values for characters in the sentence
<tf.RaggedTensor [[25, 25, 25, 25, 25, 0, 0, 25, 25, 25, 25, 25, 0], [17, 17, 20, 20, 20, 20, 20]]>

स्पष्टीकरण

  • सेगमेंटेशन टेक्स्ट को शब्द जैसी इकाइयों में विभाजित करने के कार्य को संदर्भित करता है।
  • इसका उपयोग तब किया जाता है जब स्पेस वर्णों का उपयोग शब्दों को अलग करने के लिए किया जाता है, लेकिन चीनी और जापानी जैसी कुछ भाषाएं रिक्त स्थान का उपयोग नहीं करती हैं।
  • जर्मन जैसी कुछ भाषाओं में लंबे यौगिक होते हैं जिन्हें उनके अर्थ का विश्लेषण करने के लिए विभाजित करने की आवश्यकता होती है।
  • वेब पर पाठ के लिए, विभिन्न भाषाओं और लिपियों को आमतौर पर एक साथ मिलाया जाता है, जैसा कि "NY株価" (न्यूयॉर्क स्टॉक एक्सचेंज) में होता है।
  • स्क्रिप्ट को अनुमानित शब्द सीमाओं में बदलकर, एमएल मॉडल का उपयोग किए बिना रफ सेगमेंटेशन किया जा सकता है।
  • यह "NY株価" जैसे स्ट्रिंग्स के लिए काम करेगा। यह अधिकांश भाषाओं के लिए काम करता है जो रिक्त स्थान का उपयोग करते हैं, क्योंकि विभिन्न लिपियों के अंतरिक्ष वर्णों को USCRIPT_COMMON के रूप में वर्गीकृत किया जाता है, जो एक विशेष स्क्रिप्ट कोड है जो किसी भी वास्तविक पाठ से अलग है।
  • उपरोक्त कोड में, प्रत्येक वाक्य में प्रत्येक वर्ण के लिए कोडपॉइंट उत्पन्न होता है।
  • अगला, प्रत्येक वाक्य में प्रत्येक वर्ण की यूनिकोड लिपि उत्पन्न होती है।

  1. QRGen के साथ दुर्भावनापूर्ण क्यूआर कोड

    क्यूआर कोड मशीन-पठनीय डेटा प्रारूप हैं जिनका उपयोग किसी भी चीज़ के लिए किया जाता है जिसे स्वचालित रूप से स्कैन करने की आवश्यकता होती है। कस्टम क्यूआर कोड में पैक किए गए कारनामों का उपयोग करके सामान्य कमजोरियों का फायदा उठाना संभव है क्योंकि यह उत्पाद पैकेजिंग से लेकर एयरलाइन बोर्डिंग पास आदि तक हर ज

  1. हैकर्स हैक की गई वेबसाइटों के साथ क्या करते हैं?

    2017 हैकर्स का साल था। सामग्री प्रबंधन प्रणाली, ई-कॉमर्स पोर्टल, डेटा उल्लंघनों से लेकर वित्तीय संस्थानों की हैक की गई वेबसाइटों तक, साइबर अपराध हर गुजरते साल के साथ बढ़ रहा है। 2017 में इक्विफैक्स डेटा ब्रीच में बड़े पैमाने पर वित्तीय डेटा चोरी, WannaCry साइबर अटैक जो 2017 का सबसे घातक रैंसमवेयर हम

  1. बिग डेटा में क्या गलत हो सकता है?

    बिग डेटा, मशीन लर्निंग और एल्गोरिथम के मूल में, उच्च मांग और शानदार सुविधाओं के कारण वर्तमान में चरम पर है। बिग डेटा एनालिटिक्स सॉल्यूशन हासिल करने के लिए कई कंपनियां इस क्षेत्र में विशेषज्ञता की मांग कर रही हैं। बिग डेटा की संस्कृति वर्तमान में दुनिया पर हावी हो रही है और एक मानक स्थापित करने में क