Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

पायथन में IMDB डेटासेट को डाउनलोड और एक्सप्लोर करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?


Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है।

ऐसा इसलिए है क्योंकि यह NumPy और बहुआयामी सरणियों का उपयोग करता है। इन बहु-आयामी सरणियों को 'टेंसर' के रूप में भी जाना जाता है। ढांचा गहरे तंत्रिका नेटवर्क के साथ काम करने का समर्थन करता है। यह अत्यधिक स्केलेबल है, और कई लोकप्रिय डेटासेट के साथ आता है। यह GPU संगणना का उपयोग करता है और संसाधनों के प्रबंधन को स्वचालित करता है। यह मशीन लर्निंग लाइब्रेरी की भीड़ के साथ आता है, और अच्छी तरह से समर्थित और प्रलेखित है। ढांचे में गहरे तंत्रिका नेटवर्क मॉडल चलाने, उन्हें प्रशिक्षित करने और संबंधित डेटासेट की प्रासंगिक विशेषताओं की भविष्यवाणी करने वाले एप्लिकेशन बनाने की क्षमता है।

कोड की निम्न पंक्ति का उपयोग करके विंडोज़ पर 'टेंसरफ़्लो' पैकेज स्थापित किया जा सकता है -

पाइप इंस्टॉल टेंसरफ़्लो

Tensor एक डेटा संरचना है जिसका उपयोग TensorFlow में किया जाता है। यह प्रवाह आरेख में किनारों को जोड़ने में मदद करता है। इस प्रवाह आरेख को 'डेटा प्रवाह ग्राफ' के रूप में जाना जाता है। टेंसर कुछ और नहीं बल्कि बहुआयामी सरणी या एक सूची है। उन्हें तीन मुख्य विशेषताओं का उपयोग करके पहचाना जा सकता है -

'आईएमडीबी' डेटासेट में 50 हजार से अधिक फिल्मों की समीक्षाएं हैं। यह डेटासेट आमतौर पर प्राकृतिक भाषा प्रसंस्करण से जुड़े कार्यों के लिए उपयोग किया जाता है।

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है।

निम्नलिखित कोड है -

उदाहरण

आयात करें प्रिंट (tf.__version__)url ="https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"डेटासेट =tf.keras.utils.get_file("aclImdb_v1.tar.gz", url, untar=True, cache_dir='.', cache_subdir='')print("डेटासेट डाउनलोड किया जा रहा है")dataset_dir =os.path.join(os.path.dirname(dataset), 'aclImdb')print( "डाउनलोड किए गए फ़ोल्डर में निर्देशिकाएं हैं")os.listdir(dataset_dir)train_dir =os.path.join(dataset_dir, 'train')os.listdir(train_dir)print("डेटा का नमूना:")sample_file =os. path.join(train_dir, 'pos/1181_9.txt') open(sample_file) के साथ f:प्रिंट (f.read ())remove_dir =os.path.join(tr) के साथ ain_dir, 'unsup')shutil.rmtree(remove_dir)batch_size =32seed =42print("बैच का आकार है")प्रिंट(बैच_साइज़)raw_train_ds =tf.keras.preprocessing.text_dataset_from_directory('aclImdb/train',batch_size=batch_size,Validation_split_split =0.2, सबसेट ='प्रशिक्षण', बीज =बीज) टेक्स्ट_बैच के लिए, लेबल_बैच इन रॉ_ट्रेन_डीएस।टेक (1):आई इन रेंज (3) के लिए:प्रिंट ("समीक्षा", टेक्स्ट_बैच। numpy () [i]) प्रिंट ( "लेबल", label_batch.numpy()[i]) प्रिंट ("लेबल 0 से मेल खाती है", raw_train_ds.class_names [0]) प्रिंट ("लेबल 1 से मेल खाती है", raw_train_ds.class_names[1])raw_val_ds =tf.keras .preprocessing.text_dataset_from_directory('aclImdb/train', बैच_साइज़=बैच_साइज़, वेलिडेशन_स्प्लिट=0.2, सबसेट='वैलिडेशन', सीड=सीड)raw_test_ds =tf.keras.preprocessing.text_dataset_from_directory('aclImdb/test', बैच_साइज़)

कोड क्रेडिट - https://www.tensorflow.org/tutorials/keras/text_classification

आउटपुट

टेंसरफ्लो संस्करण है2.4.0डेटासेट डाउनलोड किया जा रहा हैडाउनलोड किए गए फ़ोल्डर में निर्देशिकाएं डेटा का नमूना हैं:राहेल ग्रिफिथ इस पुरस्कार विजेता लघु फिल्म को लिखते और निर्देशित करते हैं। दुःख का सामना करने और उन लोगों की स्मृति को संजोने के बारे में एक दिल को छू लेने वाली कहानी जिन्हें हमने प्यार किया और खो दिया। हालांकि, केवल 15 मिनट लंबे, ग्रिफ़िथ कम समय में फिल्म पर इतनी भावना और सच्चाई को पकड़ने का प्रबंधन करते हैं। बड टिंगवेल विल के रूप में एक मार्मिक प्रदर्शन देता है, एक विधुर अपनी पत्नी की मौत से निपटने के लिए संघर्ष कर रहा है। रूथ की पालतू गाय, ट्यूलिप की देखभाल करने के लिए आगे बढ़ने पर विल को अकेलेपन और लाचारी की कठोर वास्तविकता का सामना करना पड़ता है। फिल्म उस दुख और जिम्मेदारी को प्रदर्शित करती है जिसे वह प्यार करता है और खो देता है। अच्छी सिनेमैटोग्राफी, बेहतरीन निर्देशन और शानदार अभिनय। यह उन सभी के लिए आंसू लाएगा जिन्होंने किसी प्रियजन को खो दिया है, और बच गए हैं। बैच का आकार 32 है 2 वर्गों से संबंधित 25000 फाइलें मिलीं। प्रशिक्षण के लिए 20000 फाइलों का उपयोग करना। समीक्षा बी '' पैंडेमोनियम '' एक हॉरर फिल्म स्पूफ है जो अधिक बेवकूफी से निकलती है मजाकिया से। मेरा विश्वास करो जब मैं तुमसे कहता हूं, मुझे कॉमेडी पसंद है। खासकर कॉमेडी स्पूफ। "एयरप्लेन", "द नेकेड गन" त्रयी, "ब्लेजिंग सैडल्स", "हाई एंग्जाइटी" और "स्पेसबॉल" मेरी कुछ पसंदीदा कॉमेडी हैं जो एक विशेष शैली को धोखा देती हैं। "पंडोनियम" उन फिल्मों के साथ नहीं है। इस फिल्म के अधिकांश दृश्यों में मैं स्तब्ध खामोशी में बैठा था क्योंकि फिल्म इतनी मजेदार नहीं थी। फिल्म में कुछ हंसी आती है, लेकिन जब आप कोई कॉमेडी देखते हैं, तो आप कई गुना ज्यादा हंसने की उम्मीद करते हैं और इस फिल्म में बस इतना ही चल रहा है। गीज़, "चीख" इस फिल्म की तुलना में अधिक हंसी थी और वह एक डरावनी फिल्म थी। वह कितना विचित्र है?*1/2 (चार में से)'लेबल 0रिव्यू बी" डेविड मैमेट एक बहुत ही दिलचस्प और एक बहुत ही गैर-बराबर निर्देशक हैं। उनकी पहली फिल्म 'हाउस ऑफ गेम्स' मुझे सबसे अच्छी लगी थी, और यह ऐसे पात्रों के साथ फिल्मों की एक श्रृंखला सेट करें जिनके जीवन का दृष्टिकोण जटिल परिस्थितियों में आने पर बदल जाता है, और ऐसा ही दर्शक का दृष्टिकोण भी करता है। तो 'होमिसाइड' है जो शीर्षक से दर्शकों के दिमाग को सामान्य अपराध नाटक में सेट करने की कोशिश करता है। . प्रमुख पात्र दो पुलिस वाले हैं, एक यहूदी और एक आयरिश जो नस्लीय रूप से आरोपित क्षेत्र से निपटते हैं। एक पुराने यहूदी दुकान के मालिक की हत्या जो इजरायल के स्वतंत्रता संग्राम के एक प्राचीन वयोवृद्ध साबित होती है, मन और दिल में यहूदी पहचान को ट्रिगर करती है यहूदी जासूस की। यह फिल्म की खामियां थीं और अधिक स्पष्ट हैं। जागृति की प्रक्रिया नाटकीय और विश्वास करने में कठिन है, यहूदी उग्रवादियों का समूह ऑपरेटिव है, और जिस तरह से जासूस अंततः अंतिम हिंसक टकराव तक चलता है, वह है दयनीय। फिल्म का अंत आ गया एलएफ मैमेट की तरह स्मार्ट है, लेकिन मानवीय भावनात्मक दृष्टिकोण से निराश करता है। जो मेंटेगना और विलियम मैसी मजबूत प्रदर्शन देते हैं, लेकिन कहानी की खामियां इतनी स्पष्ट हैं कि आसानी से मुआवजा दिया जा सकता है। अब तक के सबसे भयानक आतंकवादी हमले के दौरान अग्निशामक .. यही कारण है कि यह कलेक्टरों की वस्तु को अवश्य देखना चाहिए .. जिस बात ने मुझे चौंका दिया वह न केवल हमले थे, बल्कि "उच्च वसा आहार" और इनमें से कुछ अग्निशामकों की शारीरिक उपस्थिति थी . मुझे लगता है कि बहुत सारे डॉक्टर मेरे साथ सहमत होंगे कि, वे जिस भौतिक आकार में थे, उनमें से कुछ अग्निशामक 60 एलबीएस से अधिक गियर लेकर 79वीं मंजिल तक नहीं पहुंचे थे। यह कहने के बाद कि अब मेरे मन में अग्निशामकों के लिए अधिक सम्मान है और मुझे एहसास है कि अग्निशामक बनना एक जीवन बदलने वाला काम है। फ्रांसीसी के पास महान वृत्तचित्र बनाने का इतिहास है और यही वह है, एक महान वृत्तचित्र ..... 'लेबल 1 लेबल 0 नकारात्मक लेबल 1 से मेल खाता है, 2 वर्गों से संबंधित 25000 फाइलें मिलीं। सत्यापन के लिए 5000 फाइलों का उपयोग करना .2 वर्गों से संबंधित 25000 फाइलें मिलीं।

स्पष्टीकरण

  • आवश्यक पैकेज आयात और उपनामित हैं।

  • ImdB डेटा लोड किया जाता है और Colab को एक्सेस करने के लिए एक स्थान पर संग्रहीत किया जाता है।

  • मूल डेटा का एक नमूना कंसोल पर प्रदर्शित होता है।

  • मूल डेटा को प्रशिक्षण और परीक्षण डेटासेट में विभाजित किया गया है।

  • प्रशिक्षण डेटा का उपयोग मॉडल बनाने के लिए किया जाता है।

  • दिए गए डेटा को नकारात्मक समीक्षा या सकारात्मक मान में वर्गीकृत करने का प्रयास किया जाता है।


  1. TensorFlow का उपयोग एक प्लॉट बनाने के लिए कैसे किया जा सकता है जो पायथन में प्रशिक्षित IMDB डेटासेट में प्रशिक्षण और सत्यापन सटीकता की कल्पना करता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। कोड की निम्न

  1. TensorFlow का उपयोग एक प्लॉट बनाने के लिए कैसे किया जा सकता है जो पायथन में IMDB डेटासेट में समय के संबंध में सटीकता और हानि की कल्पना करता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग पायथन के संयोजन में एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। आईएमडीबी डेटासेट

  1. TensorFlow का उपयोग टेंसर बनाने और पायथन का उपयोग करके एक संदेश प्रदर्शित करने के लिए कैसे किया जा सकता है?

    Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग एल्गोरिदम, गहन शिक्षण अनुप्रयोगों और बहुत कुछ को लागू करने के लिए पायथन के साथ संयोजन में किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन