Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Python

Tensorflow का उपयोग उस डेटासेट को लोड करने के लिए कैसे किया जा सकता है जिसमें Python का उपयोग करके stackoverflow प्रश्न हैं?

Tensorflow एक मशीन लर्निंग फ्रेमवर्क है जो Google द्वारा प्रदान किया जाता है। यह एक ओपन-सोर्स फ्रेमवर्क है जिसका उपयोग पायथन के साथ एल्गोरिदम, डीप लर्निंग एप्लिकेशन और बहुत कुछ को लागू करने के लिए किया जाता है। इसका उपयोग अनुसंधान और उत्पादन उद्देश्यों के लिए किया जाता है। इसमें अनुकूलन तकनीकें हैं जो जटिल गणितीय कार्यों को शीघ्रता से करने में मदद करती हैं।

ऐसा इसलिए है क्योंकि यह NumPy और बहु-आयामी सरणियों का उपयोग करता है। इन बहु-आयामी सरणियों को 'टेंसर' के रूप में भी जाना जाता है। ढांचा एक गहरे तंत्रिका नेटवर्क के साथ काम करने का समर्थन करता है। यह अत्यधिक स्केलेबल है और कई लोकप्रिय डेटासेट के साथ आता है। यह GPU संगणना का उपयोग करता है और संसाधनों के प्रबंधन को स्वचालित करता है। यह मशीन लर्निंग लाइब्रेरी की भीड़ के साथ आता है, और अच्छी तरह से समर्थित और प्रलेखित है। ढांचे में गहरे तंत्रिका नेटवर्क मॉडल चलाने, उन्हें प्रशिक्षित करने और संबंधित डेटासेट की प्रासंगिक विशेषताओं की भविष्यवाणी करने वाले एप्लिकेशन बनाने की क्षमता है।

कोड की निम्न पंक्ति का उपयोग करके विंडोज़ पर 'टेंसरफ़्लो' पैकेज स्थापित किया जा सकता है -

pip install tensorflow

हम नीचे दिए गए कोड को चलाने के लिए Google सहयोग का उपयोग कर रहे हैं। Google Colab या Colaboratory ब्राउज़र पर पायथन कोड चलाने में मदद करता है और इसके लिए शून्य कॉन्फ़िगरेशन और GPU (ग्राफ़िकल प्रोसेसिंग यूनिट) तक मुफ्त पहुंच की आवश्यकता होती है। जुपिटर नोटबुक के ऊपर कोलैबोरेटरी बनाई गई है। डेटासेट लोड करने के लिए कोड स्निपेट निम्नलिखित है जिसमें पायथन का उपयोग करके स्टैक ओवरफ्लो प्रश्न शामिल हैं -

उदाहरण

batch_size = 32
seed = 42
print("The training parameters have been defined")
raw_train_ds = preprocessing.text_dataset_from_directory(
   train_dir,
   batch_size=batch_size,
   validation_split=0.25,
   subset='training',
   seed=seed)
for text_batch, label_batch in raw_train_ds.take(1):
   for i in range(10):
      print("Question: ", text_batch.numpy()[i][:100], '...')
      print("Label:", label_batch.numpy()[i])

कोड क्रेडिट - https://www.tensorflow.org/tutorials/load_data/text

आउटपुट

The training parameters have been defined
Found 8000 files belonging to 4 classes.
Using 6000 files for training.
Question: b'"my tester is going to the wrong constructor i am new to programming so if i ask a
question that can' ...
Label: 1
Question: b'"blank code slow skin detection this code changes the color space to lab and using a
threshold finds' ...
Label: 3
Question: b'"option and validation in blank i want to add a new option on my system where i
want to add two text' ...
Label: 1
Question: b'"exception: dynamic sql generation for the updatecommand is not supported against
a selectcommand th' ...
Label: 0
Question: b'"parameter with question mark and super in blank, i\'ve come across a method that
is formatted like t' ...
Label: 1
Question: b'call two objects wsdl the first time i got a very strange wsdl. ..i would like to call the
object (i' ...
Label: 0
Question: b'how to correctly make the icon for systemtray in blank using icon sizes of any
dimension for systemt' ...
Label: 0
Question: b'"is there a way to check a variable that exists in a different script than the original
one? i\'m try' ...
Label: 3
Question: b'"blank control flow i made a number which asks for 2 numbers with blank and
responds with the corre' ...
Label: 0
Question: b'"credentials cannot be used for ntlm authentication i am getting
org.apache.commons.httpclient.auth.' ...
Label: 1

स्पष्टीकरण

  • डेटा को डिस्क से लोड किया जाता है और इसे प्रशिक्षण के लिए उपयुक्त रूप में तैयार किया जाता है।

  • लेबल डेटासेट बनाने के लिए 'text_dataset_from_dataset' उपयोगिता का उपयोग किया जाता है।

  • 'tf.Data' टूल का एक संग्रह है जो शक्तिशाली है और इनपुट पाइपलाइन बनाने के लिए उपयोग किया जाता है।

  • एक निर्देशिका संरचना 'text_dataset_from_dataset' उपयोगिता को पास की जाती है।

  • StackOverflow प्रश्न डेटासेट को प्रशिक्षण और परीक्षण डेटासेट में विभाजित किया गया है।

  • 'Validation_split' पद्धति का उपयोग करके एक सत्यापन सेट बनाया जाता है।

  • लेबल या तो 0, या 1, या 2, या 3 हैं।


  1. पायथन का उपयोग करके मॉडल को प्रशिक्षित करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    मॉडल को Tensorflow में ट्रेन पद्धति का उपयोग करके प्रशिक्षित किया जा सकता है, जहां युगों (मॉडल को फिट करने के लिए डेटा को प्रशिक्षित करने की संख्या) और प्रशिक्षण डेटा निर्दिष्ट किया जाता है। और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए TensorFlow के साथ काम करता है? हम

  1. पायथन का उपयोग करके डेटा की कल्पना करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    मान लें कि हमारे पास फूल डेटासेट है। फूल डेटासेट को Google API का उपयोग करके डाउनलोड किया जा सकता है जो मूल रूप से फूल डेटासेट से लिंक होता है। एपीआई को पैरामीटर के रूप में पास करने के लिए get_file विधि का उपयोग किया जा सकता है। एक बार ऐसा करने के बाद, डेटा पर्यावरण में डाउनलोड हो जाता है। इसे मैटप

  1. पायथन का उपयोग करके फूल डेटासेट की कल्पना करने के लिए Tensorflow का उपयोग कैसे किया जा सकता है?

    फूल डेटासेट को मैटप्लोटलिब लाइब्रेरी की मदद से देखा जा सकता है। कंसोल पर छवि प्रदर्शित करने के लिए इमशो विधि का उपयोग किया जाता है। संपूर्ण डेटासेट को पुनरावृत्त किया जाता है, और केवल पहली कुछ छवियां प्रदर्शित होती हैं। और पढ़ें: TensorFlow क्या है और Keras कैसे तंत्रिका नेटवर्क बनाने के लिए Tensor