डेटा विश्लेषण के लिए पायथन में संख्याओं के साथ स्ट्रिंग्स को बदलना

कभी-कभी डेटा विश्लेषण में एक स्ट्रिंग को एक संख्या (int/float) में बदलने की आवश्यकता होती है। प्रत्येक स्ट्रिंग के लिए, हम स्ट्रिंग मानों में अंतर करने के लिए एक अद्वितीय पूर्णांक मान निर्दिष्ट कर सकते हैं।

इसके लिए हम डेटा को कॉमा सेपरेटेड वैल्यू (सीएसवी) फाइलों में इस्तेमाल करते हैं। मान लें कि हमारे पास एक एक्सेल फ़ाइल है जिसमें सीएसवी डेटा है -

कंपनी	उद्योग	सिफारिश
एचडीएफसी बैंक	वित्त	पकड़ो
अपोलो	स्वास्थ्य देखभाल	खरीदें
हीरो	ऑटोमोबाइल	खराब प्रदर्शन
यस बैंक	वित्त	पकड़ो
एम एंड एम	ऑटोमोबाइल	खराब प्रदर्शन
फोर्टिस	स्वास्थ्य देखभाल	खरीदें
मारुति	ऑटोमोबाइल	खराब प्रदर्शन

ऊपर एक बड़े डेटासेट से कुछ पंक्तियाँ हैं, हमें अलग-अलग अनुशंसाएँ देने की आवश्यकता है। खरीदें, होल्ड करें, अंडरपरफॉर्म करें आदि पूर्णांक मान, जो हमारे मेटाडेटा से लिंक होंगे। तो उपरोक्त इनपुट के लिए, हमारा अपेक्षित आउटपुट कुछ इस तरह होगा -

कंपनी	उद्योग	सिफारिश
एचडीएफसी बैंक	वित्त	2
अपोलो	स्वास्थ्य देखभाल	1
हीरो	ऑटोमोबाइल	3
यस बैंक	वित्त	2
एम एंड एम	ऑटोमोबाइल	3
फोर्टिस	स्वास्थ्य देखभाल	1
मारुति	ऑटोमोबाइल	3

हमारे स्ट्रिंग (स्तंभ मान) को पूर्णांक में बदलने का एक तरीका यहां दिया गया है।

कोड 1

#Import required library
import pandas as pd
#Import the CSV file into Python using read_csv() from pandas
dataframe = pd.read_csv("data_pandas1.csv")
#Create the dictionary of key-value pair, where key is
#your old value(string) and value is your new value(integer).
Recommendation = {'Buy': 1, 'Hold': 2, 'Underperform': 3}
#Assign these different key-value pair from above dictiionary to your table
dataframe.Recommendation = [Recommendation[item] for item in dataframe.Recommendation]
#New table
print(dataframe)

परिणाम

          Company         Industry        Recommendation
   0    HDFC Bank          Finance         2
   1    Apollo             Healthcare      1
   2    Hero               Automobile      3
   3    Yes Bank           Finance         2
   4    M&M                Automobile      3
   5    Fortis             Healthcare      1 
   6    Maruti             Automobile      3

उपरोक्त कोड लिखने का एक और तरीका है, जहां हम एक शब्दकोश के साथ सौदा नहीं करते हैं, इसके बजाय हम सीधे कॉलम फ़ील्ड (यहां अनुशंसाएं) के लिए एक और मान निर्दिष्ट करते हैं यदि स्थिति मेल खाती है।

#Import required library
import pandas as pd
#Import the CSV file into Python using read_csv() from pandas
dataf = pd.read_csv("data_pandas1.csv")
#Directly assigning individual fields of Recommendation column different integer value
#if condition matches .i.e.In the dataframe, recommendation columns we have "Buy" we'll assign
# integer 1 to it.
dataf.Recommendation[data.Recommendation =='Buy'] =1
dataf.Recommendation[data.Recommendation =='Hold'] =2
dataf.Recommendation[data.Recommendation =='Underperform'] =3
print(dataf)

परिणाम

    Company      Industry       Recommendation
0    HDFC Bank    Finance        2
1    Apollo       Healthcare     1
2    Hero         Automobile     3
3    Yes Bank     Finance        2
4    M&M          Automobile     3
5    Fortis       Healthcare     1
6    Maruti       Automobile     3

ऊपर मैंने आपकी तालिका (सीएसवी प्रारूप फ़ाइल) में स्ट्रिंग डेटा को पूर्णांक मान में बदलने के एकमात्र तरीके का उल्लेख किया है और ऐसे कई उदाहरण सामने आते हैं जब आपको अपने डेटा फ़ील्ड को स्ट्रिंग से पूर्णांक में बदलने की समान आवश्यकता होती है।