पांडस श्रृंखला में वैध ईमेल फ़िल्टर करने के लिए नियमित अभिव्यक्ति (रेगेक्स) का उपयोग कैसे करें?

रेगुलर एक्सप्रेशन वर्णों का एक क्रम है जो एक खोज पैटर्न को परिभाषित करता है। इस कार्यक्रम में, हम वैध और अमान्य ईमेल को फ़िल्टर करने के लिए इन नियमित अभिव्यक्तियों का उपयोग करेंगे।

हम अलग-अलग ईमेल के साथ एक पांडा श्रृंखला को परिभाषित करेंगे और जांचेंगे कि कौन सा ईमेल मान्य है। हम रे नामक एक अजगर पुस्तकालय का भी उपयोग करेंगे जिसका उपयोग रेगेक्स उद्देश्यों के लिए किया जाता है।

एल्गोरिदम

Step 1: Define a Pandas series of different email ids.
Step 2: Define a regex for checking validity of emails.
Step 3: Use the re.search() function in the re library for checking the validity of the email.

उदाहरण कोड

import pandas as pd
import re

series = pd.Series(['jimmyadams123@gmail.com', 'hellowolrd.com'])
regex = '^[a-z0-9]+[\._]?[a-z0-9]+[@]\w+[.]\w{2,3}$'
for email in series:
   if re.search(regex, email):
      print("{}: Valid Email".format(email))
   else:
      print("{} : Invalid Email".format(email))

आउटपुट

jimmyadams123@gmail.com: Valid Email
hellowolrd.com : Invalid Email

स्पष्टीकरण

रेगेक्स वेरिएबल में निम्नलिखित प्रतीक हैं:

^ :स्ट्रिंग की शुरुआत के लिए एंकर
[ ] :वर्गाकार कोष्ठक खोलना और बंद करना एक वर्ण से मेल खाने के लिए एक वर्ण वर्ग को परिभाषित करता है
\ :एस्केप कैरेक्टर
<मजबूत>। :डॉट न्यूलाइन सिंबल को छोड़कर किसी भी कैरेक्टर से मेल खाता है
{} :ओपनिंग और क्लोजिंग कर्ली ब्रैकेट्स का इस्तेमाल रेंज डेफिनिशन के लिए किया जाता है
$ :डॉलर का चिह्न स्ट्रिंग के अंत का लंगर है