AWS ग्लू डेटा कैटलॉग में क्रॉलर शुरू करने के लिए Boto3 का उपयोग कैसे करें

इस लेख में, हम देखेंगे कि कैसे एक उपयोगकर्ता AWS ग्लू डेटा कैटलॉग में क्रॉलर शुरू कर सकता है।

उदाहरण

समस्या कथन: boto3 . का उपयोग करें एक क्रॉलर शुरू करने के लिए पायथन में पुस्तकालय।

इस समस्या को हल करने के लिए दृष्टिकोण/एल्गोरिदम

चरण 1: आयात करें boto3 और बोटोकोर अपवादों को संभालने के लिए अपवाद
चरण 2: क्रॉलर_नाम इस फ़ंक्शन में पैरामीटर है।
चरण 3: boto3 lib . का उपयोग करके AWS सत्र बनाएं . सुनिश्चित करें कि क्षेत्र_नाम डिफ़ॉल्ट प्रोफ़ाइल में उल्लेख किया गया है। यदि इसका उल्लेख नहीं है, तो स्पष्ट रूप से region_name . पास करें सत्र बनाते समय।
चरण 4: गोंद . के लिए AWS क्लाइंट बनाएं ।
चरण 5: अब start_crawler . का उपयोग करें कार्य करें और पैरामीटर पास करें crawler_name नाम के रूप में।
चरण 6: यह प्रतिक्रिया मेटाडेटा देता है और क्रॉलर को इसके शेड्यूल के बावजूद शुरू करता है। यदि क्रॉलर की स्थिति चल रही है, तो यह CrawlerRunningException फेंकता है ।
चरण 7: क्रॉलर शुरू करते समय कुछ गलत होने पर सामान्य अपवाद को संभालें।

उदाहरण कोड

निम्न कोड AWS ग्लू डेटा कैटलॉग में क्रॉलर शुरू करता है -

import boto3
from botocore.exceptions import ClientError

def start_a_crawler(crawler_name)
   session = boto3.session.Session()
   glue_client = session.client('glue')
   try:
      response = glue_client.start_crawler(Name=crawler_name)
      return response
   except ClientError as e:
      raise Exception("boto3 client error in start_a_crawler: " + e.__str__())
   except Exception as e:
      raise Exception("Unexpected error in start_a_crawler: " + e.__str__())

#1st time start the crawler
print(start_a_crawler("Data Dimension"))
#2nd time run, before crawler completes the operation
print(start_a_crawler("Data Dimension"))

आउटपुट

#1st time start the crawler
{'ResponseMetadata': {'RequestId': '73e50130-*****************8e', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Sun, 28 Mar 2021 07:26:55 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '2', 'connection': 'keep-alive', 'x-amzn-requestid': '73e50130-***************8e'}, 'RetryAttempts': 0}}

#2nd time run, before crawler completes the operation
Exception: boto3 client error in start_a_crawler: An error occurred (CrawlerRunningException) when calling the StartCrawler operation: Crawler with name Data Dimension has already started