Computer >> कंप्यूटर >  >> प्रोग्रामिंग >> Redis

रीयल-टाइम AI/ML के लिए फ़ीचर स्टोर:बेंचमार्क, आर्किटेक्चर, और केस स्टडीज

रीयल-टाइम आर्टिफिशियल इंटेलिजेंस/मशीन लर्निंग (एआई/एमएल) उपयोग के मामले, जैसे कि धोखाधड़ी की रोकथाम और सिफारिश, बढ़ रहे हैं, और फीचर स्टोर उन्हें सफलतापूर्वक उत्पादन में तैनात करने में महत्वपूर्ण भूमिका निभाते हैं। लोकप्रिय ओपन सोर्स फीचर स्टोर पर्व के अनुसार, उपयोगकर्ताओं द्वारा अपने समुदाय स्लैक में पूछे जाने वाले सबसे आम प्रश्नों में से एक है:कैसे स्केलेबल/परफॉर्मेंट पर्व है?  इसका कारण यह है कि रीयल-टाइम एआई/एमएल के लिए फीचर स्टोर की सबसे महत्वपूर्ण विशेषता ऑनलाइन स्टोर से एमएल मॉडल तक ऑनलाइन पूर्वानुमान या स्कोरिंग के लिए फीचर सर्विंग स्पीड है। सफल फीचर स्टोर कठोर विलंबता आवश्यकताओं (मिलीसेकंड में मापा जाता है), लगातार (पी 99 सोचें) और पैमाने पर (गीगाबाइट्स से टेराबाइट्स-आकार के डेटासेट के साथ लाखों प्रश्नों तक) को पूरा कर सकते हैं, जबकि एक ही समय में कम कुल लागत बनाए रख सकते हैं स्वामित्व और उच्च सटीकता।

जैसा कि हम इस पोस्ट में देखेंगे, एक ऑनलाइन फीचर स्टोर की पसंद, साथ ही फीचर स्टोर की वास्तुकला, यह निर्धारित करने में महत्वपूर्ण भूमिका निभाती है कि यह कितना प्रदर्शनकारी और लागत प्रभावी है। इसमें कोई आश्चर्य की बात नहीं है कि कई बार कंपनियां, अपना ऑनलाइन फीचर स्टोर चुनने से पहले, यह देखने के लिए पूरी तरह से बेंचमार्किंग करती हैं कि आर्किटेक्चर या ऑनलाइन फीचर स्टोर का कौन सा विकल्प सबसे अधिक प्रदर्शन करने वाला और लागत प्रभावी है। इस पोस्ट में, हम रियल-टाइम एआई/एमएल उपयोग मामलों और ओपन सोर्स और कमर्शियल फीचर स्टोर्स को सफलतापूर्वक तैनात करने वाली कंपनियों द्वारा बनाए गए दोनों DIY फीचर स्टोर से आर्किटेक्चर और बेंचमार्क की समीक्षा करेंगे। आइए शुरू करते हैं।

<एच2>1. खुला स्रोत पर्व

आइए पहले बेंचमार्किंग डेटा और फिर पर्व ओपन सोर्स फीचर स्टोर के डेटा आर्किटेक्चर पर एक नज़र डालें। Feast ने हाल ही में विभिन्न ऑनलाइन स्टोर (Redis बनाम Google Cloud DataStore बनाम AWS DynamoDB) का उपयोग करते समय अपनी सुविधा की सेवा विलंबता की तुलना करने के लिए एक बेंचमार्क किया था। इसने सुविधाओं को निकालने के लिए विभिन्न तंत्रों का उपयोग करने की गति की तुलना की (जैसे जावा जीआरपीसी सर्वर, पायथन एचटीटीपी सर्वर, लैम्ब्डा फ़ंक्शन, आदि)। आप इस ब्लॉग पोस्ट में पूर्ण बेंचमार्क सेटअप और उसके परिणाम पा सकते हैं। निचला रेखा:Feast ने पाया कि यह Java gRPC सर्वर का उपयोग करने वाला अब तक का सबसे अधिक प्रदर्शन करने वाला था और Redis के साथ ऑनलाइन स्टोर था।

रीयल-टाइम AI/ML के लिए फ़ीचर स्टोर:बेंचमार्क, आर्किटेक्चर, और केस स्टडीज

ऊपर दिए गए चित्र में आप एक उदाहरण देख सकते हैं कि कैसे ऑनलाइन मॉर्गेज कंपनी बेटर डॉट कॉम ने ओपन-सोर्स फीस्ट फीचर स्टोर का उपयोग करके अपनी लीड स्कोरिंग रैंकिंग प्रणाली को लागू किया। जैसा कि बेटर डॉट कॉम के वरिष्ठ सॉफ्टवेयर इंजीनियर विटाली सर्गेई द्वारा प्रस्तुत किया गया है, सुविधाओं को ऑफलाइन स्टोर (एस 3, स्नोफ्लेक, और रेडशिफ्ट) से ऑनलाइन स्टोर (रेडिस) में लागू किया गया है। इसके अलावा, स्ट्रीमिंग स्रोतों (काफ्का विषयों) से ऑनलाइन स्टोर में सुविधाओं को भी शामिल किया जाता है। Feast ने हाल ही में स्ट्रीमिंग डेटा स्रोतों (बैच डेटा स्रोतों के अतिरिक्त) के लिए समर्थन जोड़ा है जो वर्तमान में केवल Redis के लिए समर्थित है। रीयल-टाइम AI/ML उपयोग के मामलों के लिए स्ट्रीमिंग डेटा स्रोतों का समर्थन करना बहुत महत्वपूर्ण है क्योंकि ये उपयोग के मामले ताज़ा लाइव डेटा पर निर्भर करते हैं।

उदाहरण के तौर पर, Better.com के लिए लीड स्कोरिंग उपयोग के मामले में, दिन भर में लगातार नई लीड प्राप्त की जा रही हैं। सुविधाएँ कई अलग-अलग स्रोतों से आती हैं, और दोनों संस्थाएँ (लीड) और उन्हें स्कोर करने के लिए उपयोग की जाने वाली सुविधाएँ हर समय अपडेट होती रहती हैं, इस प्रकार, लीड को रैंक किया जाता है और फिर से रैंक किया जाता है। जैसे ही कोई नई लीड आती है, इसे मॉडल द्वारा अंतर्ग्रहण और स्कोर किया जाता है। उसी समय जब इसे ऑनलाइन स्टोर में डाला जाता है, तो हम जल्द ही इसे फिर से रैंक करना चाह सकते हैं। बेटर डॉट कॉम लीड 48 घंटों के बाद समाप्त हो जाती है, और यह रेडिस ऑनलाइन स्टोर में 48 घंटों के बाद इकाई (लीड) और सहयोगी फीचर वैक्टर को समाप्त करने के लिए केवल 48 घंटे तक रहने का समय (टीटीएल) निर्धारित करके लागू किया जाता है। तो फीचर स्टोर अपने आप साफ हो जाता है और मूल्यवान ऑनलाइन स्टोरेज लेने वाली कोई पुरानी संस्था या सुविधाएं नहीं हैं।

दावत का एक और दिलचस्प कार्यान्वयन Microsoft Azure फ़ीचर स्टोर है। आप यहां इसकी वास्तुकला को देख सकते हैं। यह एज़्योर क्लाउड पर चलता है जो कम विलंबता वास्तविक समय एआई / एमएल उपयोग के मामलों के लिए अनुकूलित है, बैच और स्ट्रीमिंग दोनों स्रोतों का समर्थन करता है, साथ ही साथ एज़्योर डेटा और एआई पारिस्थितिकी तंत्र में एकीकरण भी करता है। सुविधाओं को ऑनलाइन स्टोर में बैच स्रोतों (Azure Synapse Serverless SQL, Azure Storage / ADLS) और स्ट्रीमिंग स्रोतों (Azure Event Hub) दोनों से लिया जाता है। यदि आप पहले से ही Azure पर तैनात हैं या Azure पारिस्थितिकी तंत्र से परिचित हैं, तो यह फीचर स्टोर आपके लिए सही हो सकता है। ऑनलाइन स्टोर के लिए, यह रेडिस के लिए एज़्योर कैश का उपयोग करता है, और एज़्योर रेडिस के एंटरप्राइज टियर के साथ, इसमें 99.999% उपलब्धता के साथ विश्व स्तर पर वितरित कैश बनाने के लिए सक्रिय-सक्रिय जियो-डुप्लीकेशन शामिल है। इसके अलावा, डेटा को स्टोर करने के लिए इन-मेमोरी (डीआरएएम) और फ्लैश मेमोरी (एनवीएमई या एसएसडी) दोनों का उपयोग करने वाले टियर मेमोरी आर्किटेक्चर पर रेडिस को चलाने के लिए एंटरप्राइज फ्लैश टियर का उपयोग करके लागत में और कटौती की जा सकती है।

2. Wix DIY फीचर स्टोर – MLOps प्लेटफॉर्म की आधारशिला

रीयल-टाइम एआई/एमएल उपयोग के मामलों को लागू करने के लिए एक अलग आर्किटेक्चर नीचे दिया गया है। यह लोकप्रिय वेबसाइट निर्माण प्लेटफॉर्म Wix का फीचर स्टोर आर्किटेक्चर है। इसका उपयोग रीयल-टाइम उपयोग के मामलों जैसे अनुशंसाओं, मंथन और प्रीमियम भविष्यवाणियों, रैंकिंग और स्पैम क्लासिफायर के लिए किया जाता है। Wix 200M से अधिक पंजीकृत उपयोगकर्ताओं को सेवा प्रदान करता है, जिनमें से केवल एक छोटा अंश किसी भी समय 'सक्रिय उपयोगकर्ता' होता है। फीचर स्टोर को लागू करने के तरीके पर इसका बड़ा प्रभाव पड़ा। आइए इसे देखें।

नीचे दी गई जानकारी TechTalk प्रस्तुति पर आधारित है जिसे रैन रोमानो ने Wix में ML इंजीनियरिंग के प्रमुख के रूप में दिया था। Wix फीचर स्टोर में संग्रहीत 90% से अधिक डेटा क्लिकस्ट्रीम हैं और ML मॉडल प्रति वेबसाइट या प्रति उपयोगकर्ता ट्रिगर होते हैं। रैन बताते हैं कि रीयल-टाइम उपयोग के मामलों के लिए, विलंबता एक बड़ा मुद्दा है। साथ ही, उनके कुछ उत्पादन उपयोग मामलों के लिए, उन्हें मिलीसेकंड के भीतर फ़ीचर वैक्टर निकालने की आवश्यकता होती है।

रीयल-टाइम AI/ML के लिए फ़ीचर स्टोर:बेंचमार्क, आर्किटेक्चर, और केस स्टडीज

अपरिष्कृत डेटा को S3 बकेट में AWS पर Parquet फ़ाइलों में संग्रहीत किया जाता है, और व्यावसायिक इकाइयों (जैसे 'संपादक', 'रेस्तरां', 'बुकिंग,' आदि) द्वारा विभाजित किया जाता है और फिर तिथि के अनुसार। यह अपने डेटा विश्लेषकों द्वारा उपयोग किए जाने वाले Wix डेटा प्लेटफ़ॉर्म का हिस्सा है, जो वर्षों से Wix ML प्लेटफ़ॉर्म से पहले का था। एक दैनिक निर्माण . में स्पार्क, एसक्यूएल (जिसमें मिनटों से घंटों तक का समय लगता है) का उपयोग करते हुए बैच प्रक्रिया, उपयोगकर्ता के सभी इतिहास सुविधाओं को एस 3 से निकाला जाता है और उपयोगकर्ता द्वारा एकत्र किया जाता है, और ऑफ़लाइन स्टोर (अपाचे एचबेस) में डाला जाता है। यह 'उपयोगकर्ता' द्वारा, अपने उपयोगकर्ताओं के इतिहास की तलाश में बहुत तेज़ प्रदान करता है। एक बार जब सिस्टम यह पता लगा लेता है कि उपयोगकर्ता वर्तमान में सक्रिय है, तो एक 'वार्मअप' प्रक्रिया शुरू हो जाती है और उस उपयोगकर्ता की सुविधाओं को ऑनलाइन स्टोर (रेडिस) में लोड किया जाता है जो कि ऑफ़लाइन स्टोर से बहुत छोटा है क्योंकि इसमें केवल सक्रिय उपयोगकर्ताओं का उपयोगकर्ता इतिहास होता है। इस 'वार्मअप' प्रक्रिया में कई सेकंड लग सकते हैं। और अंत में, ऑनलाइन फीचर स्टोर में सुविधाओं को उपयोगकर्ता से आने वाली प्रत्येक घटना (अपाचे स्टॉर्म का उपयोग करके) स्ट्रीमिंग स्रोतों से सीधे ताजा लाइव रीयल-टाइम डेटा का उपयोग करके लगातार अपडेट किया जाता है।

इस प्रकार के आर्किटेक्चर में फिस्ट आर्किटेक्चर की तुलना में राइट टू रीड का अनुपात कम होता है, जो भौतिकीकरण और ऑनलाइन स्टोरेज के मामले में बहुत कुशल है क्योंकि यह सभी उपयोगकर्ताओं के लिए केवल ऑनलाइन स्टोर में सक्रिय उपयोगकर्ताओं के लिए सुविधाओं को संग्रहीत करता है। क्योंकि सक्रिय उपयोगकर्ता Wix के भीतर सभी पंजीकृत उपयोगकर्ताओं का एक छोटा सा अंश बनाते हैं, यह एक बड़ी बचत का प्रतिनिधित्व करता है। हालाँकि, यह एक कीमत पर आता है। ऑनलाइन स्टोर से सुविधाओं को पुनर्प्राप्त करना बहुत तेज़ है, मिलीसेकंड के भीतर, यह केवल तभी होता है जब सुविधाएं ऑनलाइन स्टोर में पहले से मौजूद हों। दौड़ की स्थिति के कारण, क्योंकि वार्मअप प्रक्रिया में कई सेकंड लगते हैं, उपयोगकर्ता के सक्रिय होने पर प्रासंगिक सुविधाओं को लोड करने के लिए यह पर्याप्त तेज़ नहीं होगा। तो, उस उपयोगकर्ता के लिए स्कोरिंग या भविष्यवाणी बस विफल हो जाएगी। यह तब तक ठीक है जब तक कि उपयोग का मामला महत्वपूर्ण प्रवाह का हिस्सा नहीं है या मिशन-महत्वपूर्ण उपयोग के मामलों जैसे लेनदेन को मंजूरी देना या धोखाधड़ी को रोकना है। इस प्रकार का आर्किटेक्चर Wix के लिए भी बहुत विशिष्ट है, जिसमें किसी भी समय उपयोगकर्ताओं का केवल एक छोटा अंश ही सक्रिय उपयोगकर्ता होता है।

3. वाणिज्यिक फ़ीचर स्टोर टेक्टन

आइए अब कमर्शियल एंटरप्राइज फीचर स्टोर टेक्टन के आर्किटेक्चर को देखें। जैसा कि हम नीचे दिए गए आरेख में देख सकते हैं, बैच डेटा स्रोतों और स्ट्रीमिंग डेटा स्रोतों के अलावा, टेक्टन 'आउट-ऑफ-द-बॉक्स' रीयल-टाइम डेटा स्रोतों का भी समर्थन करता है। इन्हें 'रीयल-टाइम सुविधाएं . भी कहा जाता है ' या 'वास्तविक समय' परिवर्तन। रीयल-टाइम सुविधाओं की गणना केवल अनुमान अनुरोध पर ही की जा सकती है। उदाहरण के लिए संदिग्ध लेनदेन के आकार और अंतिम लेनदेन के आकार के बीच का अंतर। इसलिए, ऊपर ओपन सोर्स Feast के साथ Better.com के मामले में, Better.com ने रीयल-टाइम सुविधाओं के लिए अपने दम पर समर्थन विकसित किया। टेक्टन फीचर स्टोर के साथ, इसे लागू करना आसान है क्योंकि यह पहले से ही फीचर स्टोर द्वारा समर्थित है। Feast और Wix फीचर स्टोर की तरह, Tecton भी रजिस्ट्री में सुविधाओं को परिभाषित करता है ताकि तार्किक परिभाषा को ऑफ़लाइन और ऑनलाइन स्टोर दोनों के लिए एक बार परिभाषित किया जा सके। यह उत्पादन में भी एमएल मॉडल की उच्च सटीकता सुनिश्चित करने के लिए प्रशिक्षण-सेवा तिरछा को काफी कम करता है।

रीयल-टाइम AI/ML के लिए फ़ीचर स्टोर:बेंचमार्क, आर्किटेक्चर, और केस स्टडीज

ऑफलाइन स्टोर, ऑनलाइन स्टोर और बेंचमार्किंग के विकल्प के संबंध में, टेक्टन एस3 को सपोर्ट करता है, ऑफलाइन फीचर स्टोर के लिए टेक्टन अब अपने ग्राहकों को डायनेमोडीबी और रेडिस एंटरप्राइज क्लाउड के बीच एक विकल्प प्रदान करता है। हाल ही में एक प्रस्तुति में, टेक्टन सीटीओ केविन स्टंपफ ने कंपनी द्वारा हाल ही में किए गए बेंचमार्क के आधार पर अपना ऑनलाइन फीचर स्टोर चुनने के तरीके के बारे में सुझाव दिए। बेंचमार्किंग लेटेंसी और थ्रूपुट के अलावा, टेक्टन ने ऑनलाइन स्टोर की लागत को भी बेंचमार्क किया। यह महत्वपूर्ण क्यों है? उच्च थ्रूपुट या कम विलंबता उपयोग के मामलों के लिए, ऑनलाइन स्टोर की लागत पूरे एमएलओपीएस प्लेटफॉर्म के स्वामित्व की कुल लागत का एक बड़ा और महत्वपूर्ण हिस्सा हो सकती है, इसलिए कोई भी लागत बचत पर्याप्त हो सकती है।

टेक्टन की बेंचमार्किंग की निचली पंक्ति यह है कि टेक्टन के उपयोगकर्ताओं के लिए विशिष्ट उच्च थ्रूपुट उपयोग के मामलों के लिए, रेडिस एंटरप्राइज 3x तेज था और साथ ही डायनेमोडीबी की तुलना में 14x कम खर्चीला था।

तो आप क्या कैच पूछ सकते हैं? यदि आपके पास केवल एक उपयोग का मामला है, और इसमें उच्च या सुसंगत थ्रूपुट नहीं है, और इसकी कोई सख्त विलंबता आवश्यकता नहीं है, तो आप डायनेमोडीबी के साथ जा सकते हैं। आप टेक्टन के बेंचमार्क का पूरा विवरण और परिणाम यहां देख सकते हैं।

4. कमर्शियल फ़ीचर स्टोर Qwak का उपयोग कर लाइट्रिक्स

फीचर स्टोर आर्किटेक्चर का एक और उदाहरण नीचे दिया गया है। इसका उपयोग लाइट्रिक्स द्वारा किया जाता है, जो वाणिज्यिक फीचर स्टोर Qwak पर आधारित है। लाइट्रिक्स एक यूनिकॉर्न कंपनी है जो वीडियो और इमेज एडिटिंग मोबाइल ऐप विकसित करती है, जो विशेष रूप से अपने सेल्फी-एडिटिंग ऐप, फेसट्यून के लिए जानी जाती है। यह अपने अनुशंसा प्रणाली के लिए फीचर स्टोर का उपयोग करता है।

रीयल-टाइम AI/ML के लिए फ़ीचर स्टोर:बेंचमार्क, आर्किटेक्चर, और केस स्टडीज

जैसा कि ऊपर दिए गए चित्र में दिखाया गया है, टेक्टन की तरह, Qwak फीचर स्टोर तीन प्रकार के फीचर स्रोतों का समर्थन करता है - बैच, स्ट्रीमिंग और रीयल-टाइम फीचर्स।

यह ध्यान रखना महत्वपूर्ण है कि Qwak फीचर स्टोर के साथ, फीचर स्टोर में सुविधाओं का भौतिककरण सीधे ऑफ़लाइन स्टोर (S3 पर Parquet फ़ाइलों का उपयोग करके) और ऑनलाइन स्टोर (Redis का उपयोग करके) दोनों के लिए कच्चे डेटा स्रोतों से किया जाता है। यह Wix, Feast, या Tecton के फ़ीचर स्टोर उदाहरणों की तुलना में भिन्न है जिसमें बैच स्रोतों के लिए ऑनलाइन स्टोर का भौतिककरण ऑफ़लाइन स्टोर से ऑनलाइन स्टोर तक किया जाता है। इसका यह फायदा है कि न केवल एक फीचर का ट्रांसफॉर्मेशन लॉजिक ट्रेनिंग और सर्विंग फ्लो में एकीकृत होता है (जैसा कि ऊपर Feast, Wix और Tecton के फीचर स्टोर के साथ है), बल्कि वास्तविक ट्रांसफॉर्मेशन या फीचर कंप्यूटेशन भी समान रूप से किया जाता है, और कम होता जाता है प्रशिक्षण-सेवारत तिरछा। कच्चे डेटा से सीधे ऑफ़लाइन और ऑनलाइन के लिए एक एकीकृत डेटा पाइपलाइन होने से उत्पादन के दौरान और भी अधिक सटीकता सुनिश्चित करने की क्षमता है। आप इस प्रस्तुति में Qwak के फीचर स्टोर आर्किटेक्चर और घटकों के बारे में अधिक जानकारी प्राप्त कर सकते हैं।

सारांश

इस पोस्ट में, हमने रीयल-टाइम AI/ML के लिए कई फ़ीचर स्टोर्स के बेंचमार्क और आर्किटेक्चर की मुख्य विशेषताओं की समीक्षा की। पहला ओपन सोर्स फीस्ट है, दूसरा DIY Wix फीचर स्टोर, तीसरा टेक्टन से और चौथा Qwak द्वारा। हमने इन कंपनियों द्वारा किए गए कुछ बेंचमार्क के हाइलाइट्स की भी समीक्षा की, यह देखने के लिए कि कौन सा ऑनलाइन स्टोर सबसे अधिक प्रदर्शन करने वाला और सबसे अधिक लागत प्रभावी है। हमने यह भी पता लगाया कि ऑनलाइन स्टोर से सुविधाओं को निकालने के लिए किस तंत्र या फीचर सर्वर का उपयोग करना है। हमने देखा कि आर्किटेक्चर, समर्थित प्रकार की सुविधाओं और चयनित घटकों के आधार पर फीचर स्टोर के प्रदर्शन और लागत में महत्वपूर्ण अंतर हैं।

मूल रूप से में प्रकाशित केडनगेट्स .


  1. सर्वर रहित और एज के लिए वैश्विक डेटाबेस

    हाल के वर्षों में, सर्वर रहित आर्किटेक्चर और एज कंप्यूटिंग अनुप्रयोग परिनियोजन के लिए बहुत लोकप्रिय हो रहे हैं। लेकिन एप्लिकेशन स्टेट और सर्वर रहित और/या एज फ़ंक्शन के अंदर डेटा संग्रहीत करना एक अलग कहानी है। कई कठिनाइयाँ हैं जैसे; डेटाबेस से कनेक्शन का प्रबंधन, कई स्थानों से डेटा को तेज़ एक्सेस के

  1. विंडोज न्यूज रिकैप:माइक्रोसॉफ्ट एज विंडोज 11 माइक्रोसॉफ्ट स्टोर पर दिखाई देता है, माइक्रोसॉफ्ट स्टोर फॉर बिजनेस एंड एजुकेशन विंडोज 11 पर नहीं होगा, और बहुत कुछ

    हमारे विंडोज न्यूज रिकैप में आपका स्वागत है, जहां हम माइक्रोसॉफ्ट के फ्लैगशिप ऑपरेटिंग सिस्टम की दुनिया में पिछले हफ्ते की शीर्ष कहानियों पर जाते हैं। Microsoft Store for Business and Education Windows 11 पर शिप नहीं होगा और 2023 में EOL तक पहुंच जाएगा विंडोज 10 में माइक्रोसॉफ्ट स्टोर फॉर बिजनेस

  1. Mozilla Firefox अब विंडोज 10 और 11 के लिए माइक्रोसॉफ्ट स्टोर पर उपलब्ध है

    (नीचे ऐप के लिंक के साथ अपडेट किया गया) विंडोज 10 और विंडोज 11 पीसी के लिए माइक्रोसॉफ्ट स्टोर आज मोज़िला फ़ायरफ़ॉक्स के साथ अपने पहले प्रमुख वेब ब्राउज़र का स्वागत कर रहा है। यह लोकप्रिय ब्राउज़र को विंडोज उपयोगकर्ताओं के लिए ढूंढना और डाउनलोड करना आसान बना देगा, और फ़ायरफ़ॉक्स कई हाई-प्रोफाइल का अ