RedisDays NY 2022 में, हमने अपनी नई वेक्टर समानता खोज (VSS) क्षमता के सार्वजनिक पूर्वावलोकन की घोषणा की। VSS RediSearch 2.4 का हिस्सा है और Docker, Redis Stack, और Redis Enterprise Cloud की मुफ़्त और निश्चित सदस्यताओं पर उपलब्ध है।
इस लेख में, मैं आपको रेडिस वीएसएस के साथ शुरुआत करने के लिए वेक्टर समानता, और इसके अनुप्रयोगों और संसाधनों को साझा करने की मूल बातें बताऊंगा!
वेक्टर समानता क्या है?
सरल शब्दों में, यह इस बात का माप है कि दो या दो से अधिक सदिश कितने भिन्न (या समान) हैं। संख्याओं की सूची के रूप में एक वेक्टर के बारे में सोचें।
इसके मूल में, वेक्टर खोज डेवलपर्स को ऑडियो, प्राकृतिक भाषा, छवियों, वीडियो क्लिप, वॉयस रिकॉर्डिंग और कई अन्य प्रकार के डेटा के आधार पर जानकारी प्राप्त करने की अनुमति देती है। असंरचित डेटा पर खोज करना VSS को उन्नत समानता खोज अनुभव बनाने के लिए एक मूलभूत तकनीक बनाता है।
ये वेक्टर मेरे डेटा के लिए कैसे उत्पन्न होते हैं?एआई में प्रगति के साथ, डेटा वैज्ञानिक ऐसे मॉडल बना सकते हैं जो लगभग किसी भी डेटा "इकाई" को अपने वेक्टर प्रतिनिधित्व में बदल सकते हैं। यहां एक इकाई एक लेन-देन, एक उपयोगकर्ता प्रोफ़ाइल, एक छवि, एक ध्वनि, पाठ का एक लंबा टुकड़ा (वाक्य या पैराग्राफ), एक समय श्रृंखला या एक ग्राफ हो सकता है। इनमें से किसी को भी इसके "फीचर वेक्टर" में बदला जा सकता है, जिसे "एम्बेडिंग" भी कहा जाता है।
इन एम्बेडिंग का क्या अर्थ है?वेक्टर एम्बेडिंग डेटा का संख्यात्मक प्रतिनिधित्व है। वे एक इकाई की सबसे आवश्यक विशेषताओं को इस तरह से कैप्चर करते हैं कि कंप्यूटर और डेटाबेस आसानी से तुलना कर सकें। यहां दिलचस्प बात यह है कि यदि कोई मॉडल दो संस्थाओं के लिए दो समान एम्बेडिंग (वैक्टर) उत्पन्न करता है, तो आप अनुमान लगा सकते हैं कि दो मूल इकाइयां कुछ मौलिक तरीके से समान हैं।
क्या मुझे इन एम्बेडिंग को उत्पन्न करने के लिए एक डेटा वैज्ञानिक होने की आवश्यकता है?बिल्कुल भी नहीं! कई स्वतंत्र रूप से उपलब्ध एआई मॉडल और पुस्तकालय हैं जो डेवलपर्स को पाठ, छवि या समय-श्रृंखला डेटा से एम्बेडिंग उत्पन्न करने की अनुमति देते हैं। उदाहरण के लिए, आप वाक्यों के लिए एम्बेडिंग उत्पन्न करने के लिए हगिंगफेस सेंटेंस ट्रांसफॉर्मर का उपयोग कर सकते हैं, छवियों के लिए एम्बेडिंग उत्पन्न करने के लिए Img2Vec और समय-श्रृंखला डेटा के लिए एम्बेडिंग उत्पन्न करने के लिए फेसबुक कैट का उपयोग कर सकते हैं। एआई/एमएल प्रैक्टिशनर अपनी डेटा इकाइयों के लिए "घने" फीचर प्रतिनिधित्व (उर्फ एम्बेडिंग) उत्पन्न करने की अवधारणा से परिचित हैं। वे अब इन फीचर वैक्टर को रेडिस में स्टोर कर सकते हैं और उन पर समानता की खोज कर सकते हैं।
वेक्टर समानता खोज के साथ किस तरह के एप्लिकेशन बनाए जा सकते हैं ?
ऐसे कई दैनिक अनुप्रयोग हैं जिनके साथ आप इंटरैक्ट करते हैं जो वेक्टर समानता खोज पर निर्भर करते हैं।
ई-कॉमर्स वेबसाइट पर विजुअल सर्च से लेकर ऑटोमेटेड चैटबॉट्स/क्यू एंड ए सिस्टम और कई तरह के रिकमेंडेशन सिस्टम। आम तौर पर, आप वीएसएस को किसी भी ऐप पर उपयोगी पाएंगे जहां वास्तविक समय में समानता का पता लगाना मूल्य को अनलॉक करने के लिए आवश्यक है। कुछ सामान्य उपयोग के मामले नीचे सूचीबद्ध हैं:
- ई-कॉमर्स अनुशंसाएं:उन्नत खोज अनुभवों और उत्पाद अनुशंसाओं को सशक्त बनाने के लिए दृश्य समानता और/या अर्थ संबंधी समानता का उपयोग करें
- सिमेंटिक समानता:परिष्कृत खोज अनुभव, चैटबॉट, या यहां तक कि प्रश्न और उत्तर प्रणाली का निर्माण करें
- समय-श्रृंखला डेटा में समानता:ऐतिहासिक पैटर्न में समानता के आधार पर बीमारी फैलाने वाले पैटर्न या व्यापार के अवसरों की समानताएं खोजें
- ग्राफ डेटा में समानता:अभिनेताओं या नेटवर्क के विभिन्न (संभवतः असंबंधित) सेटों में कनेक्शन के समान पैटर्न को प्रकट करें।
- लेन-देन की समानता:संभावित धोखाधड़ी या खतरों का पता लगाएं जो पहले से पता चला धोखाधड़ी/खतरे के प्रयासों की समानता के आधार पर हों
- उपयोगकर्ता प्रोफ़ाइल या उत्पादों की समानता:वैयक्तिकृत अनुशंसाएँ उत्पन्न करें; एम्बेडिंग डेटा द्वारा प्रकट पैटर्न के आधार पर अपने ग्राहक विभाजन को परिशोधित करें
RediSearch एक Redis मॉड्यूल है जो Redis हैश या JSON प्रारूप के रूप में संग्रहीत Redis डेटा के लिए क्वेरी क्षमता, द्वितीयक अनुक्रमण और पूर्ण-पाठ खोज प्रदान करता है। Redis 2.4 के साथ, Redis ने वेक्टर समानता खोज के लिए समर्थन पेश किया।
RediSearch 2.4 के साथ, Redis डेवलपर कर सकते हैं:
- रेडिस हैश में बीएलओबी के रूप में संग्रहीत सूचकांक और क्वेरी वेक्टर डेटा
- दो लोकप्रिय अनुक्रमण विधियों का उपयोग करें:FLAT और HNSW
- तीन सामान्य वेक्टर दूरी मेट्रिक्स का उपयोग करें:कोसाइन, आंतरिक उत्पाद, और यूक्लिडियन दूरी
- हाइब्रिड क्वेरी निष्पादित करें जो GEO, NUMERIC, TAG, या TEXT डेटा पर पारंपरिक RediSearch फ़िल्टरिंग क्षमताओं के साथ वेक्टर समानता को जोड़ती हैं। ई-कॉमर्स सेटिंग में हाइब्रिड क्वेरी का एक सामान्य उदाहरण है, "दी गई क्वेरी इमेज के समान दिखने वाले आइटम ढूंढें, जो किसी GEO स्थान में और मूल्य सीमा के भीतर उपलब्ध आइटम तक सीमित हैं"।
यदि आप पाइथन के साथ काम कर रहे हैं, तो इन्हें आजमाएं:
- सार्वजनिक अमेज़ॅन डेटासेट पर दृश्य और अर्थपूर्ण समानता
- वित्तीय समाचार लेखों में भावना विश्लेषण और अर्थ संबंधी समानता
जावा के लिए, आप इस बुनियादी डेमो को आजमा सकते हैं जो दिखाता है कि एक इंडेक्स कैसे बनाया जाता है, डेटा लोड किया जाता है, और क्वेरी की जाती है।
इन दो RedisDays 2022 सत्रों के रिप्ले देखने का प्रयास करें:
- मुख्य भाषण :अपने "वित्तीय सेवाओं" अनुप्रयोगों में रीयल-टाइम एआई डालें
- पर्दे के पीछे: कॉर्पोरेट फाइलिंग में दबे ट्रेडिंग सिग्नल को प्रकट करने के लिए एआई का उपयोग करना
सत्र अब ऑन-डिमांड देखने के लिए उपलब्ध हैं। आप हमेशा "वेक्टर के साथ काम करना" पर RediSearch दस्तावेज़ देख सकते हैं।
RediSearch 2.4 के साथ Redis डेटाबेस बनाने के तीन आसान तरीके हैं।
अपने टर्मिनल से, आप इसे निम्न में से किसी एक के साथ प्राप्त कर सकते हैं:
1) डॉकर - "डॉकर रन -पी 6379:6379 रेडिसलैब्स / रिडिसर्च:2.4.5"
2) रेडिस स्टैक - "ब्रू इंस्टाल रेडिस-स्टैक" (मैक ओएस से)। अन्य ऑपरेटिंग सिस्टम के लिए, "Redis Stack के साथ आरंभ करना" का प्रयास करें
3) अंत में, आप रेडिस एंटरप्राइज क्लाउड के साथ एक मुफ्त सदस्यता भी बना सकते हैं
यदि आप Redis Enterprise Cloud सदस्यता मार्ग से नीचे जाते हैं, तो "Redis Stack . का उपयोग करना सुनिश्चित करें ” विकल्प है क्योंकि इसमें RediSearch 2.4 शामिल है।