भारत कृत्रिम मेधा यानी एआई क्रांति के मुहाने पर खड़ा है, जिससे सब कुछ बदल जाएगा। खेती करने के तरीके से लेकर हम कैसे सीखते हैं या इलाज करते हैं और सरकार के शासन करने के तरीके तक। फिर भी, देश की व्यापक हिंदी पट्टी के 60 करोड़ हिंदी बोलने वालों के लिए कड़वी सच्चाई यही है कि एआई कौशल को लेकर राष्ट्रीय स्तर पर आई तेजी के बावजूद उत्तर प्रदेश, बिहार, मध्य प्रदेश, राजस्थान और छत्तीसगढ़ जैसे राज्य अभी एआई इकोनॉमी में भागीदारी करने के लिए पर्याप्त रूप से तैयार नहीं हैं।

इन राज्यों के अनेक शहरी और ग्रामीण जिलों में डिजिटल इन्फ्रॉस्ट्रक्चर आज भी भरोसेमंद नहीं है। यहां हाई स्पीड इंटरनेट तक पहुंच सीमित है और आधुनिक कम्यूटिंग सुविधाएं भी नहीं हैं। इसके अलावा भाषा भी यहां रोड़ा है। भारत के लिए बुनियादी एआई मॉडल्स बनाने की दिशा में एक बड़ी चुनौती देश की व्यापक भाषायी विविधता है। 22 आधिकारिक भाषाएं, सैकड़ों बोलियां और लाखों बहुभाषी लोगों के साथ भारत में एक अड़चन यह भी है कि इस स्थिति से निपटने में अभी कुछ ही मौजूदा एलएलएम यानी लार्ज लैग्वेंज मॉडल्स सक्षम हैं।
लार्ज लैंग्वेज मॉडल्स (LLMs) सर्वाधिक शक्तिशाली एआई नवाचारों में से एक है और यह एआई से संचालित ऐसा सिस्टम है, जो आदमियों जैसे पाठ तैयार कर सकता है। ये मॉडल्स सीखने की गहन तकनीक और व्यापक डाटाशीट्स के प्रशिक्षण से तैयार किए गए हैं, जिनमें किताबों, लेखों, विकीपीडिया, शोध पत्रों और संवादों का इस्तेमाल किया जाता है।
वास्तव में लार्ज लैंग्वेज मॉडल्स (LLMs) डाटा के भूखे हैं, उन्हें विविध तरह के ढेर से पाठ चाहिए। हिंदी और अन्य भारतीय भाषाओं के लिए एआई के प्रशिक्षण में सबसे बड़ी अड़चन उच्च गुणवत्ता और ज्ञान आधारित सघन डाटा की कमी है। इंटरनेट की अधिकांश सामग्री, खासतौर से तकनीकी, कानूनी या अकादमिक जानकारियां अंग्रेजी में हैं, लिहाजा ग्लोबल मॉडल दुनिया के बारे में अंग्रेजी में मिली जानकारी के आधार पर ट्रेंड होते हैं, और भारतीय भाषाओं का प्रतिनिधित्व कम होता है।
यही नहीं, हमारे समृद्ध सांस्कृतिक ज्ञान का बहुत सा हिस्सा अब तक डिजिटल नहीं हुआ है। यह मौखिक कहानियों, हस्तलिखित नोट्स या बिखरे दस्तावेजों में है और हमेशा यह उपलब्ध भी नही है और प्रशिक्षण के लिहाज से दुरुस्त भी नहीं है। और फिर हिंदी की अपनी जटिलताएं हैं, यह सिर्फ एक भाषा भर नहीं है, इसकी बहुत सी बोलियां हैं और रोजमर्रा के इस्तेमाल में इसमें अंग्रेजी या अन्य भाषाओं के शब्द घुलमिल जाते हैं। अधिकांश एआई सिस्टम इस तर की भाषायी जटिलताओं को नियंत्रित करने के लिए नहीं बनाए गए हैं।
भारतीय भाषाएं कितनी अनुकूल
अमेरिका स्थित एमआईटी टेक्नोलॉजी रिव्यू में हाल ही में छपे एक लेख का यह अंश देखें, “अंग्रेजी के उलट, जिसमें शब्दों को स्पेस से अलग किया जाता है और जिसकी बनावट सरल होती है, हिंदी, तमिल और कन्नड़ जैसी भारतीय भाषाओं में अक्सर शब्दों की सीमा स्पष्ट नहीं होती। एक ही शब्द में ढेर-सी सूचनाएं जुड़ी होती हैं।
ऐसे में स्टैंडर्ड टोकेनाइजर ( इंटरनेट पर ओपन सर्च से संबंधित टूल) के लिए ढेर से इनपुट मुश्किल पैदा करते हैं। ये भारतीय शब्दों को कई तरह के टोकन में बांट देते हैं, जिससे एआई मॉडल को उन शब्दों के सटीक अर्थ जानने में मुश्किल होती है, जिससे वह सही तरीके से रिस्पांड नहीं कर पाते। “2025 की स्थिति यह है कि वैश्विक रूप से सारी वेबसाइट में से 0.1 फीसदी से भी कम हिंदी को अपनी प्राइमरी कंटेंट भाषा के रूप में इस्तेमाल करते हैं। जबकि 49.4 फीसदी वेब कंटेंट के साथ अंग्रेजी का वर्चस्व है।
चीन ने अपने कंटेंट को मंदारीन में डिजिटल करने की शुरुआत की थी, जिसमें सरकार ने मदद की और इसके लिए कठोर डिजिटल व्यवस्था की गई। इसके उलट भारत में भाषायी बहुलता है और कहीं अधिक मुक्त है। लेकिन जब बात एआई की आती है, तो यह लाभ देश के हित के खिलाफ जाता है। इसके बावजूद कुछ भारतीय संस्थापक देश के एआई भविष्य को आकार दे रहे हैं। जैसा कि सॉकेट एआई लैब्स ऐंड प्रोजेक्ट ईकेए के संस्थापक अभिषेक उप्परवाल कहते हैं, “हिंदीभाषी क्षेत्रों में एआई प्रशिक्षण में सबसे बड़ी चुनौती केवल इन्फ्रॉस्ट्रक्चर या जागरूकता की नहीं है, बल्कि भाषायी पहुंच की है।“
अधिकांश आधुनिक एआई सिस्टम का निर्माण अंग्रेजी को केंद्र में रख कर किया गया है। कोड असिस्टेंट जैसे टूल्स सटीक और धारा प्रवाह अंग्रेजी इनपुट की अपेक्षा करते हैं। भारत में यह बड़ी बाधा बन जाती है। अंग्रेजी में धाराप्रवाह एआई के सार्थक इस्तेमाल की पूर्व शर्त है, यह कुछ लोगों के लिए विशेषाधिकार है, तो लाखों लोगों के लिए बाधा। यह विभाजन ग्रामीण और अर्ध शहरी क्षेत्रों में साफ देखा जा सकता है। वहां के लोगों में जागरुकता की कमी नहीं है और न ही जिज्ञासा की।
दरअसल वह इस सिस्टम से इसलिए बाहर हैं, क्योंकि एआई न तो उनकी भाषा समझता है और न ही उनकी दुनिया को समझता है। “प्रोजेक्ट ईकेए एक दूरंदेशी पहल है और वह भारत के लिए संप्रभु बहुभाषी बुनियादी एआई मॉडल विकसित करना चाहता है। ऐसा मॉडल जो देश की भाषायी, सांस्कृतिक और सामाजिक-आर्थिक विविधता को ध्यान में रखे और एआई संप्रभुता को बढ़ावा देते हुए वैश्विक एआई सिस्टम से स्पर्धा कर सके।
उप्परवाल कहते हैं, “यह मॉडल खुले में विकसित किया जा रहा है और इसे ओपन सोर्स लाइसेंस के तहत जारी किया जाएगा। हम इसीलिए सीधे ग्रामीण समुदायों के साथ काम कर रहे हैं ताकि डाटा का भाष्य तैयार कर सकें और एप्लीकेशंस का परीक्षण हो सके। वे सिर्फ यूजर्स नहीं हैं, बल्कि क्रिएटर्स भी हैं। आवाज आधारित कानूनी सहायता से लेकर स्थानीय बोलियों में बोलने वाले कृषि-सलाहकार बॉट्स तक, हम ऐसे परिदृश्य का निर्माण कर रहे हैं, जहां एआई सबलीकरण का टूल बने, न कि बहिष्करण का। “
भले ही कोई मॉडल हिंदी को प्रोसेस कर सके, फिर भी वह अक्सर गहरे सांस्कृतिक संदर्भों को समझने में चूक कर जाता है। केवल अंग्रेजी कंटेंट का अनुवाद करना पर्याप्त नहीं है।
उप्परवाल कहते हैं, “हिंदी बोलने वालों के लिए एआई को उपयोगी बनाने के लिए हमें ऐसे डाटा की जरूरत है, जो यह प्रतिबिंबित करें कि लोग कैसे बात करते हैं, सोचते हैं और जीवन जीते हैं। लोगों को अंग्रेजी एआई के अनुकूल तैयार करने के बजाए हम ऐसा एआई बना रहे हैं, जो लोगों को अपनाए।“
उप्परवाल की इस पहल के अलावा भी कई अन्य बड़ी पहलें भी हो रही हैं। उदाहरण के लिए OpenHathi-Hi-v0.1 द्वारा तैयार ओपन सोर्स के हिंदी भाषा के मॉडल सर्वम एआई (Sarvam AI) भारतीय एआई क्षेत्र भारत की व्यापक भाषायी विविधता को संबोधित करने की बढ़ती क्षमता को दिखाता है।
सर्वम प्रोजेक्ट और अन्य प्रोजेक्ट कहीं अधिक बड़ी रणनीति इंडियन एआई मिशन का हिस्सा हैं। 1.25 अरब डॉलर की यह पहल मार्च 2024 में शुरू की गई थी और इसका मकसद है भारत का अहम एआई इन्फ्रास्ट्रक्चर स्थापित करना औऱ इस अत्याधुनिक टूल तक व्यापक रूप से पहुंच बढ़ाना।
भाषायी विभाजन को कैसे खत्म करेगा एआई
एआई भाषायी विभाजन को खत्म करने की दिशा में, खासतौर से हिंदी और अन्य क्षेत्रीय भाषाओं के मामले में भाषिनी (Bhashini) भारत की सर्वाधिक महत्वाकांक्षी पहल है। यह केवल ट्रांसलेशन का टूल भर नहीं है, बल्कि यह नेशनल लैंगवेज टेक्नोलॉजी मिशन है, जिसकी शुरुआत डिजिटल इंडिया के तहत एआई को सही अर्थों में बहुभाषी और समावेशी बनाने के लिए की गई है। भाषिनी हिंदी और अन्य भारतीय भाषाओं में बड़े पैमाने पर ओपन-सोर्स डाटा सेट का निर्माण कर रहा है और उसे व्यवस्थित कर रहा है।
अभी तो यह शुरुआत है, लेकिन एआई में आई तेजी ने भारत में उद्योगों को नया रूप देना शुरू कर दिया है, मसलन, कस्टमर सर्विस बॉट्स और लॉजिस्टिक एल्गोरिदम। समस्या यह है कि इसका लाभ अभी समान रूप से वितरित नहीं हो रहा है। बंगलुरू और हैदराबाद जैसे टेक हब इसमें पूरी तरह से जुटे हुए हैं और बूटकैम्प्स, स्टार्टअप और प्रशिक्षण कार्यक्रमों के साथ एआई कुशल कर्मचारी तैयार कर रहे हैं। इस बीच, हिंदी पट्टी को इस दिशा में बहुत कुछ किया जाना है।
जैसा कि अनुमान था, एआई रोजगार परिदृश्य को भी बदल रहा है, जिसमें सबसे लोकप्रिय भूमिकाओं के लिए डिजिटल दक्षता और एआई उपकरणों के साथ सहजता की मांग है। हिंदी-अनुकूल प्रशिक्षण के अभाव में, हिंदी पट्टी के युवा अवसरों से वंचित रहने का जोखिम उठा रहे हैं, उन्हें केवल यह देखने के लिए छोड़ दिया जा रहा है कि अवसर उन लोगों के पास जा रहे हैं, जो अंग्रेजी-आधारित प्रणालियों को नेविगेट कर सकते हैं। एआई संपन्न और उससे दूर लोगों के बीच का अंतर तेजी से बढ़ रहा है।
यदि भारत एक ऐसा भविष्य चाहता है, जहां सभी को अवसर मिले, तो उसे एआई को हिंदी, भोजपुरी, मारवाड़ी जैसी हिंदी पट्टी की भाषाओं और बांग्ला जैसी अन्य क्षेत्रीय भाषाओं में बोलने योग्य बनाना होगा। एका (EKA) और भाषिणी (Bhashini) जैसे प्रोजेक्ट रास्ता दिखाते हैं, लेकिन उन्हें धन, नीति और अनथक प्रयास की जरूरत है। जैसा कि उप्परवाल हमें याद दिलाते हैं, “भारत की एआई क्रांति की मुख्य चुनौती तकनीकी नहीं है—यह भाषाई है।” अब कार्रवाई करने का समय है—इससे पहले कि डिजिटल विभाजन एक डिजिटल खाई बन जाए।