[
The Lens
  • होम
  • लेंस रिपोर्ट
  • देश
  • दुनिया
  • छत्तीसगढ़
  • बिहार
  • आंदोलन की खबर
  • सरोकार
  • लेंस संपादकीय
    • Hindi
    • English
  • वीडियो
  • More
    • खेल
    • अन्‍य राज्‍य
    • धर्म
    • अर्थ
    • Podcast
Latest News
‘भूपेश है तो भरोसा है’ फेसबुक पेज से वायरल वीडियो पर FIR, भाजपा ने कहा – छत्तीसगढ़ में दंगा कराने की कोशिश
क्या DG कॉन्फ्रेंस तक मेजबान छत्तीसगढ़ को स्थायी डीजीपी मिल जाएंगे?
पाकिस्तान ने सलमान खान को आतंकवादी घोषित किया
राहुल, प्रियंका, खड़गे, भूपेश, खेड़ा, पटवारी समेत कई दलित नेता कांग्रेस के स्टार प्रचारकों की सूची में
महाराष्ट्र में सड़क पर उतरे वंचित बहुजन आघाड़ी के कार्यकर्ता, RSS पर बैन लगाने की मांग
लखनऊ एक्सप्रेस-वे पर AC बस में लगी भयानक आग, 70 यात्री बाल-बाल बचे
कांकेर में 21 माओवादियों ने किया सरेंडर
RTI के 20 साल, पारदर्शिता का हथियार अब हाशिए पर क्यों?
दिल्ली में 15.8 डिग्री पर रिकॉर्ड ठंड, बंगाल की खाड़ी में ‘मोंथा’ तूफान को लेकर अलर्ट जारी
करूर भगदड़ हादसा, CBI ने फिर दर्ज की FIR, विजय कल पीड़ित परिवारों से करेंगे मुलाकात
Font ResizerAa
The LensThe Lens
  • लेंस रिपोर्ट
  • देश
  • दुनिया
  • छत्तीसगढ़
  • बिहार
  • आंदोलन की खबर
  • सरोकार
  • लेंस संपादकीय
  • वीडियो
Search
  • होम
  • लेंस रिपोर्ट
  • देश
  • दुनिया
  • छत्तीसगढ़
  • बिहार
  • आंदोलन की खबर
  • सरोकार
  • लेंस संपादकीय
    • Hindi
    • English
  • वीडियो
  • More
    • खेल
    • अन्‍य राज्‍य
    • धर्म
    • अर्थ
    • Podcast
Follow US
© 2025 Rushvi Media LLP. All Rights Reserved.
सरोकार

एआई के लिए कितनी तैयार है हिंदी पट्टी

पत्रलेखा चटर्जी
पत्रलेखा चटर्जी
Byपत्रलेखा चटर्जी
Follow:
Published: July 16, 2025 3:46 PM
Last updated: September 23, 2025 5:05 PM
Share
Artificial Intelligence
SHARE
The Lens को अपना न्यूज सोर्स बनाएं

भारत कृत्रिम मेधा यानी एआई क्रांति के मुहाने पर खड़ा है, जिससे सब कुछ बदल जाएगा। खेती करने के तरीके से लेकर हम कैसे सीखते हैं या इलाज करते हैं और सरकार के शासन करने के तरीके तक। फिर भी, देश की व्यापक हिंदी पट्टी के 60 करोड़ हिंदी बोलने वालों के लिए कड़वी सच्चाई यही है कि एआई कौशल को लेकर राष्ट्रीय स्तर पर आई तेजी के बावजूद उत्तर प्रदेश, बिहार, मध्य प्रदेश, राजस्थान और छत्तीसगढ़ जैसे राज्य अभी एआई इकोनॉमी में भागीदारी करने के लिए पर्याप्त रूप से तैयार नहीं हैं।

खबर में खास
भारतीय भाषाएं कितनी अनुकूलभाषायी विभाजन को कैसे खत्म करेगा एआई

इन राज्यों के अनेक शहरी और ग्रामीण जिलों में डिजिटल इन्फ्रॉस्ट्रक्चर आज भी भरोसेमंद नहीं है। यहां हाई स्पीड इंटरनेट तक पहुंच सीमित है और आधुनिक कम्यूटिंग सुविधाएं भी नहीं हैं। इसके अलावा भाषा भी यहां रोड़ा है। भारत के लिए बुनियादी एआई मॉडल्स बनाने की दिशा में एक बड़ी चुनौती देश की व्यापक भाषायी विविधता है। 22 आधिकारिक भाषाएं, सैकड़ों बोलियां और लाखों बहुभाषी लोगों के साथ भारत में एक अड़चन यह भी है कि इस स्थिति से निपटने में अभी कुछ ही मौजूदा एलएलएम यानी लार्ज लैग्वेंज मॉडल्स सक्षम हैं।  

लार्ज लैंग्वेज मॉडल्स (LLMs) सर्वाधिक शक्तिशाली एआई नवाचारों में से एक है और यह एआई से संचालित ऐसा सिस्टम है, जो आदमियों जैसे पाठ तैयार कर सकता है। ये मॉडल्स सीखने की गहन तकनीक और व्यापक डाटाशीट्स के प्रशिक्षण से तैयार किए गए हैं, जिनमें किताबों, लेखों, विकीपीडिया, शोध पत्रों और संवादों का इस्तेमाल किया जाता है।

वास्तव में लार्ज लैंग्वेज मॉडल्स (LLMs)  डाटा के भूखे हैं, उन्हें विविध तरह के ढेर से पाठ चाहिए। हिंदी और अन्य भारतीय भाषाओं के लिए एआई के प्रशिक्षण में सबसे बड़ी अड़चन उच्च गुणवत्ता और ज्ञान आधारित सघन डाटा की कमी है। इंटरनेट की अधिकांश सामग्री, खासतौर से तकनीकी, कानूनी या अकादमिक जानकारियां अंग्रेजी में हैं, लिहाजा ग्लोबल मॉडल दुनिया के बारे में अंग्रेजी में मिली जानकारी के आधार पर ट्रेंड होते हैं, और भारतीय भाषाओं का प्रतिनिधित्व कम होता है।

यही नहीं, हमारे समृद्ध सांस्कृतिक ज्ञान का बहुत सा हिस्सा अब तक डिजिटल नहीं हुआ है। यह मौखिक कहानियों, हस्तलिखित नोट्स या बिखरे दस्तावेजों में है और हमेशा यह उपलब्ध भी नही है और प्रशिक्षण के लिहाज से दुरुस्त भी नहीं है। और फिर हिंदी की अपनी जटिलताएं हैं, यह सिर्फ एक भाषा भर नहीं है, इसकी बहुत सी बोलियां हैं और रोजमर्रा के इस्तेमाल में इसमें अंग्रेजी या अन्य भाषाओं के शब्द घुलमिल जाते हैं। अधिकांश एआई सिस्टम इस तर की भाषायी जटिलताओं को नियंत्रित करने के लिए नहीं बनाए गए हैं।

भारतीय भाषाएं कितनी अनुकूल

अमेरिका स्थित एमआईटी टेक्नोलॉजी रिव्यू में हाल ही में छपे एक लेख का यह अंश देखें, “अंग्रेजी के उलट, जिसमें शब्दों को स्पेस से अलग किया जाता है और जिसकी बनावट सरल होती है, हिंदी, तमिल और कन्नड़ जैसी भारतीय भाषाओं में अक्सर शब्दों की सीमा स्पष्ट नहीं होती। एक ही शब्द में ढेर-सी सूचनाएं जुड़ी होती हैं।

ऐसे में स्टैंडर्ड टोकेनाइजर ( इंटरनेट पर ओपन सर्च से संबंधित टूल) के लिए ढेर से इनपुट मुश्किल पैदा करते हैं। ये भारतीय शब्दों को कई तरह के टोकन में बांट देते हैं, जिससे एआई मॉडल को उन शब्दों के सटीक अर्थ जानने में मुश्किल होती है, जिससे वह सही तरीके से रिस्पांड नहीं कर पाते। “2025 की स्थिति यह है कि वैश्विक रूप से सारी वेबसाइट में से 0.1 फीसदी से भी कम हिंदी को अपनी प्राइमरी कंटेंट भाषा के रूप में इस्तेमाल करते हैं। जबकि 49.4 फीसदी वेब कंटेंट के साथ अंग्रेजी का वर्चस्व है।

चीन ने अपने कंटेंट को मंदारीन में डिजिटल करने की शुरुआत की थी, जिसमें सरकार ने मदद की और इसके लिए कठोर डिजिटल व्यवस्था की गई। इसके उलट भारत में भाषायी बहुलता है और कहीं अधिक मुक्त है। लेकिन जब बात एआई की आती है, तो यह लाभ देश के हित के खिलाफ जाता है। इसके बावजूद कुछ भारतीय संस्थापक देश के एआई भविष्य को आकार दे रहे हैं। जैसा कि सॉकेट एआई लैब्स ऐंड प्रोजेक्ट ईकेए के संस्थापक अभिषेक उप्परवाल कहते हैं, “हिंदीभाषी क्षेत्रों में एआई प्रशिक्षण में सबसे बड़ी चुनौती केवल इन्फ्रॉस्ट्रक्चर या जागरूकता की नहीं है, बल्कि भाषायी पहुंच की है।“

अधिकांश आधुनिक एआई सिस्टम का निर्माण अंग्रेजी को केंद्र में रख कर किया गया है। कोड असिस्टेंट जैसे टूल्स सटीक और धारा प्रवाह अंग्रेजी इनपुट की अपेक्षा करते हैं। भारत में यह बड़ी बाधा बन जाती है। अंग्रेजी में धाराप्रवाह एआई के सार्थक इस्तेमाल की पूर्व शर्त है, यह कुछ लोगों के लिए विशेषाधिकार है, तो लाखों लोगों के लिए बाधा। यह विभाजन ग्रामीण और अर्ध शहरी क्षेत्रों में साफ देखा जा सकता है। वहां के लोगों में जागरुकता की कमी नहीं है और न ही जिज्ञासा की।

दरअसल वह इस सिस्टम से इसलिए बाहर हैं, क्योंकि एआई न तो उनकी भाषा समझता है और न ही उनकी दुनिया को समझता है। “प्रोजेक्ट ईकेए एक दूरंदेशी पहल है और वह भारत के लिए संप्रभु बहुभाषी बुनियादी एआई मॉडल विकसित करना चाहता है। ऐसा मॉडल जो देश की भाषायी, सांस्कृतिक और सामाजिक-आर्थिक विविधता को ध्यान में रखे और एआई संप्रभुता को बढ़ावा देते हुए वैश्विक एआई सिस्टम से स्पर्धा कर सके।

उप्परवाल कहते हैं, “यह मॉडल खुले में विकसित किया जा रहा है और इसे ओपन सोर्स लाइसेंस के तहत जारी किया जाएगा। हम इसीलिए सीधे ग्रामीण समुदायों के साथ काम कर रहे हैं ताकि डाटा का भाष्य तैयार कर सकें और एप्लीकेशंस का परीक्षण हो सके। वे सिर्फ यूजर्स नहीं हैं, बल्कि क्रिएटर्स भी हैं। आवाज आधारित कानूनी सहायता से लेकर स्थानीय बोलियों में बोलने वाले कृषि-सलाहकार बॉट्स तक, हम ऐसे परिदृश्य का निर्माण कर रहे हैं, जहां एआई सबलीकरण का टूल बने, न कि बहिष्करण का। “  

भले ही कोई मॉडल हिंदी को प्रोसेस कर सके, फिर भी वह अक्सर गहरे सांस्कृतिक संदर्भों को समझने में चूक कर जाता है। केवल अंग्रेजी कंटेंट का अनुवाद करना पर्याप्त नहीं है।

उप्परवाल कहते हैं, “हिंदी बोलने वालों के लिए एआई को उपयोगी बनाने के लिए हमें ऐसे डाटा की जरूरत है, जो यह प्रतिबिंबित करें कि लोग कैसे बात करते हैं, सोचते हैं और जीवन जीते हैं। लोगों को अंग्रेजी एआई के अनुकूल तैयार करने के बजाए हम ऐसा एआई बना रहे हैं, जो लोगों को अपनाए।“ 

उप्परवाल की इस पहल के अलावा भी कई अन्य बड़ी पहलें भी हो रही हैं। उदाहरण के लिए OpenHathi-Hi-v0.1 द्वारा तैयार ओपन सोर्स के हिंदी भाषा के मॉडल सर्वम एआई (Sarvam AI) भारतीय एआई क्षेत्र भारत की व्यापक भाषायी विविधता को संबोधित करने की बढ़ती क्षमता को दिखाता है।

सर्वम प्रोजेक्ट और अन्य प्रोजेक्ट कहीं अधिक बड़ी रणनीति इंडियन एआई मिशन का हिस्सा हैं। 1.25 अरब डॉलर की यह पहल मार्च 2024 में शुरू की गई थी और इसका मकसद है भारत का अहम एआई इन्फ्रास्ट्रक्चर स्थापित करना औऱ इस अत्याधुनिक टूल तक व्यापक रूप से पहुंच बढ़ाना।

भाषायी विभाजन को कैसे खत्म करेगा एआई

एआई भाषायी विभाजन को खत्म करने की दिशा में, खासतौर से हिंदी और अन्य क्षेत्रीय भाषाओं के मामले में भाषिनी (Bhashini) भारत की सर्वाधिक महत्वाकांक्षी पहल है। यह केवल ट्रांसलेशन का टूल भर नहीं है, बल्कि यह  नेशनल लैंगवेज टेक्नोलॉजी मिशन है, जिसकी शुरुआत डिजिटल इंडिया के तहत एआई को सही अर्थों में बहुभाषी और समावेशी बनाने के लिए की गई है। भाषिनी हिंदी और अन्य भारतीय भाषाओं में बड़े पैमाने पर ओपन-सोर्स डाटा सेट का निर्माण कर रहा है और उसे व्यवस्थित कर रहा है।  

अभी तो यह शुरुआत है, लेकिन एआई में आई तेजी ने भारत में उद्योगों को नया रूप देना शुरू कर दिया है, मसलन, कस्टमर सर्विस बॉट्स और लॉजिस्टिक एल्गोरिदम। समस्या यह है कि इसका लाभ अभी समान रूप से वितरित नहीं हो रहा है। बंगलुरू और हैदराबाद जैसे टेक हब इसमें पूरी तरह से जुटे हुए हैं और बूटकैम्प्स,  स्टार्टअप और प्रशिक्षण कार्यक्रमों के साथ एआई कुशल कर्मचारी तैयार कर रहे हैं। इस बीच, हिंदी पट्टी को इस दिशा में बहुत कुछ किया जाना है।

जैसा कि अनुमान था, एआई रोजगार परिदृश्य को भी बदल रहा है, जिसमें सबसे लोकप्रिय भूमिकाओं के लिए डिजिटल दक्षता और एआई उपकरणों के साथ सहजता की मांग है। हिंदी-अनुकूल प्रशिक्षण के अभाव में, हिंदी पट्टी के युवा अवसरों से वंचित रहने का जोखिम उठा रहे हैं, उन्हें केवल यह देखने के लिए छोड़ दिया जा रहा है कि अवसर उन लोगों के पास जा रहे हैं, जो अंग्रेजी-आधारित प्रणालियों को नेविगेट कर सकते हैं। एआई संपन्न और उससे दूर लोगों के बीच का अंतर तेजी से बढ़ रहा है।

यदि भारत एक ऐसा भविष्य चाहता है, जहां सभी को अवसर मिले, तो उसे एआई को हिंदी, भोजपुरी, मारवाड़ी जैसी हिंदी पट्टी की भाषाओं और बांग्ला जैसी अन्य क्षेत्रीय भाषाओं में बोलने योग्य बनाना होगा। एका (EKA) और भाषिणी (Bhashini) जैसे प्रोजेक्ट रास्ता दिखाते हैं, लेकिन उन्हें धन, नीति और अनथक प्रयास की जरूरत है। जैसा कि उप्परवाल हमें याद दिलाते हैं, “भारत की एआई क्रांति की मुख्य चुनौती तकनीकी नहीं है—यह भाषाई है।” अब कार्रवाई करने का समय है—इससे पहले कि डिजिटल विभाजन एक डिजिटल खाई बन जाए।

लेखक वरिष्ठ पत्रकार हैं

इस लेख में व्यक्त विचार लेखक के अपने हैं और जरूरी नहीं कि वे Thelens.in के संपादकीय नजरिए से मेल खाते हों।



TAGGED:AIARTIFICIAL INTELLIGENCEHindi beltIndian languagesLatest_NewsPatralekha Chatterjee
Previous Article OBC Leader जम्मू-कश्मीर को पूर्ण राज्य दर्जा बहाल करने की मांग, राहुल गांधी और खरगे ने पीएम को लिखी चिट्ठी
Next Article Liquor Scam शराब घोटाला मामला: पूर्व मंत्री लखमा ने ED की कार्रवाई को दी चुनौती, हाईकोर्ट में लगाई याचिका
Lens poster

Popular Posts

G7 शिखर सम्मेलन की ग्रुप फोटो में प्रधानमंत्री मोदी क्यों नहीं?

द लेंस डेस्क। इस्राइल और ईरान में जारी तनाव के बीच कनाडा के अल्बर्टा प्रांत…

By Lens News Network

श्रीकृष्ण जन्मभूमि : हिंदू पक्षकारों को झटका, शाही ईदगाह की संपत्तियों को विवादित मानने से हाईकोर्ट का इनकार

मथुरा के श्रीकृष्ण जन्मभूमि और शाही ईदगाह विवाद को लेकर इलाहाबाद उच्च न्यायालय में शुक्रवार…

By The Lens Desk

रायपुर में बायोगैस प्लांट के खिलाफ ग्रामीणों का हल्लाबोल, कलेक्ट्रेट में प्रदर्शन

रायपुर| रायपुर के बीरगांव में प्रस्तावित बायोगैस प्लांट को लेकर ग्रामीणों का गुस्सा फूट पड़ा…

By पूनम ऋतु सेन

You Might Also Like

BBC ON TERRORIST
देश

भारत सरकार ने बीबीसी से पूछा- ‘आतंकवादी’ को ‘उग्रवादी’ क्यों कहते हैं? पढ़िए बीबीसी का पुराना जवाब, जब हमास को लेकर पूछा गया था यही सवाल

By The Lens Desk
देश

भारत में भारी बारिश, बाढ़ और तबाही का दौर जारी

By पूनम ऋतु सेन
Assam
देश

मणिपुर के पड़ोसी राज्य असम में मूल निवासियों को दिए जाएंगे हथियार लाइसेंस

By Lens News Network
trump tariff
दुनिया

अमेरिका ने जारी किया 50% टैरिफ का नोटिस, PM MODI ने दिया स्वदेशी का संदेश

By अरुण पांडेय

© 2025 Rushvi Media LLP. 

Facebook X-twitter Youtube Instagram
  • The Lens.in के बारे में
  • The Lens.in से संपर्क करें
  • Support Us
Lens White Logo
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?