What is Sarvam AI? : સર્વમ AI હાલમાં ભારતમાં ખૂબ જ ચર્ચામાં છે. એની શોધ 2023ના ઓગસ્ટમાં વિવેક રાઘવન અને પ્રત્યુષ કુમાર દ્વારા કરવામાં આવી હતી. AIની દુનિયામાં સર્વમ AI નામ ખૂબ જ જલદી પ્રચલિત થઈ ગયું છે. બેંગલોરની આ કંપનીએ તેમના AIને દુનિયાના તમામ AIને ટક્કર આપી શકે એની સાથે ભારતની અલગ-અલગ જરૂરિયાતોને ધ્યાનમાં રાખીને બનાવવામાં આવ્યું છે. સર્વમ AIની વેબસાઇટ પર લખ્યું છે કે તેઓ ઇચ્છે છે કે ભારત AIને ટેક્નોલોજીની દુનિયામાં સૌથી મહત્ત્વના બદલાવ તરીકે જુએ અને એનો ઉપયોગ ખૂબ જ ભરોસાથી કરે.
કેવું છે સર્વમ એડવાન્સ AI મોડલ?
સર્વમના એડવાન્સ AI મોડલનું નામ સર્વમ વિઝન છે. આ મોડલ થ્રી-બિલિયન પેરામીટરનું સ્ટેટ-સ્પેસ વિઝન લેન્ગ્વેજ મોડલ છે. ઓપ્ટિકલ કેરેક્ટર રિકગ્નિશન (OCR) અને ડોક્યુમેન્ટ ડિજિટલાઇઝેશનમાં આ મોડલ દ્વારા એક નવો બેન્ચમાર્ક સેટ કરવામાં આવ્યો છે. olmOCR-Bench એટલે કે ઇંગ્લિશ સબસેટમાં સર્વમ વિઝનની 84.3 ટકા ચોકસાઇ જોવા મળી છે. ગૂગલ જેમિની પ્રો અને ડીપસીક OCR 2ને પણ આ મોડલે પાછળ છોડી દીધા છે. OmniDocBench v1.5માં પણ સર્વમ AIએ 93.28 ટકાનો સ્કોર મેળવ્યો છે. કોમ્પ્લેક્સ ફોર્મ્યુલા, લેઆઉટ પાર્સિંગ અને ડોક્યુમેન્ટ સ્ટ્રક્ચર રિકગ્નિશન માટેની આ ટેસ્ટ હતી જેમાં સર્વમે ખૂબ જ સારો દેખાવ કર્યો છે.
સર્વમની ખાસિયત એ છે કે આ મોડલ ભારતની 22 અલગ-અલગ ભાષાને સપોર્ટ કરે છે. દુનિયાભરના AI આટલી ભાષાને સપોર્ટ નથી કરતું. OCRની સાથે આ મોડલ વિઝ્યુઅલ ટાસ્ક માટે પણ જાણીતું છે. ઇમેજ કેપ્શનિંગ, સીન ટેક્સ્ટ રિકગ્નિશનથી લઈને ચાર્ટ ઇન્ટરપ્રિટેશન, ટેબલ પાર્સિંગ અને કેટલાક સામાન્ય નેચરલ દૃશ્યોને સમજવામાં પણ આ મોડલ ખૂબ જ ચોક્કસ છે. એટલે કે કોઈ પણ ભાષામાં ફોટો અથવા તો ડોક્યુમેન્ટ હશે એને સરળતાથી સમજી લેશે અને એનો જવાબ પણ આપશે. ચાર્ટ અને ટેબલમાંથી પણ સ્કેનિંગ કરીને ડેટા મેળવી શકશે. ભારત જેવા દેશ જ્યાં એક કરતાં વધુ ભાષાઓ બોલવામાં આવે છે એવી જગ્યાએ મોટાભાગની તમામ માહરત ધરાવતું આ AI ખૂબ જ મદદરૂપ બની શકે છે.
Drop 5/14: Introducing Bulbul V3, our latest text-to-speech model. It raises the bar for how human it sounds, while being super robust.
— Pratyush Kumar (@pratykumar) February 7, 2026
In an independent third-party human listening study, Bulbul V3 delivers the highest listener preference, and low error rates across use-cases… pic.twitter.com/w7HThWzuKe
ભારતીય ભાષા માટે વાસ્તવિક વોઇસ આપતું બુલબુલ V3 વર્ઝન
સર્વમ AI દ્વારા તેમના વિઝન મોડલની સાથે બુલબુલ V3 AI મોડલ પણ ખૂબ જ અદ્ભુત છે. ટેક્સ્ટ-ટુ-સ્પીચ મોડલને એકદમ વાસ્તવિક, એક્સપ્રેસિવ અને પ્રોડક્શન-રેડી અવાજ સાથે બનાવવામાં આવ્યું છે. ભારતની હાલમાં અગિયાર ભાષાઓમાં એમાં 35 અવાજનો સમાવેશ કરવામાં આવ્યો છે. બહુ જલદી 11 ભાષાની જગ્યાએ તે 22 ભાષાઓને સપોર્ટ કરતું બનાવવામાં આવશે. કેટલીક ઇન્ડિપેન્ડન્ટ બ્લાઇન્ડ લિસનિંગ સ્ટડીઝ પરથી જાણવા મળ્યું છે કે બુલબુલ V3 દુનિયાના કેટલાક જાણીતા સ્પર્ધી ઇલેવનલેબ્સ અને કાર્ટેસિયા સોનિક-3ને પણ એમાં પાછળ છોડી દીધું છે. સાંભળનાર યુઝર્સ હંમેશા તેને કેવું આઉટપુટ મળે છે એના પર ધ્યાન આપે છે. આ મોડલમાં ખૂબ જ ઓછી ભૂલો જોવા મળે છે અને એ મનુષ્યની જેમ જ વાતો પણ કરે છે. આ મોડલ દ્વારા 8kHz ઓડિયો ક્વોલિટી આપી એક નવું બેન્ચમાર્ક બનાવવામાં આવ્યું છે. કોલ સેન્ટર અને વોઇસ એજન્ટ્સ માટે આ પ્રકારની ક્વોલિટી ખૂબ જ મહત્ત્વની છે.
સર્વમ AI કેમ ભારત માટે મહત્ત્વનું છે?
સર્વમ AI ફક્ત ટેક્નોલોજીમાં આગળ પડતું છે એવું નથી. તે ભારતના ડિજિટલ ભવિષ્યનું પ્રતિનિધિત્વ કરે છે. ભારતમાં એક કરતાં વધુ ભાષા બોલવામાં આવે છે અને દુનિયાભરના AI દ્વારા એને નજરઅંદાજ કરવામાં આવ્યું છે. આથી સર્વમ AI દ્વારા દરેક ભાષાનો સપોર્ટ આપવામાં આવ્યો છે જેના કારણે હવે સામાન્ય વ્યક્તિ પણ AIનો ઉપયોગ કરી શકશે. આ મોડલની મદદથી હેલ્થકેર, એજ્યુકેશન અને ફાઇનાન્સ જેવા ક્ષેત્રની સાથે સરકારી ડિપાર્ટમેન્ટમાં પણ ખૂબ જ બદલાવ જોવા મળી શકે છે. પોતાની ભાષામાં વાતચીત કરવા માગતાં ભારતીય માટે આ AI મોડલ ખૂબ જ સારી સર્વિસ પૂરી પાડી શકશે અને યુઝર્સને પણ પોતીકું લાગશે.
AIની વાત જ્યારે પણ આવે છે ત્યારે એ માટે સિલિકોન વેલી અથવા તો ચીન આગળ પડતું હોય એવું માનવામાં આવે છે. જોકે સર્વમ AIએ કરી દેખાડ્યું કે હવે ભારત પણ વર્લ્ડ-ક્લાસ AI બનાવી શકે છે. ટેક્નોલોજી ઇન્ડસ્ટ્રીમાં હવે સર્વમ AI દુનિયાભરના પ્રતિસ્પર્ધીઓ સાથે ખભાથી ખભા મિલાવીને વાતો કરી શકશે.


