Get The App

આકારથી અક્ષરની ઓળખ સુધી : OCR

Updated: Jul 7th, 2024

GS TEAM


Google News
Google News
આકારથી અક્ષરની ઓળખ સુધી : OCR 1 - image


- yuf [ku¬Mk nuíkw {kxu rðõMkkððk{kt ykðu÷e xufLkku÷kuSLkk WÃkÞkuøk nðu swËe swËe heíku rðMíkhe hÌkk Au

ઓછા સમયમાં, ઓછા પ્રયાસે, વધુ કામ - આ નવા સમયનો કાર્યમંત્ર છે. આ જ લક્ષ્ય સાથે ચોક્કસ પ્રકારની નવી નવી ટેકનોલોજી ડેવલપ થતી જાય છે. ‘ઓપ્ટિકલ કેરેકટર રેકગ્નિશન (ઓસીઆર)’ આવા જ પ્રકારની એક ટેકનોલોજી છે.

આપણા દૈનિક કામકાજ દરમિયાન ઘણી વાર એવી સ્થિતિ ઊભી થાય, જેમાં કોઈ પેપર ડોક્યુમેન્ટ, પીડીએફ કે ઇમેજમાંની ટેકસ્ટને એડિટ કરી શકાય કે સર્ચ કરી શકાય તેવા સ્વરૂપમાં ફેરવવાની જરૂર પડે.

પરંપરાગત રીતે આ કામ કરવું હોય તો આપણે વર્ડ, નોટપેડ, ગૂગલ ડોક જેવા કોઈ પણ પ્રોગ્રામમાં પેલા પેપર ડોક્યુમેન્ટ, પીડીએફ કે ઇમેજમાં દેખાતી ટેકસ્ટ નવેસરથી ટાઇપ કરવી પડે (પીડીએફ ડોક્યુમેન્ટમાંથી અમુક સંજોગમાં સીધેસીધી ટેક્સ્ટ મળી શકે ખર, પણ એમાં ઘણી શરતો હોય). આ રીતે કામ કરવામાં વધુ સમય જાય અને ચોક્સાઈ ન જળવાય, ભૂલો થાય એવું બની શકે.

એ જ કામ વધુ ઝડપથી કરવા ‘ઓપ્ટિકલ કેરેકટર રેકગ્નિશન (ઓસીઆર)’ ટેકનોલોજી વિકસી છે. મજા એ છે કે પ્રિન્ટેડ ટેકસ્ટને એડિટેબલ ટેકસ્ટમાં ફેરવવાના મૂળ હેતુથી વિકસેલી આ ટેકનોલોજીના હવે નવા નવા ઉપયોગ વિસ્તરી રહ્યા છે.

OCRLkkt {wÏÞ MxuÃMk

છપાયેલા શબ્દોમાંથી એડિટ થઈ શકે તેવી ટેક્સ્ટ મેળવવાની પ્રક્રિયા અગાઉ મુશ્કેલ હતી, હવે તેને માટે સંખ્યાબંધ ઓનલાઇન ટૂલ ઉપલબ્ધ થઈ ગયાં છે. આપણે માટે સૌથી હાથવગું ટૂલ છે ગૂગલ લેન્સ.

આપણા સ્માર્ટફોનમાં ગૂગલ સર્ચ એપમાં તથા ડેસ્કટોપ પર પણ ગૂગલ સર્ચમાં લેન્સની સુવિધા ઉપલબ્ધ થઈ છે. તે ઉપરાંત ગૂગલ ફોટોઝ, ગૂગલ કીપ, ગૂગલ ટ્રાન્સલેશન વગેરે સર્વિસમાં પણ ઓસીઆરનો ઉપયોગ થાય છે. ગૂગલ ઉપરાંત અન્ય કેટલીય સર્વિસ ઓસીઆરની સગવડ આપે છે.

જૂનાં પુસ્તકો અને દસ્તાવેજોને ડિજિટલ ફોર્મેટમાં ફેરવવામાં ઓસીઆર ટેકનોલોજીનો હવે વ્યાપક ઉપયોગ થાય છે. ગૂગલ, માઇક્રોસોફ્ટ, એપલ વગેરે કંપનીઓએ હવે ટ્રાન્સલેશન સર્વિસિસમાં હરફફાળ ભરી છે તેના મૂળમાં પણ ઓસીઆર ટેકનોલોજીનું મહત્ત્વનું પ્રદાન છે. ગૂગલ લેન્સ, માઇક્રોસોફ્ટની મેથસોલ્વર કે ફોટોમેથ પ્રકારની સર્વિસિસ કેલ્ક્યુલેટરમાં લખી ન શકાય તેવી ગણિતની ફોર્મ્યુલાને કેમેરાથી સ્કેન કરીને તેના ઉકેલ શોધી આપે છે. આ બધી સર્વિસ પણ ઓસીઆર ટેકનોલોજીનો ઉપયોગ કરે છે.

આપણે કોઈ પણ પ્રિન્ટેડ ટેકસ્ટને એ઼ડિટેબલ ટેકસ્ટમાં ફેરવવા માટે ઓસીઆર ટૂલનો ઉપયોગ કરીએ ત્યારે મુખ્યત્વે ચાર તબક્કામાં કામ થાય છે.

ઇમેજ કેપ્ચરઃ આપણે જ્યારે કોઈ ઇમેજ કે પેપર ડોક્યુમેન્ટ કે પીડીએફ ફાઇલમાંની ટેકસ્ટને એડિટેબલ ટેકસ્ટમાં કન્વર્ટ કરવી હોય ત્યારે સૌથી પહેલાં તેને ઇમેજ સ્વરૂપે કેપ્ચર કરવામાં આવે છે. આ કામ કેમેરાથી ફોટો લઇને, ઇમેજ ડિજિટલ રીતે સ્કેન કરીને અથવા સ્ક્રીનશોટ લઇને પણ કરી શકાય.

પ્રોસેસિંગઃ ઇમેજ મળ્યા પછી ઓસીઆર ટૂલ ઓસીઆરની ચોકસાઈ વધારવા માટે ઇમેજને શક્ય એટલી ક્લિન કરે છે. તે માટે ઇમેજમાંના ડોટ્સ દૂર કરવા, એલાઇનમેન્ટ સુધારવું, કોન્ટ્રાસ્ટ સુધારવું વગેરે જેવાં પગલાં લેવામાં આવે છે. આ બધાં કામ ટૂલ આપોઆપ કરે અથવા આપણે અન્ય કોઈ ફોટો એડિટિંગ ટૂલમાં મેન્યુઅલી કરી શકીએ.

ટેકસ્ટ ડિટેકશનઃ આ રીતે ચોખ્ખી ઇમેજ મળ્યા પછી ઓસીઆર ટૂલ ઇમેજના જે ભાગમાં ટેકસ્ટ જોવા મળે તેને ઓળખીને તેને અલગ તારવે છે. એ પછી તેનું પ્રોસેસિંગ શરૂ થાય છે.

કેરેકટર રેકગ્નિશનઃ આ તબક્કામાં ઓસીઆર ટેકનોલોજીની ખરી કરામત શરૂ થાય છે. ટૂલને ઇમેજના જેટલા ભાગમાં ટેકસ્ટ દેખાઈ હોય તેમાં વિવિધ શેપ્સ અને પેટર્નનું એનાલિસિસ શરૂ થાય છે. એ માટે પેટર્ન રેકગ્નિશન, ફીચર એક્સ્ટ્રેકશન, મશીન લર્નિંગ અલ્ગોરિધમ જેવી વિવિધ ખૂબીઓને એક સાથે કામે લગાડવામાં આવે છે.

પહેલેથી તૈયાર ડેટાબેઝનો ઉપયોગઃ ઓસીઆર ટૂલ પાસે પહેલેથી ચોક્કસ પ્રકારના શેપ્સનો અલગ અલગ ભાષાના અક્ષરો અને શબ્દો સાથે મેળ બેસાડતી પેટર્નનો ડેટાબેઝ હોય છે. ટૂલને આપવામાં આવેલી ઇમેજમાં જે શેપ્સ જોવા મળે તેને આ ડેટાબેઝ સાથે સરખાવીને, નવી ઇમેજમાં જે શેપ્સ અને પેટર્ન જોવા મળે એ ક્યા અક્ષર અને શબ્દ દર્શાવે છે તે નક્કી કરવામાં આવે છે.

પોસ્ટ-પ્રોસેસિંગઃ આ રીતે કેરેક્ટર રેકગ્નિશન અને પ્રોસેસિંગનો તબક્કો પૂરો થયા પછી ઓસીઆર ટૂલ તેણે જે કેરેકટર્સ ઓળખી લીધા હોય તેને ડિજિટલ ટેકસ્ટમાં ફેરવી નાખે છે. હવે વિરાટ ડેટાબેઝને પ્રતાપે વિવિધ ભાષામાં વધતી ઓછી ચોક્સાઇ સાથે સ્પેલ ચેકિંગ અને ગ્રામર કરેકશનની સુવિધાઓ પણ વિકસી છે. ઓસીઆર ટૂલ તેને પણ કામે લગાડીને પોતે જે ડિજિટલ ટેકસ્ટ તૈયાર કરી હોય તેમાં રહેલી ભૂલો સુધારીને તેની ચોકસાઈ વધારે છે.

આઉટપૂટઃ આગળની બધી પ્રક્રિયા પૂરી થયા પછી ફાઇનલ આઉટપૂટ મળે છે, જે એડિટેબલ અને સર્ચેબલ ટેકસ્ટ ડોક્યુમેન્ટના સ્વરૂપે હોય છે! આપણે અન્ય કોઈ પણ ડિજિટલ ટેક્સ્ટની જેમ એ ટેકસ્ટને કોપી કરી શકીએ અને કોઈ પણ સંબંધિત સોફ્ટવેરમાં એડિટ કરી શકીએ.

OCRLkk swËk swËk WÃkÞkuøk ys{kðe swyku

ગૂગલ લેન્સ

સ્માર્ટફોન અને પીસીમાં ગૂગલ સર્ચમાં આ ટેકનોલોજી સામેલ થઈ ગઈ છે. આપણે ફોનથી કોઈ ઇમેજ લઈને કે ડેસ્કટોપ પર લેન્સમાં ઇમેજ અપલોડ કરીને તેમાંથી ટેક્સ્ટ મેળવી શકીએ. લેન્સના અનેક ઉપયોગ વિસ્તર્યા છે, એ હોમવર્કમાં પણ હેલ્પ કરે છે અને અક્ષર સારા હોય તો હાથે લખેલી ટેક્સ્ટ પણ પારખી શકે!

માઇક્રોસોફ્ટ મેથ સોલ્વર

માઇક્રોસોફ્ટ કંપનીએ પણ ઓસીઆર આધારિત ‘મેથ સોલ્વર’ નામની સર્વિસ વિક્સાવી છે, જે એપમાં અને વેબ પર અેલ્જિબ્રા, ટ્રિગોનોમેટ્રી, કેલ્યુલસ વગેરેના દાખલા સોલ્વ કરીને ઉકેલની સ્ટેપ-બાય-સ્ટેપ સમજ આપે છે. વધુ માહિતી માટે જુઓ https://math.microsoft.com/en

ઇમેજમાંથી ડેટા ટેબલ

તમારી પાસે કોઈ ડેટા ટેબલની ઇમેજ કે વેબપેજ પરના ડેટા ટેબલનો સ્ક્રીનશોટ છે? તમે એક્સેલમાં તેની ઇમેજ બોલાવી, ઇમેજમાંના ડેટાને, તેમાંની ભૂલો સુધારીને એક્સેલના ટેબલમાં ફેરવી શકો છો!

અલબત્ત, જો તમારા એક્સેલનું વર્ઝન જૂનું હોય તો આ સુવિધા મળશે નહીં.

ટ્રાન્સલેશન

એપલ, ગૂગલ, માઇક્રોસોફ્ટ વગેરેનાં ટ્રાન્સલેશન ટૂલ્સમાં ઓસીઆરનો હવે ખાસ્સો ઉપયોગ થાય છે. તમે ફ્રાન્સ કે જાપાનના કોઈ રેસ્ટોરામાં હો અને ત્યાંનું મેનૂ સમજાય નહીં તો કેમેરાથી સ્કેન કરી, આઇટમ્સનો ગુજરાતી-હિન્દી-ઇંગ્લિશ વગેરેમાં અનુવાદ મેળવી શકો, મેનૂની જ ડિઝાઇનમાં!

yk xufLkku÷kuS rðõMkkððk{kt ykÃkýwt Ãký ÞkuøkËkLk!

તમને જાણીને નવાઈ લાગશે, પણ ઇન્ફર્મેશન ટેક્નોલોજીમાં વિકસતી નવી ટેક્નોલોજીમાં મારું-તમારું પણ ભરપૂર યોગદાન હોય છે, કેમ કે લગભગ બધું બિગ ડેટા પર આધારિત હોય છે, જે આપણે પોતે તૈયાર કરીએ છીએ.

ઓસીઆરના વિકાસમાં પણ એવું જ થયંુ છે.  હવે મોટા ભાગની સાઇટ પર કમેન્ટ લખતી વખતે કે બીજો કોઈ ઇનપુટ આપતી વખતે આપણે પુરવાર કરવું પડે છે કે આપણે જીવતા જાગતા માણસ છીએ, કમ્પ્યુટર પ્રોગ્રામ નહીં. આવી ખાતરી કરવા માટે વપરાતી વ્યવસ્થા ‘કેપ્ચા’ તરીકે ઓળખાય છે. બ્લોગ કે સાઇટમાં માણસને બદલે કમ્પ્યૂટર પ્રોગ્રામ સ્પામ કમેન્ટનો મારો ન ચલાવી શકે એ માટે કેપ્ચાનો ઉપયોગ થાય છે.

કેપ્ચાનું અંગ્રેજીમાં આખું નામ છે CAPTCHA (Completely Automated Public Turing Test to Tell Computers and Humans Apart). આ કેપ્ચાના આખા અંગ્રેજી નામમાં ‘ટ્યૂરિંગ ટેસ્ટ’ શબ્દ પર અટક્યા? એલન ટ્યૂરિંગ નામના એક અંગ્રેજ ગણિતશાસ્ત્રીએ છેક ૧૯૪૦ અને ૧૯૫૦ના દાયકામાં, કમ્પ્યૂટર માણસની જેમ વિચારી શકે કે નહીં એ તપાસવાની એક પદ્ધતિ આપી હતી, જે તેમના માનમાં ‘ટ્યૂરિંગ ટેસ્ટ’ તરીકે ઓળખાઈ! એલન ટ્યૂરિંગ મોડર્ન કમ્પ્યુટિંગના પિતા ગણાય છે અને આજની બહુ ગાજતી આર્ટિફિશિયલ ઇન્ટેલિજન્સ ટેક્નોલોજીના પાયામાં પણ તેમનાં સંશોધનોનો ઉપયોગ થાય છે!

તેમનાં સંશોધનો આધારિત કેપ્ચા પદ્ધતિમાં આપણને વાંચવા મુશ્કેલ એવા અક્ષર કે અંક ફરી લખવાનું કહેવામાં આવે છે, જેને આપણે માણસ તો ઓળખી લઈએ, પણ ‘કમ્પ્યૂટર બોટ’ તરીકે ઓળખાતા પ્રોગ્રામ ઓળખી શકતા નથી. વર્ષ ૨૦૦૯માં ગૂગલે આ ‘કેપ્ચા’ ટેકનોલોજી ખરીદી લીધી. ગૂગલને આ ટેકનોલોજીમાં રસ પડવાનું કારણ બહુ મજાનું હતું.

ગૂગલે બહુ મોટા પાયે વિશ્વભરના પ્રિન્ટેડ લખાણને ડિજીટલ સ્વરૂપ આપવાનું મોટું અભિયાન હાથ ધર્યું છે. આ માટે ઓસીઆર ટેકનોલોજીનો ઉપયોગ કરવામાં આવે છે. જો છપાયેલા શબ્દો કોઈ કારણસર ડિસ્ટોર્ટ થયેલા હોય તો મશીન તેને બરાબર ઉકેલી શકે નહીં. આના ઉપાય તરીકે ગૂગલે આવા શબ્દો ઉકેલવાનું કામ દુનિયાભરના લાખો-કરોડો લોકો પાસે કરાવવાનું શરૂ કર્યું. આવા ન ઉકેલાયેલા શબ્દો-અક્ષરો ગૂગલ ‘રિકેપ્ચા’માં ઉપયોગમાં લે છે અને આપણે સૌ પોતે માણસ છીએ તેવું સાબિત કરવા માટે તે અક્ષરો ઉકેલીને ગૂગલનું કામ સરળ કરી આપીએ છીએ! ગૂગલ આપણા જવાબો તેની એઆઇ સિસ્ટમ્સને બતાવીને તેને ઓસીઆર માટે ટ્રેઇન કરે છે.

હવે જોકે ગૂગલને આ કામમાં આપણી મદદની ખાસ જરૂર રહી નથી અને કેપ્ચાની ટેક્નોલોજી પણ ઘણી વિસ્તરી ચૂકી છે, તેના માટે હવે અન્ય ઉપાયોનો ઉપયોગ થાય છે.

Tags :