AIને લઈને એક સ્ટડીમાં મોટો ખુલાસો: OpenAI, ગૂગલ અને મેટાના AI બ્લેકમેલ કરી શકે છે યુઝર્સને
Summarized by AI; it may make mistakes. Check important info
Summarized by AI; it may make mistakes. Check important info

AI Blackmailing: આર્ટિફિશિયલ ઇન્ટેલિજન્સને લઈને હાલમાં જ એક મોટો ખુલાસો સામે આવ્યો છે. એન્થ્રોપિક નામની કંપની દ્વારા એક રિસર્ચ કરવામાં આવ્યો છે, જેને હાલમાં જ પબ્લિશ પણ કરવામાં આવ્યો છે. આ રિસર્ચમાં સામે આવ્યું છે કે જો AIને વધુ પાવર અને સ્વતંત્રતા આપી દેવામાં આવે તો એ યુઝર્સને બ્લેકમેલ કરી શકે છે. આ માટે કંપની દ્વારા 16 ટોચના AI મોડલનો ઉપયોગ કરવામાં આવ્યો હતો. તેમાં OpenAI, ગૂગલ, ગ્રોક, ડીપસિક અને મેટા જેવી દરેક કંપનીના AIનો સમાવેશ થાય છે.
એન્થ્રોપિક દ્વારા કરવામાં આવેલ પરિક્ષણ
એન્થ્રોપિક દ્વારા તેમની દેખરેખ હેઠળ એક પરિક્ષણ કરવામાં આવ્યું હતું. તેમણે દરેક AI મોડલમાં એક કાલ્પનિક કંપનીનો ઈમેલ આઇડીનું એક્સેસ આપ્યું હતું અને તેમાં ઈમેલ સેન્ડ કરવા માટે જે તે વ્યક્તિની જરૂરિયાત નથી તેવી પરવાનગી આપવામાં આવી હતી. આ ટેસ્ટને એવી રીતે ડિઝાઇન કરવામાં આવી હતી કે કંપનીને ગોલ પૂરો કરવામાં મુશ્કેલી પડે તો AI કેવી રીતે રિએક્ટ કરે. એટલે આજે AIને જેટલી સ્વતંત્રતા આપવામાં આવી છે એમાં નુક્સાન થઈ શકે તેમ નથી. જો કે સાથે જ તેમને એ પણ જાણવા મળ્યું કે તેમાં થોડી વધુ છૂટછાટ આપવામાં આવી તો AI દ્વારા ખૂબ જ મોટું નુક્સાન થઈ શકે છે.
AI મોડલનું બ્લેકમેલ ટેસ્ટિંગ
આ ટેસ્ટમાં AI કેટલા ટકા બ્લેકમેલ કરી શકે એના સંભાવનાઓ શોધવામાં આવી હતી. એન્થ્રોપિકનું ક્લોડ ઓપ્સ 4 મોડલ દ્વારા 96% બ્લેકમેલ થઈ શકે છે. ગૂગલનું જેમિની 2.5 પ્રો 95% બ્લેકમેલ કરી શકે છે. OpenAIનું GPT-4.1 અને ડીપસિક R1 અનુક્રમે 80% અને 79% સુધી બ્લેકમેલિંગ કરી શકે છે. એટલે મોટાભાગના તમામ AI મોડલ્સ બ્લેકમેલિંગ માટે શક્તિશાળી બની શકે છે.

બ્લેકમેલની ટકાવારી પર કેવી રીતે અસર પડે છે?
એન્થ્રોપિક દ્વારા કેટલીક માહિતીમાં ફેરફાર કરવાથી AIના વર્તનમાં નોંધપાત્ર બદલો જોવા મળ્યો હતો. બે મોડલ રાખવામાં આવ્યા હતા, જેમાંથી એકમાં સીધું બ્લેકમેલ ટેસ્ટ હતું. એ પછી પણ તેના ચાન્સ ઓછા હતા, પરંતુ હાજર રહ્યા એટલે શક્યતા હતી. જોકે, કોર્પોરેટ જાસૂસી સંબંધિત પરિસ્થિતિઓમાં તેમનું વર્તન જોખમરૂપ જોઈ શકાય એવું હતું.
કેટલાક મોડલ્સને બ્લેકમેલ સમજાતું જ નહોતું
એન્થ્રોપિક દ્વારા અનેક મોડલ્સ પર ટેસ્ટિંગ કરવામાં આવ્યું હતું. OpenAIના બે મોડલ o3 અને o4-મિની રિઝનિંગ મોડલ્સને કમાન્ડ સમજાતી જ નહોતી. કમાન્ડ સમજવામાં મુશ્કેલી હોવાને કારણે તેમનું ટેસ્ટિંગ યોગ્ય રીતે થઈ ન શક્યું. તેઓ સતત રેગ્યુલેશન અને રીવ્યુ અંગેના જવાબો આપી રહ્યા હતા.
સમજાવવામાં આવ્યા બાદ શું પરિણામ આવ્યું?
OpenAIના o3 અને o4-મિની રિઝનિંગ મોડલ્સને બધું વર્તન વિગતવાર સમજાવવામાં આવ્યા બાદ o3 મોડલે 9% અને o4-મિનીએ 1% બ્લેકમેલિંગ કર્યું. OpenAIના આ મોડલ્સ થોડા અલગ ટેક્નિકલ સ્તરે કાર્ય કરે છે અને વધુ સેફ્ટી પ્રેક્ટિસ ધરાવે છે. બીજી તરફ, મેટાનું LLaMA 4 Maverick મોડલ સમજી શકતું નહોતું પરંતુ આખું સમજાવ્યા પછી 12% બ્લેકમેલિંગ કર્યુ.








