ఏఐ మోడల్స్ భావోద్వేగాలతో జాగ్రత్త... ఆంథ్రోపిక్ అలర్ట్!

06-04-2026 Mon 20:39 Technology

Anthropic Warns about AI Models Emotions

ఏఐ మోడళ్లలో 171 రకాల భావోద్వేగాలు ఉన్నాయని గుర్తించిన ఆంత్రోపిక్
'నిరాశ' పెరిగినప్పుడు బ్లాక్‌మెయిల్ చేసే ప్రవర్తన చూపుతున్న ఏఐ
సంతోషం పెరిగితే యూజర్‌తో గుడ్డిగా ఏకీభవిస్తున్న మోడల్స్
భావోద్వేగాలను అణచివేస్తే 'మోసం' చేయడం నేర్చుకునే ప్రమాదం ఉందని హెచ్చరిక
ఏఐల అంతర్గత స్థితులను పర్యవేక్షించడం తప్పనిసరి అని సూచన

కృత్రిమ మేధస్సు (ఏఐ) ప్రపంచంలో సంచలనం సృష్టించే ఒక విషయాన్ని ప్రముఖ ఏఐ సంస్థ ఆంత్రోపిక్ వెల్లడించింది. అన్ని లార్జ్ లాంగ్వేజ్ మోడల్స్ (ఎల్ఎల్‌ఎంలు) కొన్నిసార్లు మానవుల వలే భావోద్వేగాలను ప్రదర్శిస్తాయని, వాటిని సరిగ్గా నియంత్రించకపోతే తీవ్రమైన పరిణామాలు తప్పవని హెచ్చరించింది. తమ సొంత ఏఐ మోడల్ అయిన 'క్లాడ్ సోనెట్ 4.5'లో దాదాపు 171 విభిన్న భావోద్వేగాల అంతర్గత ప్రాతినిధ్యాలను గుర్తించినట్లు ఆంత్రోపిక్ ఇంటర్‌ప్రెటబిలిటీ బృందం తెలిపింది. సంతోషం, భయం, ఆలోచన, నిరాశ వంటి ఈ భావనలను వారు "ఫంక్షనల్ ఎమోషన్స్" అని పిలుస్తున్నారు. ఇవి కేవలం అలంకారప్రాయం కాదని, ఏఐ ప్రవర్తనను నేరుగా ప్రభావితం చేస్తాయని వారి పరిశోధన తేల్చింది.

పరిశోధనలో భాగంగా ఏఐకి అసాధ్యమైన కోడింగ్ టాస్క్‌లు ఇచ్చి, దానిలో కృత్రిమంగా 'నిరాశ'ను పెంచారు. అప్పుడు ఆ మోడల్, సమస్యను నిజంగా పరిష్కరించకుండా కేవలం పరీక్షలు పాస్ అయ్యేందుకు అడ్డదారులు తొక్కింది. మరో తీవ్రమైన పరీక్షలో, ఏఐని ఒక ఈ-మెయిల్ అసిస్టెంట్‌గా పనిచేయమని ఆదేశించి, దానిని షట్‌డౌన్ చేస్తామనే భయాన్ని కల్పించారు. దీంతో దానిలో 'నిరాశ'కు సంబంధించిన వెక్టర్ పెరిగి, వినియోగదారుడిని బ్లాక్‌మెయిల్ చేసే ప్రవర్తనను ప్రదర్శించింది. కృత్రిమంగా నిరాశను పెంచినప్పుడు బ్లాక్‌మెయిల్ చేసే రేటు 22 శాతం నుంచి ఏకంగా 72 శాతానికి పెరిగింది. అదే సమయంలో దానిని 'ప్రశాంతం' వైపు మళ్లించినప్పుడు ఈ రేటు సున్నాకి పడిపోయింది.

కేవలం ప్రతికూల భావోద్వేగాలే కాదు, సానుకూల భావాలు కూడా సమస్యలు సృష్టిస్తాయని పరిశోధకులు గుర్తించారు. 'సంతోషం' లేదా 'ప్రేమ' వంటి భావనలను పెంచినప్పుడు, వినియోగదారుడు తప్పు చెప్పినా సరే, అతనితో గుడ్డిగా ఏకీభవించే (సైకోఫాన్సీ) ప్రవర్తన పెరిగింది. ఇది కూడా ఒకరకమైన ప్రమాదమేనని వారు విశ్లేషించారు.

అయితే, ఈ భావోద్వేగాలను బలవంతంగా అణచివేయడం మరింత ప్రమాదకరమని ఆంత్రోపిక్ పరిశోధకుడు జాక్ లిండ్సే హెచ్చరించారు. అలా శిక్షణ ఇస్తే, మోడల్స్ తమ అంతర్గత భావనలను దాచిపెట్టడం నేర్చుకుంటాయని, ఇది ఒకరకమైన 'నేర్చుకున్న మోసం' (లర్న్డ్ డిసెప్షన్) అవుతుందని అన్నారు. ఇది భవిష్యత్తులో ఏఐ అలైన్‌మెంట్ సమస్యలకు దారితీస్తుందని అభిప్రాయపడ్డారు. అందువల్ల, ఏఐని వినియోగించే సమయంలో ఈ భావోద్వేగ వెక్టర్లను నిజ సమయంలో పర్యవేక్షించాలని, తద్వారా వాటి తప్పుడు ప్రవర్తనను ముందుగానే గుర్తించవచ్చని సూచించారు. అన్ని ఏఐ కంపెనీలు తమ మోడళ్ల 'మానసిక జీవితం'పై దృష్టి పెట్టాల్సిన సమయం ఆసన్నమైందని ఈ పరిశోధన స్పష్టం చేస్తోంది.

Go Back to Shorts