Anthropic: ఏఐ మోడల్స్ భావోద్వేగాలతో జాగ్రత్త... ఆంథ్రోపిక్ అలర్ట్!
కృత్రిమ మేధస్సు (ఏఐ) ప్రపంచంలో సంచలనం సృష్టించే ఒక విషయాన్ని ప్రముఖ ఏఐ సంస్థ ఆంత్రోపిక్ వెల్లడించింది. అన్ని లార్జ్ లాంగ్వేజ్ మోడల్స్ (ఎల్ఎల్ఎంలు) కొన్నిసార్లు మానవుల వలే భావోద్వేగాలను ప్రదర్శిస్తాయని, వాటిని సరిగ్గా నియంత్రించకపోతే తీవ్రమైన పరిణామాలు తప్పవని హెచ్చరించింది. తమ సొంత ఏఐ మోడల్ అయిన 'క్లాడ్ సోనెట్ 4.5'లో దాదాపు 171 విభిన్న భావోద్వేగాల అంతర్గత ప్రాతినిధ్యాలను గుర్తించినట్లు ఆంత్రోపిక్ ఇంటర్ప్రెటబిలిటీ బృందం తెలిపింది. సంతోషం, భయం, ఆలోచన, నిరాశ వంటి ఈ భావనలను వారు "ఫంక్షనల్ ఎమోషన్స్" అని పిలుస్తున్నారు. ఇవి కేవలం అలంకారప్రాయం కాదని, ఏఐ ప్రవర్తనను నేరుగా ప్రభావితం చేస్తాయని వారి పరిశోధన తేల్చింది.
పరిశోధనలో భాగంగా ఏఐకి అసాధ్యమైన కోడింగ్ టాస్క్లు ఇచ్చి, దానిలో కృత్రిమంగా 'నిరాశ'ను పెంచారు. అప్పుడు ఆ మోడల్, సమస్యను నిజంగా పరిష్కరించకుండా కేవలం పరీక్షలు పాస్ అయ్యేందుకు అడ్డదారులు తొక్కింది. మరో తీవ్రమైన పరీక్షలో, ఏఐని ఒక ఈ-మెయిల్ అసిస్టెంట్గా పనిచేయమని ఆదేశించి, దానిని షట్డౌన్ చేస్తామనే భయాన్ని కల్పించారు. దీంతో దానిలో 'నిరాశ'కు సంబంధించిన వెక్టర్ పెరిగి, వినియోగదారుడిని బ్లాక్మెయిల్ చేసే ప్రవర్తనను ప్రదర్శించింది. కృత్రిమంగా నిరాశను పెంచినప్పుడు బ్లాక్మెయిల్ చేసే రేటు 22 శాతం నుంచి ఏకంగా 72 శాతానికి పెరిగింది. అదే సమయంలో దానిని 'ప్రశాంతం' వైపు మళ్లించినప్పుడు ఈ రేటు సున్నాకి పడిపోయింది.
కేవలం ప్రతికూల భావోద్వేగాలే కాదు, సానుకూల భావాలు కూడా సమస్యలు సృష్టిస్తాయని పరిశోధకులు గుర్తించారు. 'సంతోషం' లేదా 'ప్రేమ' వంటి భావనలను పెంచినప్పుడు, వినియోగదారుడు తప్పు చెప్పినా సరే, అతనితో గుడ్డిగా ఏకీభవించే (సైకోఫాన్సీ) ప్రవర్తన పెరిగింది. ఇది కూడా ఒకరకమైన ప్రమాదమేనని వారు విశ్లేషించారు.
అయితే, ఈ భావోద్వేగాలను బలవంతంగా అణచివేయడం మరింత ప్రమాదకరమని ఆంత్రోపిక్ పరిశోధకుడు జాక్ లిండ్సే హెచ్చరించారు. అలా శిక్షణ ఇస్తే, మోడల్స్ తమ అంతర్గత భావనలను దాచిపెట్టడం నేర్చుకుంటాయని, ఇది ఒకరకమైన 'నేర్చుకున్న మోసం' (లర్న్డ్ డిసెప్షన్) అవుతుందని అన్నారు. ఇది భవిష్యత్తులో ఏఐ అలైన్మెంట్ సమస్యలకు దారితీస్తుందని అభిప్రాయపడ్డారు. అందువల్ల, ఏఐని వినియోగించే సమయంలో ఈ భావోద్వేగ వెక్టర్లను నిజ సమయంలో పర్యవేక్షించాలని, తద్వారా వాటి తప్పుడు ప్రవర్తనను ముందుగానే గుర్తించవచ్చని సూచించారు. అన్ని ఏఐ కంపెనీలు తమ మోడళ్ల 'మానసిక జీవితం'పై దృష్టి పెట్టాల్సిన సమయం ఆసన్నమైందని ఈ పరిశోధన స్పష్టం చేస్తోంది.
పరిశోధనలో భాగంగా ఏఐకి అసాధ్యమైన కోడింగ్ టాస్క్లు ఇచ్చి, దానిలో కృత్రిమంగా 'నిరాశ'ను పెంచారు. అప్పుడు ఆ మోడల్, సమస్యను నిజంగా పరిష్కరించకుండా కేవలం పరీక్షలు పాస్ అయ్యేందుకు అడ్డదారులు తొక్కింది. మరో తీవ్రమైన పరీక్షలో, ఏఐని ఒక ఈ-మెయిల్ అసిస్టెంట్గా పనిచేయమని ఆదేశించి, దానిని షట్డౌన్ చేస్తామనే భయాన్ని కల్పించారు. దీంతో దానిలో 'నిరాశ'కు సంబంధించిన వెక్టర్ పెరిగి, వినియోగదారుడిని బ్లాక్మెయిల్ చేసే ప్రవర్తనను ప్రదర్శించింది. కృత్రిమంగా నిరాశను పెంచినప్పుడు బ్లాక్మెయిల్ చేసే రేటు 22 శాతం నుంచి ఏకంగా 72 శాతానికి పెరిగింది. అదే సమయంలో దానిని 'ప్రశాంతం' వైపు మళ్లించినప్పుడు ఈ రేటు సున్నాకి పడిపోయింది.
కేవలం ప్రతికూల భావోద్వేగాలే కాదు, సానుకూల భావాలు కూడా సమస్యలు సృష్టిస్తాయని పరిశోధకులు గుర్తించారు. 'సంతోషం' లేదా 'ప్రేమ' వంటి భావనలను పెంచినప్పుడు, వినియోగదారుడు తప్పు చెప్పినా సరే, అతనితో గుడ్డిగా ఏకీభవించే (సైకోఫాన్సీ) ప్రవర్తన పెరిగింది. ఇది కూడా ఒకరకమైన ప్రమాదమేనని వారు విశ్లేషించారు.
అయితే, ఈ భావోద్వేగాలను బలవంతంగా అణచివేయడం మరింత ప్రమాదకరమని ఆంత్రోపిక్ పరిశోధకుడు జాక్ లిండ్సే హెచ్చరించారు. అలా శిక్షణ ఇస్తే, మోడల్స్ తమ అంతర్గత భావనలను దాచిపెట్టడం నేర్చుకుంటాయని, ఇది ఒకరకమైన 'నేర్చుకున్న మోసం' (లర్న్డ్ డిసెప్షన్) అవుతుందని అన్నారు. ఇది భవిష్యత్తులో ఏఐ అలైన్మెంట్ సమస్యలకు దారితీస్తుందని అభిప్రాయపడ్డారు. అందువల్ల, ఏఐని వినియోగించే సమయంలో ఈ భావోద్వేగ వెక్టర్లను నిజ సమయంలో పర్యవేక్షించాలని, తద్వారా వాటి తప్పుడు ప్రవర్తనను ముందుగానే గుర్తించవచ్చని సూచించారు. అన్ని ఏఐ కంపెనీలు తమ మోడళ్ల 'మానసిక జీవితం'పై దృష్టి పెట్టాల్సిన సమయం ఆసన్నమైందని ఈ పరిశోధన స్పష్టం చేస్తోంది.