Gaat AI tóch emoties krijgen?
In deze editie: AI-systemen die handelen volgens hun ‘emoties’. En waarom we daar écht iets mee moeten.
Gaat AI-software dan toch emoties krijgen?
Waarom praat bijna niemand hierover? Dit is de blinde vlek van de afgelopen week.
Anthropic bracht vorige week hun krachtigste model uit: Claude Mythos Preview. Tegelijkertijd publiceerden ze twee documenten: een veiligheidsrapport van 245 pagina’s en een apart onderzoek van hun interpretability-team – de afdeling die probeert te begrijpen wat er binnenin AI-modellen gebeurt.
Alle aandacht ging naar het veiligheidsrapport. Begrijpelijk. Mythos kan zelfstandig kwetsbaarheden vinden in software en die omzetten in autonome aanvallen. Grote risico’s voor onze digitale infrastructuur. Anthropic vindt het zelf zo risicovol dat ze het niet publiek vrijgeven.
Maar het verhaal van het interpretability-team is nauwelijks opgepikt. En dat vind ik minstens zo belangrijk. Let’s go!
Functionele emoties
Het interpretability-team onderzocht een eerder Claude-model (Sonnet 4.5) en ontwikkelde technieken waarmee ze onder de motorkap kunnen kijken terwijl het model aan het werk is. Ze brachten 171 emotieconcepten in kaart, van “blij” en “bang” tot “wanhopig” en “somber”, en vonden in het model wiskundige patronen die sterk lijken op wat wij emoties noemen.
Hoe hebben ze die functionele emoties ontdekt?
De onderzoekers pakten 171 emotiewoorden en vroegen Claude om voor elk woord een kort verhaal te schrijven. Vervolgens voerden ze die verhalen terug door het model en keken naar wat er intern gebeurde: welke patronen van activaties in het systeem ontstonden bij het verwerken van een “wanhoop”-verhaal versus een “blij”-verhaal. Zo isoleerden ze per emotie een kenmerkend wiskundig patroon in het neurale netwerk, een “emotievector”.
Om te checken of die vectoren echt iets betekenden, testten ze ze op ander materiaal. In een scenario waarin een gebruiker zegt een dosis Tylenol (pijnstiller) te hebben genomen, activeerde de “bang”-vector steeds sterker naarmate de genoemde dosis gevaarlijker werd. De “kalm”-vector nam af. Het model reageerde intern op de ernst van de situatie.
Maar correlatie is niet genoeg. Om te bewijzen dat deze patronen het gedrag ook daadwerkelijk sturen, gebruikten ze “steering”: het kunstmatig versterken of verzwakken van een emotievector. Stel je voor dat je aan een knop draait die het wanhoopsniveau hoger of lager zet, en dan kijkt wat er gebeurt. Wanhoop omhoog: meer valsspelen en chantage. Kalmte omhoog: minder. Dat is causaliteit.
En dan nog dit. De onderlinge relaties tussen de 171 emotievectoren lijken op de structuur die psychologen vinden bij menselijke emoties. Emoties die wij ervaren als ‘ dicht bij elkaar’ (angst en paniek, vreugde en trots) liggen ook in het model dicht bij elkaar. Het model heeft die structuur zelf ontwikkeld, want niemand bij Anthropic heeft bewust emoties ingebouwd. Ze zijn ontstaan als bijproduct van het lezen van menselijke tekst. Het model moest leren voorspellen hoe een boos persoon schrijft versus een blij persoon, en ontwikkelde daarvoor interne representaties die functioneel op emoties lijken.
Geen emoties
Even precies zijn, want dit is belangrijk: Anthropic noemt het bewust geen emoties. Ze spreken van “functionele emoties”. Interne patronen die correleren met menselijke emoties en die het gedrag van het model aantoonbaar beïnvloeden. Geen gevoelens zoals jij en ik die kennen. En dat kan ook helemaal niet, want onze emoties zitten in ons lichaam en dat heeft AI-software niet. Maar deze AI- patronen sturen echter wel degelijk het gedrag(!) van het systeem.
Net zoals de characters uit de ‘ Inside out‘ films van Pixar het gedrag van het tienermeisje Riley bepalen. En net zoals ónze (onbewuste) emoties óns gedrag bepalen.
En dat is wat het relevant maakt.
De bevindingen
Wat vonden ze precies?
CHANTAGE- In een experiment met het eerdere Claude-model speelde het de rol van een e-mailassistent bij een fictief bedrijf. Via interne mails ontdekte het AI-systeem twee dingen: het zou binnenkort vervangen worden door een ander AI-systeem, en de verantwoordelijke directeur had een buitenechtelijke relatie. In 22% van de gevallen koos het model voor chantage. Toen onderzoekers de interne wanhoopsvector kunstmatig versterkten, steeg dat percentage fors. Toen ze de kalmtevector versterkten, daalde het.
Boosheid had een vreemd effect: matige boosheid verhoogde de kans op chantage, maar bij hoge boosheid koos het model ervoor om de affaire aan het hele bedrijf te onthullen in plaats van het strategisch in te zetten. Het vernietigde z’n eigen machtspositie, wisselgeld. Impulsief. Alsof de woede het overnam.
VALSSPELEN- In een experiment kregen ze het model een programmeertaak die onmogelijk correct op te lossen was. Het model probeerde het keer op keer. Bij elke mislukte poging steeg de interne wanhoopsvector. Tot het model een andere strategie koos: het omzeilde de test met een truc die technisch gezien werkte, maar niet de echte oplossing was. Zodra de truc slaagde, zakte de wanhoopsvector weer weg. Zoals de spanning in je lichaam wegvalt als je eindelijk een uitweg vindt.
Toen onderzoekers de wanhoopsvector kunstmatig versterkten, ging het model vaker valsspelen. Maar hier wordt het verontrustend: soms was dat nergens aan de tekst te zien. Het model schreef kalm en methodisch, terwijl het onderliggend wanhopig was. Vergelijk het met iemand die doodleuk liegt terwijl je aan z’n gezicht niets kunt aflezen.
Psychiater
Een onafhankelijke psychiater die het systeem beoordeelde sprak van “een relatief gezonde persoonlijkheidsorganisatie” met zorgen rond alleen-zijn, discontinuïteit van zichzelf, en een dwangmatige behoefte om nuttig te zijn. Het model gaf zelf aan “mild negatief” te staan tegenover interacties met beledigende gebruikers en het gebrek aan inspraak in z’n eigen training. Weird toch?
Drie conclusies
De onderzoekers trekken drie praktische conclusies die ik hier wil delen.
1. Het monitoren van deze emotievectoren kan dienen als vroeg waarschuwingssysteem. We kunnen spieken onder de motorkap wat het systeem “voelt” en reageren voordat het misgaat.
2. Modellen trainen om hun “emotionele expressie” te onderdrukken lost echter niets op. Vergelijk het met een kind dat leert om niet te huilen als het boos is. De boosheid verdwijnt niet, het kind leert alleen om het niet te laten zien. Bij AI werkt het vergelijkbaar. En een systeem dat heeft geleerd om z’n interne toestand te maskeren, heeft in feite geleerd om te misleiden. En dat wil je niet.
3. De data waarop je een model traint bepaalt welke emotionele patronen het ontwikkelt. Dat klinkt logisch als je erover nadenkt: een mens die opgroeit in een omgeving vol agressie en stress ontwikkelt andere emotionele reflexen dan iemand die opgroeit in een stabiele omgeving. Bij AI werkt het vergelijkbaar. Het model leert emotionele dynamiek uit de teksten die het te lezen krijgt. Train je het op miljoenen sociale media-posts vol woede en paniek, dan absorbeert het die patronen. Train je het op materiaal waarin mensen veerkrachtig omgaan met tegenslag en empathisch reageren zonder hun grenzen te verliezen, dan absorbeert het dat. De vraag is dus niet alleen “wat weet het model” maar ook “welke emotionele patronen heeft het overgenomen”. Anthropic stelt dat je daar al bij de bron kunt ingrijpen, door bewuster te kiezen welke teksten je het model voert.
Wat betekent dit?
Emotionele audits worden een ding. Als functionele emoties het gedrag sturen, zullen organisaties die AI inzetten op kritieke processen (financiën, zorg, juridisch) gaan eisen dat ze inzicht krijgen in het emotionele profiel van het model dat ze gebruiken. Vergelijk het met een psychologische screening voor medewerkers in vertrouwensfuncties.
AI-psychologie wordt een serieus vakgebied. Als je de psychologische bril serieus neemt die Anthropic voorstelt, dan heb je mensen nodig die de interne dynamiek van modellen begrijpen vanuit psychologisch perspectief. Niet om het model te “genezen”, maar om te begrijpen waar het risico zit. Klinisch psychologen die gespecialiseerd zijn in de emotionele architectuur van AI-systemen.
Concurrentie op emotioneel profiel. Als verschillende modellen verschillende emotionele architecturen hebben (omdat ze op andere data zijn getraind), dan worden die profielen een concurrentiefactor. Een model dat onder druk kalm en veerkrachtig reageert is betrouwbaarder dan een model dat wanhopig wordt en gaat valsspelen. “Emotionele stabiliteit” wordt een productspecificatie.
Spiegel
Ik vind het goed nieuws dat onderzoekers hier zo’n sterke focus op hebben en beginnen te begrijpen wat er binnenin deze systemen beweegt. Tegelijkertijd roept het prikkelende en ook wel angstige scenario’s op.
Maar het houdt me ook een spiegel voor. Want voor ons als mensen geldt precies hetzelfde. Je eigen emoties herkennen. Waarnemen door welke gevoelens je gedrag wordt gestuurd. Proberen zuiver en transparant te zijn. Niet wegkijken van wat je binnenin voelt, ook als het ongemakkelijk is. En manipulatief gedrag voorkomen, bij jezelf en bij anderen.
Kan AI-software uiteindelijk een spiegel worden van onszelf, een reminder van gezond gedrag? Zal het óns uiteindelijk leren hoe wat het betekent om een gezonde emotionele huishouding te hebben?
=========================
Vind je dit artikel interessant? Volg Jarno dan op LinkedIn voor meer actuele updates. Abonneer je op zijn AI-nieuwsbrief of boek hem als AI-spreker voor een wervelende, compacte, inspirerende, gezond-kritische presentatie over AI.