Uniavisen
Københavns Universitet
Uafhængig af ledelsen

Videnskab

Sexede kvinder og modige mænd: Kønsstereotyper i litteraturen påvirker kunstig intelligens

Forskning — I litteraturen er mænd modige, rationelle og begår vold. Kvinder er typisk sexede, kønne og frugtbare. Bøgernes normer om køn påvirker, hvordan nutidens maskiner lærer menneskesprog.

Datalog på Københavns Universitet Isabelle Augenstein har sammen med en international forskningsgruppe undersøgt sprogbrug i skøn- og faglitteratur fra 1900 til 2008. Med maskinlæring har forskerne identificeret de tillægs- og udsagnsord, der sættes i forbindelse med navneord i 3,5 millioner bøger.

Vi præsenterer ikke bare forskningsresultaterne i sig selv, men også en generel metode til at opspore køns-forudindtaget sprog i større tekstsamlinger

Isabelle Augenstein, adjunkt på Datalogisk Institut

Gruppens forskning viser, at der i litteraturen er markante forskelle på, hvordan hunkøns navneord (fx datter, mor, prinsesse, dronning) og hankøns navneord (far, søn, bror, husbond) beskrives med tillægsord.

De hunkønnede navneord beskrives med tillægsord, der knytter sig til deres udseende, mænd beskrives med ord, der knytter sig til deres væremåde – hvor litteraturens kvinder er smukke eller sexede, er mændene primært retskafne og modige.

I sprogsociologien har forskerne længe interesseret sig for, i hvor høj grad vores sprog er kønsspecifikt. Men datalogernes nyeste forskningsresultater er opnået med nye, kvantitative metoder.

»Vi præsenterer ikke bare forskningsresultaterne i sig selv, men også en generel metode til at opspore køns-forudindtaget sprog i større tekstsamlinger – som samtidig kan anvendes på andre datasæt,« skriver Isabella Augenstein i en mail til Uniavisen.

Via maskinlæring har datalogerne anvendt et kæmpemæssigt datasæt, og de har blandt  kunnet bestemme omfanget af graderne af det kønnede sprog, og hvorvidt tillægs- og udsagnsordene er positive eller negative.

Påvirker nutidens samfund

Selv om forskerne ikke har brugt litteratur skrevet efter 2008, er det kønnede sprog i de ældre tekster relevant at tale om i dag: Den algoritme, man bruger til at lave programmer og maskiner, som genkender menneskestemmer, anvender nemlig i stor stil den tekst, der ligger på nettet – heriblandt litterære værker og artikler, der har flere år på bagen. Det gælder blandt andet, når smartphones genkender stemmer, eller Google foreslår os søgeord.

»Et almindelig brugt datasæt er fx the New York Times’ datasæt, som indeholder artikler fra perioden 1987-2007,« skriver Isabelle Augenstein.

Maskinerne bygger deres ‘sandhed’ ud fra blandt andet ældre tekster, der gør brug af kønsstereotyper.

Læs mere

Forskningsartiklen om projektet, som præsenteret for nyligt på konferencen ACL 2019, kan læses her.

»Desuden vil jeg argumentere for, at mennesker stadig engagerer sig i ældre litteratur. Tænk på de klassiske børnebøger som Brødrene Grimms eventyr eller nyere filmatiseringer af historiske dramaer,« skriver Isabelle Augenstein om måden, ældre skriftlig sprogbrug påvirker vores samfund i dag.

Til at følge op på resultaterne, er forskergruppen, som Isabelle Augenstein er en del af, netop påbegyndt et nyt studie, der skal kunne fortælle mere om, hvordan kønsstereotyper har udfoldet sig historisk. Det gør de ved at tage de netop fremlagte forskningsresultater og opdele dem i årtier.

»Baseret på, hvordan andre forskere har fundet ud af, forventer vi at kunne se, at der stadig er kønsstereotyper i nyere bøger, selv om det kan være udtrykt igennem lidt anderledes sprog,« skriver hun.

Seneste