Kunstig intelligens som forfatter

Tyveri, lån eller inspirasjon?

Dersom du blir en god forfatter ved å sprenglese Maja Lunde eller Jon Fosse, vil få reagere. Med KI stiller det seg annerledes.

Publisert Sist oppdatert

Bøker, bibliotek og kunstig intelligens

Dette er den tredje av flere artikler i en serie om forholdet mellom bøker, bibliotek og kunstig intelligens som forfatteren har fått støtte fra Fritt Ord til å produsere for Bok & bibliotek. 

Del 1 (Bok & bibliotek 3-23): KI-dannelse til folket. Om KI i bibliotek

Del 2 (Bok & bibliotek 4-23): Ord etter hverandre. Kunstig intelligens som forfatter 1

Anlov Peter Mathiesen er journalist og sakprosaforfatter. Han var tidligere ansvarlig redaktør i gatemagasinet =Oslo og kommunikasjonssjef i Mental Helse Norge. 

Man kan ikke fly seg til å fly, mente Nietzsche, man må først lære å gå, løpe og klatre. Det samme gjelder for kunstig intelligens, som via statistiske metoder trenes opp i å finne mønstre i enorme mengder data. Under den såkalte maskinlæringen mates den med et voldsomt antall tekster og bøker og utvikler en forståelse for rekkefølger av ord. Hva de California-baserte teknologiselskapene benytter av «data», er i ferd med å bli en juridisk floke av opphavsrett og åndsverk.

Den første loven om opphavsrett kom i 1710, da det britiske parlamentet vedtok The Statue of Anne. Den ga forfattere og forlag enerett på bøker i fjorten år. Siden den gang er de fleste enige om at ingen skal utnytte andres arbeid. Det er likevel lov å lære, men når lærlingen er en kommersiell maskin, blir det straks mer komplisert.

– Det står enhver leser fritt å lære av de bøker som leseren leser, også til å forbedre egne skriveferdigheter. Hvorfor skal ikke det samme gjelde for KI-verktøy som ChatGPT? spør Magnus Stray Vyrje. Han er partner i advokatfirmaet Stray Vyrje & Co. med bred erfaring med teknologi og opphavsrett.

Under panseret

Vinteren 2022 entret KI hverdagen med en forrykende hastighet, men drivstoffet var hemmelig.

– Vi merket jo at det begynte å skje noe, og alle fikk med seg at det var en revolusjon på gang, sier Brynjulv Jung Tjønn, som leder Den norske Forfatterforening.

Brynjulv Jung Tjønn, leder i Den norske Forfatterforening.

– I litteraturbransjen tok vi det på alvor, og våren 2023 ba skribentorganisasjonene om et møte med Kulturdepartementet og Kommunaldepartementet. Sånn at vi var ganske tidlig på ballen. Samtidig var det ingenting som tydet på at norske verk hadde blitt brukt.

– Men det var ingen åpenhet om hva teknologiselskapene hadde brukt?

– Nei, det var helt lukka. Man visste at de tok alt de kunne fra nettet. I Books2 skjønte vi at det var litt mer internasjonale verk, og så var det veldig uvisst hva som var i datasettet til Books3.

Books3 er et datasett med titusener av boktitler som brukes til å trene opp språkmodeller. Settet skal ha blitt brukt av kommersielle giganter som Meta og Bloomberg.

– Men sommeren 2023 begynte det å røre seg. Den danske forfatterforeningen oppdaget at sju forfattere hadde fått sine verk brukt som treningsgrunnlag, og da skjønte vi at det nærmet seg her også. Så knakk The Atlantic koden til Books3 i september, hvis jeg husker riktig.

Han husker riktig, og takket være det amerikanske magasinet fikk Tjønn og forfatterkollegene sjansen til å se under panseret på og endelig sjekke noe av drivstoffet. The Atlantic laget nemlig en søkbar database over modellens treningsgrunnlag.

– De tar det de får tak i

– Vi søkte opp alle medlemmene våre manuelt, rett og slett. Og vi har jo 750 medlemmer, så det var litt av en jobb … Da fant vi ut at trettito av dem hadde fått verk brukt som treningsgrunnlag uten lov.

Verkene var ikke bare brukt, de var heller ikke kjøpt på lovlig vis.

– Dette er jo kopier av e-bøker som er kopiert ulovlig og gjort tilgjengelig på nett. Tallet varierer, men i Books3 er det mellom 180 000 og 200 000 piratkopierte bøker. Det handler nok om at disse teknologiselskapene tar det de får tak i.

Stray Vyrje, partner i advokatfirmaet Stray Vyrje & Co.

– Når KI-verktøy som ChatGPT trener på beskyttede verk, skjer det etter alt å dømme en form for opphavsrettslig eksemplarfremstilling av verkene, en digital kopiering, forklarer advokat Stray Vyrje. – Hvorvidt dette er lovlig, beror blant annet på hvilke lands rett som legges til grunn. Opphavsrettslig tyder mye på at treningen av språkmodellene gjennomføres på en slik teknisk måte at det etter norsk og europeisk opphavsrett skjer en form for «kopiering» av de åndsverk som inngår i treningsgrunnlaget. Dette krever i så fall opphavsmannens samtykke.

Glemsel er en guddommelig egenskap, skrev Nietzsche og mente at den som vil fly, må kaste av seg all tyngde og gjøre seg lett. Muligens er det slik Silicon Valley-milliardærene ønsker vi skal se på utviklingen av kunstig intelligens: legge gårsdagens tyverier bak oss og beundre den flyvende maskinen.

Ikke så enkelt

Foran meg på et rødbrunt skinnende bord ligger et papir, og en mann tegner med en lysegrønn penn. Han skriver «Input» i en sirkel og «Output» i en annen. På en tredje skriver han «Prompts». Ole-Andreas Rognstad er professor i privatrett ved Det juridiske fakultet i Oslo og gjør sitt beste for å forklare det han forsikrer meg er et vanskelig tema.

Ole-Andreas Rognstad, professor i privatrett ved Detjuridiske fakultet.

– Jeg tenker det er tre problemstillinger her. Du har input, som går på trening av data, og da er spørsmålet om du bruker verk på en måte som gjør at opphaveren da har rett til kompensasjon. Når du har gjort det, kommer det en output, og da er spørsmålet om den krenker rettighetene til inputen. Man må rett og slett sammenligne det som finnes fra før, og det som skapes. Den tredje problemstillingen er at når du bruker disse maskinene, har du da egne rettigheter til det du skaper?

– Er det opphavsrettslig greit å bruke beskyttede verk uten samtykke til å trene kunstig intelligens?

– Det går ikke an å svare ja eller nei på det. Det er ikke så enkelt.

Mottatt.

– I forbindelse med treningen av disse KI-systemene trenger du jo data, da er det vanskelig å tenke seg noe annet enn at man må trene på data fra eksisterende verk. For å kunne trekke ut relevante data må man på en eller annen måte fremstille eksemplar av dem. Og det er der det opphavsrettslige kommer inn. Altså, selve uttrekket av data er ikke opphavsrettslig relevant, men det er de handlingene du foretar i forbindelse med den prosessen.

En prosess som kalles tekst- og datautvinning, eller mining.

– Om du tenker på bokdatabaser og sånne ting, så finnes det rettigheter som vil kunne være berørt. Det gjør det litt komplisert, for prosessen disse systemene forutsetter … de er ute etter å finne mønstre, det er sånn de trener maskinene, ikke for å utnytte innholdet i verket. Men privatkopierte bøker er jo et ytterligere problem, sier Rognstad.

«Systematisk masseplyndring»

Når den kunstige intelligensen har lært å løpe og klatre, er den klar for å fly. «Snakke» med oss via pc-skjermen. Instruksene vi gir den, kalles prompts og utløser enda flere opphavsrettslige problemer.

– Når du skriver «lag et bilde av en golden retriever kledd i smoking som spiller piano» eller noe sånt, så vil du få et resultat, forteller Rognstad. – Da er spørsmålet, har du ved å legge inn en prompt skapt det verket, eller er det maskinen som har gjort det? Kriteriet for å ha skapt et åndsverk er at man har foretatt noen frie og kreative valg, og hvis du skriver tusen prompts, så har du helt klart gjort noe kreativt.

17 amerikanske forfattere har gått til søksmål mot OpenAI for det den amerikanske forfatterforeningen kaller en «systematisk masseplyndring». Blant forfatterne finner vi George R.R. Martin, John Grisham og Jonathan Franzen. OpenAI peker på «output» og hevder den ikke er tilstrekkelig lik verk i treningsgrunnlaget til å kalles plagiater.

Stray Vyrje mener de kanskje har et poeng.

– Er det sannsynlig at språkmodellenes output kopierer tekster som inngår i treningsgrunnlaget? Egentlig ikke, i hvert fall ikke på kort sikt. Opphavsretten verner nemlig bare den konkrete, litterære formgivningen av tekstene i treningsgrunnlaget, det vi for enkelhets skyld kan kalle «ordrekkefølgen». Denne rekkefølgen blir i utgangspunktet ikke gjenbrukt når modellene genererer nye tekster ved besvarelsen av prompts. Når KI-verktøyene genererer tekster, skapes det som regel tekster som er opphavsrettslig nye, forklarer han.

Inspirasjon kontra tyveri

Da Martin skrev serien A Song of Fire and Ice – bøkene bak Game of Thrones-serien – var det ikke som om han fant opp fantasysjangeren. Hverken konfliktene, karakterene eller monstrene er særlige nye for kjennere av rollespill og fantasy. Noen ville til og med sagt at han bygget direkte på arbeidet til Tolkien, som igjen bygget på tradisjonelle mytologier.

I ditt fiktive forfatterskap som Fosse- og Lunde-inspirert bestselger etteraper du og forsøker nærme deg originalene. Vi kan si at den generative kunstige intelligensen gjør noe av det samme, men da med strek under noe av. For mens du og Martin ser etter språklige vendinger, kloke sammenstillinger av verb og meninger eller en bestemt stil, gjør KI ingenting av dette. Den lærer mønstre og statistiske rekkefølger av ord, men har ingen følelse for stil eller tone.

Marija Slavkovik, professor i kunstig intelligens ved universitetet i Bergen.

– KI følger regler og finner mønstre i data, forteller Marija Slavkovik, professor i kunstig intelligens ved universitetet i Bergen.

– Den har ikke evnen til å søke ny informasjon, finne noe uvanlig eller interessant og forfølge det. Den skaper modeller av komplekse fenomener. Modellene brukt til å generere innhold simulerer ikke nysgjerrighet. KI har ikke nysgjerrighet.

Noe som gjør at en maskingenerert fortelling neppe er noe annet enn en kopi av innlærte mønstre.

– Den fullfører setninger med den mest sannsynlige oppfølgingen av tegnrekker. Det er ingen historieskaping i den forstand som mennesker gjør. Den menneskelige fantasi uttrykkes ikke alltid i et enkelt prosesserbart dataformat, sier hun.

Kompensasjon og merking av innhold

La oss si at forfattere klarer å få på plass en kompensasjonsordning. Hvor mye skal det koste?

– Det er jo en utfordring, sier Tjønn.

– Hvis man sier at man bruker verket som treningsgrunnlag én gang, så kan man jo tenke at de ikke skal betale så mye. Men for den som har rettigheten til det åndsverket, så er det jo betydelig. Vi mener at det må kompenseres ordentlig, for man har jo faktisk utnyttet et åndsverk til å trene opp noe andre kan tjene penger på.

– Men når det kommer til stykket, vil ikke tech-aktørerene jobbe litt mot dere?

– Vi opplevde i fjor at noen tok direkte kontakt med forlagene for å få tilgang uten å gå via organisasjonene eller forfatterne. Men nå når det er en politisk vilje, så virker det som ting er under ordna forhold. Akkurat nå i hvert fall. Det er veldig positivt at litteraturfeltet er samlet. Ikke minst skal forfattere ha mulighet til å reservere seg mot at tekster blir brukt. De enkle reguleringene er at det må merkes og opplyses når det er KI involvert, sier Tjønn.

Digitaliseringsminister Karianne Oldernes Tung har forståelse for ønsket om kompensasjon.

Digitaliseringsminister Karianne Oldernes Tung.

– Det er viktig at store språkmodeller blir trent på norsk språk og kultur, men samtidig er det forståelig at de som eier rettigheter til åndsverk, ønsker å få kompensert når deres tekster eller bilder brukes til å trene KI-modeller. Derfor må vi ramme inn bruken av kunstig intelligens på en god måte. Da vil vi enklere ha tillit til at teknologien brukes til vårt, og samfunnets, beste.

En tillit som ifølge statsråden kan styrkes gjennom merking.

– Det er problematisk når noen bruker teknologi til å forvrenge eller på annen måte utgi seg for å være virkeligheten når det ikke er det. Nettopp derfor har regjeringen vært tydelig på at vi ønsker å vurdere en form for merking av slikt innhold, sier hun.

Tjønn mener at Norge kan spille en viktig rolle i det internasjonale arbeidet med opphavsrett.

– Det vi gjør her, kan bli et eksempel for andre land også. Jeg tror vi har muligheten til å være et foregangsland. Jeg tror man er mer opptatt av opphavsrett i Norge, og vi har sterke fagforeninger og kunstnerorganisasjoner som er opptatt av grunnlaget for kunstnerne. Man kan ikke unngå internett og datamaskiner, så man må heller se hvordan man kan gjøre det best mulig for dem man representerer.

Fra hjerte og hjerne

Og de man representerer, er mennesker, som ifølge Tjønn bør stå i sentrum av diskusjonen.

– Lenge handlet det om at maskinen ville kunne erstatte skjønnlitterære forfattere. Man har sett at man har matet en robot med masse bilder av Rembrandt, så kan du få ut bilder ganske likt Rembrandt. I teorien, hvis man mater en språkmodell med Jon Fosse-tekster, så vil man jo få tekster som kan minne om Jon Fosse. Men leserne vil ha ekte liv. Et eksempel er sjakken: Ingen klarer å slå en robot, men man vil ikke se roboter spille. Man vil se mennesker. Det samme gjelder nok innen kunst og skjønnlitteratur, at man vil lese om ekte liv. Man vil lese det som kommer fra et hjerte og en hjerne og en fysisk kropp.

– Man må ta et valg, i stedet for å bruke KI-genererte bilder i kommersiell sammenheng må man velge utøvende kunstnere. Hvis man vil ha aktivt kunstliv, så må man være bevisst på at det er mennesker som skal gjøre hovedjobben. Det må være et menneske der, i flere deler av økosystemet.

For litteratur består av flere enn forfattere, også oversettere, biblioteker, agenter, redigerere, konsulenter, språkvaskere, forlag og bokhandlere.

– Jeg synes det er litt skummelt at det finnes forlag som tester ut bruk av KI-genererte stemmer til å lese inn lydbøker, Bonnier har vel allerede testet det ut … Det går jo ut over skuespillerne, mener Tjønn.

Inspirasjon og tyveri

Hvis din tenkte forfatterkarriere førte til at du ble vurdert som en blåkopi av Lunde og Fosse, ville de neppe saksøkt deg. Om du derimot rappet historiene og karakterene, ville det stilt seg ganske annerledes. For distinksjonen mellom tyveri og læring ligger i likheten mellom verk, ikke i inspirasjonen.

Også i opphavsretten står mennesket i sentrum.

– Et grunnprinsipp for at du skal få opphavsrett, er at verket er menneskeskapt, sier professor Rognstad. – Så blir da spørsmålet om de er det når det er en maskin som står bak. I fremtiden kan man vel risikere at maskinene blir autonome, og at du får den typen problemstillinger, men fortsatt er det sånn at mennesker står bak maskinene.

Nietzsche sa at jo høyere vi flyr, desto mindre fremstår vi for dem under oss. Innlysende nok. Så spørs det hvor høyt maskinene får lov til å fly før vi mister dem av syne.

Powered by Labrador CMS