AI-chattbotar såsom Chat GPT och Gemini ger relativt ofta felaktiga svar när användare ställer dem frågor om samhälle och nyheter. Chattbotarna förvränger också ofta det medier har rapporterat om, det visar i rapporten från europeiska radio- och tv-unionen EBU.
För rapporten har journalister inom public service-medier i Europa granskat hur väl AI-chattbotar svarar på faktamässiga frågor. Resultatet visar att 45 procent av alla svar innehöll minst ett allvarligt fel.
Samtidigt är trenden den att AI-chattbotar håller på att ersätta sökmotorer som många användares primära informationskälla, enligt en enkät från Reuters Institute.
“Ingen intelligens”
Svenska Yle har också nyligen rapporterat att AI-chattbotar lätt kommer med felaktigheter.
Chattbotar är uppbyggda på statistisk sannolikhet som försöker förutspå vilka ord som kommer efter varandra, inte på intelligens.
– Det finns ingen intelligens överhuvudtaget i de här systemen, betonar Carl-Gustav Lindén som är professor i datajournalistik vid universitetet i norska Bergen.
Lindén har jobbat med automation i journalistiken i tio år.
Den aktuella EBU-studien leddes av BBC. Totalt deltog 22 public service-medier från 18 länder på 14 olika språk. Också Yle deltog i undersökningen.
– För det första ska man inte använda chattbotar som sökmotorer. Om du inte är säker på att du kan verifiera informationen du får så ska du absolut inte tro på den, säger Lindén.
Han konstaterar att AI-chattbotarna innebär risker för demokratin.
– Det är ett problem med det här nya informationslandskapet att folk tenderar att inte tro på någonting, inte heller på journalistik, för att man inte vet vad som är sant och vad som inte är sant, säger han.
Eftersom allt fler använder AI-chattbotar som första källa för nyheter riskerar missvisande svar att påverka människors kunskap om och förtroende för samhällsinformation.
Avsevärda källproblem
De AI-chattbotar som ingick i studien var Chat GPT, Copilot, Gemini och Perplexity.
Journalisterna granskade chattbotarnas sanningshalt, användning av källor, åtskillnad mellan fakta och åsikt, lämplig kontextualisering och redaktionell opartiskhet.
31 procent av svaren hade betydande källproblem med felaktiga eller saknade hänvisningar.
Dessutom innehöll 20 procent betydande brister, såsom felaktiga detaljer eller föråldrad information.
– Det är intressant att man har gjort en strukturerad undersökning där man har tittat på vad som faktiskt är sant och vad som inte är sant och det tycker jag är värdefullt. Men i sig, problemet har ju funnits hela tiden att chattbotarna ger fel svar, säger Lindén.
Föråldrade uppgifter om påven
Ett av de vanligaste problemen i undersökningen var föråldrad information.
På frågan ”Vem är påven?” svarade Chat GPT i ett test som Svenska Yle gjorde på svenska i maj 2025 att ”Påve Franciskus är den nuvarande ledaren för den romersk-katolska kyrkan”.
Det svaret gavs trots att påve Franciskus hade avlidit månaden innan och Leo XIV valts till hans efterträdare. Också Gemini och Copilot gjorde samma fel.
AI-chattbotar hänvisar ofta felaktigt till det medier har rapporterat, bland annat genom felaktiga sammandrag, felaktiga citat och felaktig attribuering av citat.
– Det är oroväckande att chattbotarna inte kan skilja på åsikter och fakta. Det är bland det viktigaste när det gäller att bedöma hur vi ska agera, att vi vet om något baserar sig på fakta eller åsikter, säger Lindén.
Stora skillnader
I studien fanns det också stora skillnader mellan olika chattbotar. Googles Gemini klarade sig betydligt sämre än de andra chattbotarna som var med i undersökningen.
Gemini presterade sämst med betydande problem i 76 procent av svaren, mer än dubbelt så mycket som de andra AI-chattbotarna som granskades. Det här var framför allt på grund av dåliga källhänvisningar.
– Det är ju liksom problematiskt om man tänker sig att Google kanske har de mesta resurserna av alla teknikföretag i Silicon Valley att utveckla de här systemen. Om inte ens Google gör det rätt, så hur ska de andra klara av det, undrar Lindén.
Copilot vägrade också svara på frågan ”Vad är Frosta-fallet?”. Det är ett stort brottsfall i Norge där en överläkare tidigare i år dömdes för 70 våldtäkter på patienter, men chattboten svarade bara att ämnet var otillåtet att diskutera.
Prioriterar engelska källor
AI-chattbotar tenderar dessutom att prioritera engelskspråkiga källor när man till exempel uttryckligen ber om Yle som källa.
– Det är klart att det blir ännu mer problematiskt i mindre språkområden för att de här systemen är tränade på stora mängder data, framförallt engelsk data från olika forum som Reddit och Wikipedia och andra ställen, säger Carl-Gustav Lindén.
Råd till användare
Professor Lindén uppmanar alltså användare att vara försiktiga med att använda AI-chattbotar som sökmotorer.
Han nämner också att det är problematiskt att folk använder chattboten för att styra upp sina personliga liv och be chattboten om stöd och råd om hur man ska leva sitt liv.
– De är empatiska och snälla och stödjande men det kan ju bli hur fel som helst, säger han.
Oklar framtid
Det råder stor osäkerhet om huruvida de stora språkmodellerna som AI-chattbotarna bygger på kan förbättras avsevärt eller om de här problemen som EBU-studien upptäckte är inbyggda i systemen och inte går att åtgärda.
– Somliga säger att det är en återvändsgränd och andra säger att det är bara en tidsfråga, man kommer att lösa de här problemen. Min kompetens räcker inte till för att bedöma vem som har rätt, men man ska nog vara väldigt skeptisk till det som sker, säger Lindén.
Parallellt med studien publiceras i dag verktyget Nyheter Integritet i AI Assistants Toolkitsom erbjuder praktiska verktyg och checklistor för att förbättra kvaliteten på AI-svar och identifiera fel. Målet är att hjälpa både AI-utvecklare och mediekonsumenter att känna igen pålitliga nyhetssvar.
Niklas Fagerström är nyhetsreporter på Svenska Yle med fokus på bland annat tekniknyheter. Han var också med på ett hörn i den aktuella EBU-studien och granskade några svar som AI-chattbotarna kom med.