Den store uvidenskabelige chatbot-test

Som jeg har sagt mange gange har jeg et ret ambivalent forhold til den aktuelle bølge af generativ AI.

På den ene side synes jeg faktisk at der er masser af god værdi i at bruge værktøjerne i hverdagen – hvis man ellers gør sig den anstrengelse at udnytte deres stærke sider, og fx ikke bare accepterer alt hvad ChatGPT siger som fakta.

På den anden side, så er de store sprogmodeller – og ikke mindst virksomhederne bag – mildest talt plaget af udfordringer, fra strømslugende servere over hallucinationer til brug af private data.

Mit ærinde i denne blogpost er afgjort ikke at forsøge at afklare ambivalensen, eller for den sags skyld overhovedet tage hul på den store diskussion, som jeg heller ikke tænker vi kan blive færdige med sådan lige med det samme.

I stedet vil jeg dele en aktuel hverdagsfrustration som relativt almindelig AI-bruger, og også pege på nogle af de foreløbige resultater af en højst uvidenskabelig lille test af forskellige AI-værktøjer fra techfirmaerne derude.

Masser af chatbots

Samtalerobotter i hverdagen

Nu vil jeg absolut ikke kalde mig selv superbruger, endsige ekspert i brugen af GenAI, men jeg har dog udforsket både forskellige anvendelser og forskellige samtale-robotter det sidste halvandet års tid, og prøvet at bruge dem i hverdagen, først og fremmest i arbejdssammenhæng.

Og de seneste måneder har jeg været virkelig glad for Perplexity AI, der har hjulpet mig med både brainstorming, research på alt fra rumturisme til musik-jura, og med at tænke lidt udenfor kassen når det handler om at stille gode spørgsmål i mine mange podcast-interviews, hvor man jo efterhånden godt kan komme til at køre lidt på rutinen…

Perplexity har for mig haft to store fordele:

For det første kan man i Pro-versionen (der koster de sædvanlige $20 om måneden) skifte mellem en lille håndfuld forskellige LLM’er – ChatGPT, Claude, Llama og Perplexitys egen hjemmestrikkede model – og nemt sammenligne resultaterne.

For det andet svarer Perplexity ikke “bare” udfra sine egne træningsdata og sin egen “viden”, men søger også på nettet og inkorporerer resultaterne i sit svar, med kildehenvisninger til websider hvor det er relevant.

Det gør det relativt meget nemmere at faktatjekke svarene, og at begive sig videre ud på det store interweb for at dykke dybere i et emne, hvis man ikke bare vil fortsætte med at stille spørgsmål til Perplexity.

Det sidste har også givet mig et lille figenblad i diskussionen om hvorvidt “AI-søgemaskiner” stjæler al trafikken fra websites, præcis fordi jeg faktisk som regel følger Perplexitys henvisninger ud til sites og artikler, som jeg næppe ellers havde kendt, endsige besøgt.

Afsløringer skyder på Perplexity

Imidlertid har Perplexity i den forgangne uges tid fået ørerne i maskinen, efter afsløringer fra Robb Knight og Wired, der har påvist det man nok kan kalde tvivlsom forretningsskik hos firmaet – udover at de naturligvis gør sig skyldige i den sædvanlige overgearede hype-snak…

Jeg vil anbefale at man læser artiklerne hvis man er mere nysgerrig, men den korte version er, at Perplexity blandt andet ikke respekterer instruktionerne i den lille tekstfil, som hedder robots.txt, og som mange websites bruger til at fortælle såkaldte webcrawlers at de ikke giver crawlerne lov til at samle data fra det pågældende website.

A WIRED analysis (…) suggest that Perplexity is able to achieve [it’s results] partly through apparently ignoring a widely accepted web standard known as the Robots Exclusion Protocol to surreptitiously scrape areas of websites that operators do not want accessed by bots, despite claiming that it won’t.

(Det er i øvrigt selvsamme tekst-fil, som Apple også siger at man kan tilpasse, så Apples AI-bot ikke skraber data fra ens site til den kommende såkaldte Apple Intelligence – men altså efter at Apple allerede har høstet kolossale mængder “åbne” data fra nettet til træningen af deres LLM…)

Derudover mener man, at Perplexity også oversælger deres svar og resultater, der – siger Wired og Robb Knight – er ligeså fulde af hallucinationer og fejl som alle de andre, og at folkene i firmaet i øvrigt lyver om hvor meget indhold Perplexity skraber og plagierer fra sites i hele verden.

Flad fornemmelse

Den slags er naturligvis ærgerligt at høre for en ellers ret glad Perplexity-bruger. For jeg har som nævnt været rigtig tilfreds med de tekster og svar jeg har fået fra maskinen

Ikke mindst har jeg faktisk oplevet, at kildehenvisningerne som vises prominent i Perplexitys resultater har givet stor værdi i min videre research og i mine faktatjek.

Og jeg har klappet mig selv en lille smule på skulderen over netop at følge svarene videre ud på de originale sider, i stedet for bare at acceptere fx ChatGPTs kildefri opsummeringer/plagiater/tyverier fra webindhold.

Men efter at have læst de nævnte artikler føles selvfedheden jo lidt flad.

Jeg synes stadig det er en ret fin løsning at kombinere en sprogmodel med websøgning og kildehenvisninger, og jeg tror og håber på mere udvikling i den retning, men hvis modellen er lavet uden hensyn til de site-ejere som bruger robots.txt til at sige ‘nej tak’, så er det knap så fint.

Findes der gode alternativer?

Aktuelt har jeg opsagt mit abonnement på Perplexity og er gået på jagt for at se, om nogle af de andre værktøjer kan udfylde samme rolle.

Desværre lader det ikke umiddelbart til at være tilfældet. I min højst uvidenskabelige – og indrømmet ganske kortvarige foreløbige udforskning – har jeg ganske vist fundet ret stor variation i kvaliteten af svar og sprog i de forskellige chatbots, men ingen der på samme måde som Perplexity inddrager aktuelle netsøgninger og fremhæver henvisninger til kilder af generelt høj kvalitet.

Min “undersøgelse” bestod helt enkelt i at stille samme spørgsmål til fem forskellige samtalerobotter og sammenligne deres svar.

Spørgsmålet lød: “Hej chatbot X, kan du hjælpe mig med at forklare, hvor store sprogmodeller får deres træningsdata fra, og hvordan de bliver brugt?”

Og her er mine opsummerede resultater:

ChatGPT svarer egentlig okay, i en fin punktopstilling som i forståeligt dansk gennemgår træningsprocessen og hvor de mange træningsdata kommer fra. Og nederst står der som altid, at “ChatGPT can make mistakes. Check important info.”
Microsoft Copilot har ikke et imponerende greb om dansk, men svarer ellers beredvilligt og nogenlunde præcist. Copilot tilføjer så også henvisninger til websøgninger, men det er nogle virkelig sære websites, chatbotten har kigget på – afgjort ikke hvad jeg ville kalde troværdige kilder, uanset hvor meget jeg så kan supplere chatbottens svar med at tjekke de eksterne sider…
Googles Gemini ligger på cirka samme niveau som Copilot, men har dog lidt bedre greb om dansk. Gemini supplerer ikke i første omgang sit svar med kilder, men man kan klikke Google-logoet nederst for at “tjekke responsen” – og får så i et faktisk udmærket UI markeret udvalgte udsagn i svaret med “klik og læs videre”-henvisninger. Kvaliteten af de udvalgte webside-henvisninger er dog umiddelbart fra samme tvivlsomme skuffe som hos Copilot.
Claude fra firmaet Anthropic har generelt et godt ry, og botten skriver både velformuleret, koncist og forståeligt, men har desværre ingen henvisninger til steder at tjekke fakta og læse videre. Til gengæld tilføjer Claude åbent, at “det er vigtigt at bemærke at jeg ikke har adgang til en aktiv database eller kan søge på internettet. Min viden er baseret på det data, jeg blev trænet på, som har en slutdato som aktuelt er april 2024.”
Endelig var der så svaret fra Perplexity, der stadig løber med førstepræmien for kvaliteten af responsen, for præsentationen af supplerende information og faktabokse, og altså som nævnt for henvisninger til et solidt udvalg af websites af en noget anden kaliber end dem jeg fandt via Gemini og Copilot.

Hvad nu?

Jeg har ingen klare konklusioner af den lille test, men jeg tager foreløbig en måneds test med Claude, dels på grund af de klare og brugbare svar, dels fordi skaberne i Anthropic faktisk umiddelbart lader til at gøre det så godt de kan når det gælder åbenhed, aftaler og brugen af data (selvom de selvfølgelig ligesom alle de andre jo opererer i en stor gråzone).

Og så følger jeg også løbende med i historien om Perplexity, og håber at folkene bag kommer med en plausibel forklaring på deres tvivlsomme opførsel, en stor undskyldning – og selvfølgelig ikke mindst en løsning…

PS. Jeg ville egentlig også gerne have tjekket franske Mistral, men den var i skrivende stund i lukket beta, så vidt jeg kunne se.

PPS. Det hører også med til historien, at jeg aktuelt kun har haft mulighed for at se på Claude og Perplexity på Pro-niveau, mens ChatGPT, Gemini og Copilot er testet i gratisversioner. Måske det gør en forskel.

More research needed, som man siger…