Som jeg har sagt mange gange har jeg et ret ambivalent forhold til den aktuelle bølge af generativ AI.
På den ene side synes jeg faktisk at der er masser af god værdi i at bruge værktøjerne i hverdagen – hvis man ellers gør sig den anstrengelse at udnytte deres stærke sider, og fx ikke bare accepterer alt hvad ChatGPT siger som fakta.
På den anden side, så er de store sprogmodeller – og ikke mindst virksomhederne bag – mildest talt plaget af udfordringer, fra strømslugende servere over hallucinationer til brug af private data.
Mit ærinde i denne blogpost er afgjort ikke at forsøge at afklare ambivalensen, eller for den sags skyld overhovedet tage hul på den store diskussion, som jeg heller ikke tænker vi kan blive færdige med sådan lige med det samme.
I stedet vil jeg dele en aktuel hverdagsfrustration som relativt almindelig AI-bruger, og også pege på nogle af de foreløbige resultater af en højst uvidenskabelig lille test af forskellige AI-værktøjer fra techfirmaerne derude.
Nu vil jeg absolut ikke kalde mig selv superbruger, endsige ekspert i brugen af GenAI, men jeg har dog udforsket både forskellige anvendelser og forskellige samtale-robotter det sidste halvandet års tid, og prøvet at bruge dem i hverdagen, først og fremmest i arbejdssammenhæng.
Og de seneste måneder har jeg været virkelig glad for Perplexity AI, der har hjulpet mig med både brainstorming, research på alt fra rumturisme til musik-jura, og med at tænke lidt udenfor kassen når det handler om at stille gode spørgsmål i mine mange podcast-interviews, hvor man jo efterhånden godt kan komme til at køre lidt på rutinen…
Perplexity har for mig haft to store fordele:
For det første kan man i Pro-versionen (der koster de sædvanlige $20 om måneden) skifte mellem en lille håndfuld forskellige LLM’er – ChatGPT, Claude, Llama og Perplexitys egen hjemmestrikkede model – og nemt sammenligne resultaterne.
For det andet svarer Perplexity ikke “bare” udfra sine egne træningsdata og sin egen “viden”, men søger også på nettet og inkorporerer resultaterne i sit svar, med kildehenvisninger til websider hvor det er relevant.
Det gør det relativt meget nemmere at faktatjekke svarene, og at begive sig videre ud på det store interweb for at dykke dybere i et emne, hvis man ikke bare vil fortsætte med at stille spørgsmål til Perplexity.
Det sidste har også givet mig et lille figenblad i diskussionen om hvorvidt “AI-søgemaskiner” stjæler al trafikken fra websites, præcis fordi jeg faktisk som regel følger Perplexitys henvisninger ud til sites og artikler, som jeg næppe ellers havde kendt, endsige besøgt.
Imidlertid har Perplexity i den forgangne uges tid fået ørerne i maskinen, efter afsløringer fra Robb Knight og Wired, der har påvist det man nok kan kalde tvivlsom forretningsskik hos firmaet – udover at de naturligvis gør sig skyldige i den sædvanlige overgearede hype-snak…
Jeg vil anbefale at man læser artiklerne hvis man er mere nysgerrig, men den korte version er, at Perplexity blandt andet ikke respekterer instruktionerne i den lille tekstfil, som hedder robots.txt, og som mange websites bruger til at fortælle såkaldte webcrawlers at de ikke giver crawlerne lov til at samle data fra det pågældende website.
A WIRED analysis (…) suggest that Perplexity is able to achieve [it’s results] partly through apparently ignoring a widely accepted web standard known as the Robots Exclusion Protocol to surreptitiously scrape areas of websites that operators do not want accessed by bots, despite claiming that it won’t.
(Det er i øvrigt selvsamme tekst-fil, som Apple også siger at man kan tilpasse, så Apples AI-bot ikke skraber data fra ens site til den kommende såkaldte Apple Intelligence – men altså efter at Apple allerede har høstet kolossale mængder “åbne” data fra nettet til træningen af deres LLM…)
Derudover mener man, at Perplexity også oversælger deres svar og resultater, der – siger Wired og Robb Knight – er ligeså fulde af hallucinationer og fejl som alle de andre, og at folkene i firmaet i øvrigt lyver om hvor meget indhold Perplexity skraber og plagierer fra sites i hele verden.
Den slags er naturligvis ærgerligt at høre for en ellers ret glad Perplexity-bruger. For jeg har som nævnt været rigtig tilfreds med de tekster og svar jeg har fået fra maskinen
Ikke mindst har jeg faktisk oplevet, at kildehenvisningerne som vises prominent i Perplexitys resultater har givet stor værdi i min videre research og i mine faktatjek.
Og jeg har klappet mig selv en lille smule på skulderen over netop at følge svarene videre ud på de originale sider, i stedet for bare at acceptere fx ChatGPTs kildefri opsummeringer/plagiater/tyverier fra webindhold.
Men efter at have læst de nævnte artikler føles selvfedheden jo lidt flad.
Jeg synes stadig det er en ret fin løsning at kombinere en sprogmodel med websøgning og kildehenvisninger, og jeg tror og håber på mere udvikling i den retning, men hvis modellen er lavet uden hensyn til de site-ejere som bruger robots.txt til at sige ‘nej tak’, så er det knap så fint.
Aktuelt har jeg opsagt mit abonnement på Perplexity og er gået på jagt for at se, om nogle af de andre værktøjer kan udfylde samme rolle.
Desværre lader det ikke umiddelbart til at være tilfældet. I min højst uvidenskabelige – og indrømmet ganske kortvarige foreløbige udforskning – har jeg ganske vist fundet ret stor variation i kvaliteten af svar og sprog i de forskellige chatbots, men ingen der på samme måde som Perplexity inddrager aktuelle netsøgninger og fremhæver henvisninger til kilder af generelt høj kvalitet.
Min “undersøgelse” bestod helt enkelt i at stille samme spørgsmål til fem forskellige samtalerobotter og sammenligne deres svar.
Spørgsmålet lød: “Hej chatbot X, kan du hjælpe mig med at forklare, hvor store sprogmodeller får deres træningsdata fra, og hvordan de bliver brugt?”
Og her er mine opsummerede resultater:
Jeg har ingen klare konklusioner af den lille test, men jeg tager foreløbig en måneds test med Claude, dels på grund af de klare og brugbare svar, dels fordi skaberne i Anthropic faktisk umiddelbart lader til at gøre det så godt de kan når det gælder åbenhed, aftaler og brugen af data (selvom de selvfølgelig ligesom alle de andre jo opererer i en stor gråzone).
Og så følger jeg også løbende med i historien om Perplexity, og håber at folkene bag kommer med en plausibel forklaring på deres tvivlsomme opførsel, en stor undskyldning – og selvfølgelig ikke mindst en løsning…
PS. Jeg ville egentlig også gerne have tjekket franske Mistral, men den var i skrivende stund i lukket beta, så vidt jeg kunne se.
PPS. Det hører også med til historien, at jeg aktuelt kun har haft mulighed for at se på Claude og Perplexity på Pro-niveau, mens ChatGPT, Gemini og Copilot er testet i gratisversioner. Måske det gør en forskel.
More research needed, som man siger…