Byg Selv eller GPT-4?
En komparativ evaluering af GPT-4 Turbo og Analyse & Tal og TrygFondens A&ttack-modeller på fem parametre
Med rapporten Byg-Selv eller GPT-4? bidrager vi med konkret viden om fordele og ulemper ved at anvende forskellige AI-baserede teknologier til tekstbehandling, og foreslår et metodisk framework for evaluering af AI modellers output.
Undersøgelsen kommer med svar på, om det kan svare sig at investere i specialbyggede superviserede algoritmer som A&ttack, eller om de burde pensioneres hvis vi sammenligner den promptbaseret schweizerkniv GPT-4.
Undersøgelsen er en komparativ evaluering af vores egne superviserede klassifikationsmodeller A&ttack 1 og A&ttack 2.5 og den mest omtalte kommercielle AI på markedet GPT-4. Use casen er identifikation af sproglige angreb i den offentlige debat på Facebook.
Modellerne evalueres komparativt på fem parametre:
1. Performance – Hvor korrekt er modellernes resultater til sammenligning med menneskelige vurderinger?
2. Fairness – Er der skævheder i modellernes resultater?
3. Stabilitet – Hvor pålidelige er resultaterne over tid?
4. Pris – Hvad koster det at anvende teknologierne?
5. Strømforbrug – Hvor stort strømforbrug har modellerne?
Derudover tester og evaluerer vi GPT-4's annotørpotentiale:
6. Annotørpotentiale – Hvad er GPT-4’s mulighed for at erstatte eller supplere menneskelige annotatører i processen med at generere træningsdata?
Baseret på evalueringen konkluderer vi, at det for nuværende ikke vil være hensigtsmæssigt at anvende GPT-4 som klassificeringsværktøj til kortlægning af angreb i den offentlige debat på Facebook i en dansk kontekst.
A&ttack 2.5 slår GPT-4 på målstregen på standardparametret performance. Dog er GPT-4's output markant mindre fair baseret på den gennemsnitlige parvise forskel i klassificeringen for 19 beskyttede grupper. GPT-4 har også udfordringer med stabiliteten, og selv over en kort periode på tre dage, ændrer modellen sine klassifikationer af 10% af vores testdatasæt. Samtidig vil det være tre gange dyrere at klassificere debatten med GPT-4 end at gentræne A&ttack-modellen, og CO2-udledningen ved at anvende GPT-4 til at klassificere angreb i den offentlige debat vil være 150 gange større end med A&ttack 2.5. Vi vil ikke udelukke at anvende GPT-4 til at annotere træningsdata, men strategien vil kræve yderligere tests, som for nuværende går imod OpenAI’s brugsvilkår.
TrygFonden og Analyse & Tal står bag undersøgelsen, som er en metodisk tillægsundersøgelse til vores analyse af angreb og had i den offentlige debat på Facebook.
Udgivelsesdato
1. december 2024