Sveriges mest populära poddar

Verbos: AI og Softwareudvikling

#43 - Dan Saattrup Nielsen: ScandEval og Evaluering af Sprogmodeller

1 tim 18 min•14 februari 2024

Hvilke teknikker findes der til at teste sprogmodellers evne til at forstå sprog? Er de åbne engelske og multilingvale modeller gode på de skandinaviske sprog? Eller bør vi yde en indsats i de nordiske lande for at få sprogmodellerne up to speed med at forstå f.eks. dansk? Dan Saattrup Nielsen har udviklet ScandEval, et framework til evaluering af nordiske sprogmodeller. Han ved virkelig meget om evaluering af sprogmodeller, og i dette afsnit af Verbos fortæller han netop om dette!

ScandEval GitHub: https://github.com/ScandEval/ScandEval

ScandEval NLG Leaderboard: https://scandeval.com/mainland-scandinavian-nlg/

ScandEval NLU Leaderboard: https://scandeval.com/mainland-scandinavian-nlu/

Fler avsnitt av Verbos: AI og Softwareudvikling

#114 - Den Nye Flaskehals i Softwareudvikling, AI i Regeringsgrundlaget og GLM 5.2 på niveau med Opus 4.8

22 juni•1 tim 4 min

#113 - Loop Engineering: Det nye AI-hype begreb forklaret m. Poul Kjeldager

19 juni•57 min

#112 - Open-source Bogføring, SaaSpocalypse og Agent-first Software

9 juni•57 min

#111 - Agent Skills: Det mest undervurderede håndværk i AI lige nu m. Markus Wüstenberg

29 maj•1 tim 2 min

#110 - Byg en Second Brain med AI-agenter: Karpathy's LLM Wiki i praksis m. Andreas Vig Astrup

16 maj•54 min

#109 - ElevenLabs, SDK'er, skills og talende kodeagenter m. Kræn Hansen

10 maj•1 tim 2 min

#108 - Harness Engineering Deep Dive: Sæt din kodning på autopilot

30 apr.•1 tim 3 min

#107 - De 8 Mest Hypede AI Coding Udtryk Forklaret

17 apr.•1 tim 6 min

#106 - Agentic Engineering og Jumbo CLI med Joshua Wheelock

26 mars•1 tim 29 min

#105 - AI-Medarbejdere, CLI Skills og Vibe Coding med Mikkel Freltoft Krogsholm

12 mars•1 tim 3 min

Verbos: AI og Softwareudvikling med Kasper Junge og Jonas Høgh Kyhse-Andersen finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.