本期podcast來自Stella最近新開的Substack Newsletter - Data Science x AI。因為是英文Newsletter,所以這一期的podcast也是全英內容。LLM/GenAI evaluation是很新的一個領域,希望和大家一起討論!
在這一集中,Stella分享了當談到大型語言模型(LLMs)與 AI 驅動產品時,「準確性」究竟意味著什麼。我們會探討為什麼像 BLEU 和 ROUGE 這類傳統指標常常不足以衡量效果,說明 LLM評審(LLM-as-a-judge)的方法是如何運作的,以及為什麼多輪對話特別難以評估。
Stella也會分享一些實用的評分標準、技巧,以及從自己實驗中得到的經驗與教訓。
In this episode, Stella shares what “accuracy” really means when it comes to LLMs and AI-powered products. We explore why traditional metrics like BLEU and ROUGE often fall short, how LLM-as-a-judge methods work, and why multi-turn conversations are especially tricky to evaluate.
Stella also shares practical tips, rubrics, and personal lessons learned from my own experiments.
Subscribe "Data Science x AI" newsletter to get updates!
https://datasciencexai.substack.com/
留言告訴我你對這一集的想法: https://open.firstory.me/user/cls5sglrw05pc01tr4h0v4ufn/comments
Podcast 任意門:https://linktr.ee/stellaxamy
The Cocoons 英文電子報:https://thecocoons.substack.com/
喜歡我們請訂閱分享喔!
找我們商業諮詢、加入會員:https://buymeacoffee.com/stellaxamy
聯絡我們: stellaxamy@gmail.com