Next-token prediction trains a language model on all tokens in a sequence. VP Weizhu Chen discusses his team’s 2024 NeurIPS paper on how distinguishing between useful and “noisy” tokens in pretraining can improve token efficiency and model performance.
Fler avsnitt av Microsoft Research Podcast
Visa alla avsnitt av Microsoft Research PodcastMicrosoft Research Podcast med Researchers across the Microsoft research community finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
