Sveriges mest populära poddar

Data Brew by Databricks

Utbildning Teknologi

Reward Models | Data Brew | Episode 40

40 min•20 mars 2025

In this episode, Brandon Cui, Research Scientist at MosaicML and Databricks, dives into cutting-edge advancements in AI model optimization, focusing on Reward Models and Reinforcement Learning from Human Feedback (RLHF).

Highlights include:
- How synthetic data and RLHF enable fine-tuning models to generate preferred outcomes.
- Techniques like Policy Proximal Optimization (PPO) and Direct Preference
Optimization (DPO) for enhancing response quality.
- The role of reward models in improving coding, math, reasoning, and other NLP tasks.

Connect with Brandon Cui:
https://www.linkedin.com/in/bcui19/

Fler avsnitt av Data Brew by Databricks

Reinforcement Fine-Tuning and the Future of Specialized AI Models

5 aug. 2025•40 min

Benchmarking Domain Intelligence | Data Brew | Episode 45

24 apr. 2025•32 min

SWE-bench & SWE-agent | Data Brew | Episode 44

17 apr. 2025•36 min

Enterprise AI: Research to Product | Data Brew | Episode 43

10 apr. 2025•38 min

Multimodal AI | Data Brew | Episode 42

7 apr. 2025•42 min

Age of Agents | Data Brew | Episode 41

27 mars 2025•41 min

Retrieval, rerankers, and RAG tips and tricks | Data Brew | Episode 39

20 feb. 2025•45 min

The Power of Synthetic Data | Data Brew | Episode 38

4 feb. 2025•42 min

Secret to Production AI: Tools & Infrastructure | Data Brew | Episode 37

22 jan. 2025•37 min

Mixture of Memory Experts (MoME) | Data Brew | Episode 36

10 jan. 2025•41 min

Data Brew by Databricks med Databricks finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.