这项研究介绍了一种名为随机邻居得分(RNS)的新型评估框架,旨在量化蛋白质语言模型(pLM)生成嵌入表示时的不确定性。作者发现,当模型无法有效学习特定的蛋白质序列时,其生成的向量表示会与随机生成的非生物序列高度重叠,形成所谓的“嵌入垃圾场”。通过计算一个序列在潜空间邻居中合成随机序列所占的比例,该方法能够有效地在进行下游任务预测(如结构或功能预测)之前预筛低质量数据。实验证明,高不确定性得分与预测准确度的显著下降密切相关,这揭示了现有模型在处理人类蛋白质组及代谢组学数据时存在的固有偏见。这种独立于模型架构的评分工具为提升生物信息学推理的可靠性提供了标准化的质量控制手段。
References:
* Prabakaran R, Bromberg Y. Quantifying uncertainty in protein representations across models and ta...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
References:
* Prabakaran R, Bromberg Y. Quantifying uncertainty in protein representations across models and ta...去小宇宙查看完整单集简介
前往小宇宙评论区与主播互动
Fler avsnitt av 聊聊Sci
Visa alla avsnitt av 聊聊Sci聊聊Sci med 淼淼Elva finns tillgänglig på flera plattformar. Informationen på denna sida kommer från offentliga podd-flöden.
