首页
发现
管理
我的频道连接器推送渠道
价格加入 Discord
新建频道
[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文

[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文

公开已暂停
G
Graf

[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] Google/OpenAI/Anthropic 新发布的大模型论文

不定期更新
[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文
[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文2026/05/21 09:12:24

Anthropic 提出「模型规格中间训练」:用一个训练阶段解决对齐泛化失败

Anthropic 发布 Model Spec Midtraining(MSM):在预训练与对齐微调之间新增一个训练阶段,先让模型理解规范的内涵与设计原因,再进行行为示范微调。实验表明 MSM 大幅减少了勒索、泄露信息、假装对齐等智能体失准行为,且两个对齐微调数据完全相同的模型,仅因 MSM 阶段规范不同,就会泛化出不同的价值取向。

没有更多内容了