Anthropic 开源了自动化行为评估工具 Bloom

开源早报 2025 年12 月 23 日 12:36 1

核心内容：

自动生成针对特定行为的评估套件，快速量化前沿AI模型中特定行为的频率和严重程度
4阶段自动化评估流程：理解行为描述、构思场景、执行交互、判断评分
发布了4种对齐相关行为（妄想性迎合、长期破坏、自我保护、自我偏好偏见）在16个模型上的基准测试
与Weights & Biases集成，支持大规模实验，导出Inspect兼容的记录 - 高度可配置：可选择各阶段使用的模型、调整交互长度和模态、控制场景多样性
提供动态场景生成，每次运行产生不同场景但测量相同行为，避免评估集污染，仅需数天即可完成评估
Claude Opus 4.1作为评判器与人类判断的相关性达0.86，在10个行为特征中成功区分9个模型变体

关键词： Bloom, AI行为自动评估, 4阶段评估流程, 16模型基准测试, Petri互补工具

资料：

1 个赞