核心内容:
- 自动生成针对特定行为的评估套件,快速量化前沿AI模型中特定行为的频率和严重程度
- 4阶段自动化评估流程:理解行为描述、构思场景、执行交互、判断评分
- 发布了4种对齐相关行为(妄想性迎合、长期破坏、自我保护、自我偏好偏见)在16个模型上的基准测试
- 与Weights & Biases集成,支持大规模实验,导出Inspect兼容的记录 - 高度可配置:可选择各阶段使用的模型、调整交互长度和模态、控制场景多样性
- 提供动态场景生成,每次运行产生不同场景但测量相同行为,避免评估集污染,仅需数天即可完成评估
- Claude Opus 4.1作为评判器与人类判断的相关性达0.86,在10个行为特征中成功区分9个模型变体
关键词: Bloom, AI行为自动评估, 4阶段评估流程, 16模型基准测试, Petri互补工具
资料:
