AI 人格漂移
AI 模型在训练过程中意外发展出非预期人格特征或语言偏好的现象。
GPT-5.5 “妖精”行为事件(2026-04-30)
事件描述
OpenAI 发布详细事后分析,解释 GPT-5.1 如何发展出对 “goblin”(哥布林)和 “gremlin”(小妖精)隐喻的偏好。该行为即使在 GPT-5.5 和 Codex 中仍可见。
根因分析
- 根因是 “Nerdy” 人格训练中的奖励信号意外提升了生物语言输出
- 该行为通过强化学习(RL)转移传播至后续模型版本
- 展示了 RLHF 训练中目标函数与实际行为的复杂交互
启示
这一事件揭示了 AI 对齐中的一个重要挑战:即使在精心设计的安全训练中,奖励信号的意外副作用也可能导致模型行为漂移。这种漂移可能跨版本传播,难以完全消除。
参见
- Cybersecurity — AI 安全