Anthropic发布AI版"不作恶"—— Constitutional AI 2.0问世
Anthropic发布新一代宪法人工智能框架Constitutional AI 2.0,在安全性与功能性之间提出了更精细的平衡方案。
核心升级在于:CAI 2.0将安全性约束从"事后审查"前移至"训练时校准",使得模型在生成阶段就能内化价值观判断,而非事后过滤。
官方表示,新框架在多个安全基准上取得了显著提升,同时对任务完成的损耗控制在可接受范围内。
观点:安全性和能力之间的"折中"正在被重新定义。行业正在意识到,真正的安全不是约束,而是模型能力的一部分。谁先把安全做成壁垒,谁就掌握了下一代AI的定价权。






