AI 智能体:工程高于智能
SWE-bench 评分在短短 14 个月内提升了 50%——从 2024 年 10 月 Claude 3.5 Sonnet 的 49% 跃升至 2026 年 1 月 Claude 4.5 Opus 的 74.4%——你可能会认为 AI 智能体(AI Agents)已经征服了软件工程领域。然而,大规模部署这些智能体的企业却讲述着不同的故事。Triple Whale 的 CEO 描述了他们的生产环境实践:"GPT-5.2 为我们解锁了一次彻底的架构转型。我们将一个脆弱的多智能体系统简化为单个配备 20 多种工具的超级智能体……这个超级智能体更快、更智能, 维护难度降低了 100 倍 。"
