4 篇博文含有标签「智能代理」

AI智能代理和自主系统

AI 的最后一公里，不是智能，是基础设施

2026年4月21日 · 阅读需 20 分钟

软件工程师 & 开源爱好者

2026 年的每一场 AI 发布会都是同样三张幻灯片开场：更大的模型、更快的芯片、更聪明的 Agent。真正缺失的是第四张——这些东西到底怎么送到用户面前。而这张缺失的幻灯片，恰好就是接下来十年价值最集中的地方。它不会靠又一轮模型微调产生，而会靠我们这个技术栈里最不性感的那一层：基础设施（Infrastructure，俗称 Infra）。

数据也支持这个判断。麻省理工学院（MIT）2025 年《State of AI in Business》报告显示，95% 的生成式 AI 试点无法进入生产。Gartner 的调研表明，只有 15% 的 IT 应用负责人在试点完全自主的 Agent，而整个 Agent 市场预计从 2025 年的 78 亿美元扩张到 2030 年的 526 亿美元。瓶颈不在智能。前沿模型在 SWE-bench Verified 上已经聚集在 70–75% 区间。真正的瓶颈是从"一个能写代码的模型"到"一个能交付产品的组织"之间的所有环节——而这些环节，说到底都是 Infra。

把"暴论"说得直白一点：编程变得廉价，Infra 却在变得稀缺。AI 叙事习惯把 DevOps、CI/CD、容器、Kubernetes、云架构这些东西当作"已经解决的水管问题"，但它们即将成为把 AI 能力变成可交付产品的头号杠杆。理由很朴素：Agent 现在能写代码，但它自己跑不起一次构建，也扛不下一次部署，更没法独自决定一次回滚、开通一个区域。它需要一个底座替它做这些事——而这个底座，正是过去二十年 DevOps 攒下来的、经过无数次故障检验的、几乎零成本的遗产。

绘制 2026 AI Agent 全景图：从协议到预测

2026年3月23日 · 阅读需 17 分钟

马老师 Marvin

软件工程师 & 开源爱好者

六大协议。六个自动化级别。十七款工具。十二项预测。一张交互式全景图将它们串联起来。

AI Agent 交互全景图是我构建的一个开源双语单页应用，旨在厘清 2026 年 AI Agent 如何与开发者、编辑器、工具以及彼此之间进行交互。本文将梳理其中引入的关键框架——以及构建过程中涌现的洞察。

AI 智能体：工程高于智能

2026年1月24日 · 阅读需 24 分钟

马老师 Marvin

软件工程师 & 开源爱好者

SWE-bench 评分在短短 14 个月内提升了 50%——从 2024 年 10 月 Claude 3.5 Sonnet 的 49% 跃升至 2026 年 1 月 Claude 4.5 Opus 的 74.4%——你可能会认为 AI 智能体（AI Agents）已经征服了软件工程领域。然而，大规模部署这些智能体的企业却讲述着不同的故事。Triple Whale 的 CEO 描述了他们的生产环境实践："GPT-5.2 为我们解锁了一次彻底的架构转型。我们将一个脆弱的多智能体系统简化为单个配备 20 多种工具的超级智能体……这个超级智能体更快、更智能， 维护难度降低了 100 倍 。"

从聊天机器人到智能代理：构建企业级LLM应用

2025年9月24日 · 阅读需 23 分钟

马老师 Marvin

软件工程师 & 开源爱好者

想象一个再熟悉不过的场景：周一上午，你又坐在会议室里复盘，为什么公司的 LLM 应用始终冲不出展示环境。团队已经搭了一个看起来很“聪明”的、由 GPT-4o 驱动的智能代理：能理解复杂客户咨询、通过函数调用串起内部系统，甚至还能看似自主地编排多步骤流程。那时领导层一度热情高涨，预算批得很快，Roadmap 也写得漂亮。可六个月过去，项目仍困在资深从业者口中的 demo hell（“演示炼狱”）——永远在演示，始终不上真正可承压的生产。

如果你瞬间代入，这不是偶然共鸣——而是当今企业的常态。如果这个场景听起来很熟悉，你并不孤单。无论组织是使用托管API（如GPT-4o、Claude Sonnet 4和Gemini 2.5 Pro）构建，还是部署自托管模型（如DeepSeek-R1、QwQ、Gemma 3和Phi 4），绝大多数都难以超越实验性试点项目。正如我在AI生产力研究分析中探讨的，AI的生产力效益高度依赖于具体情境，结构化方法显著优于临时性使用。瓶颈不在于你的LLM集成的复杂性、托管与自托管模型的选择，或者你的AI开发团队的才能。而在于更根本的东西：LLM应用底层的数据基础。

真正卡住企业级 LLM 应用的，不是“模型选哪个”，而是：能不能在对的时间，把对的数据，以可追溯、可度量、可治理的方式送到模型面前。 你的“智能”代理，其上限只等于你数据基础设施的下限。

如果你尝试把一个惊艳的演示推向生产，结果被碎片化系统、不一致 API、缺失血缘、检索漂移、缓存陈旧这些细碎又顽固的阻力磨掉耐心——这篇文章就是写给你的。我们的基本立场很直接：企业级 LLM 应用的成功，不取决于提示技巧或代理框架炫不炫，而取决于是否有一套为“程序化智能消费”而设计的数据底座。

接下来我们会按层拆开：数据可访问性如何悄悄钳制模型表现；哪些数据与上下文管理模式让工具调用真正可靠；面向 LLM 特有风险的治理如何设计；以及如何把这些理念落成可以扩展、可演进的生产体系。

答案从来不是“多写几个高阶提示”或者“再换个更大模型”——而是重建数据基础。下面先从问题底层结构讲起。