跳到主要内容

4 篇博文 含有标签「智能代理」

AI智能代理和自主系统

查看所有标签

AI 的最后一公里,不是智能,是基础设施

· 阅读需 20 分钟
马老师 Marvin
软件工程师 & 开源爱好者

2026 年的每一场 AI 发布会都是同样三张幻灯片开场:更大的模型、更快的芯片、更聪明的 Agent。真正缺失的是第四张——这些东西到底怎么送到用户面前。而这张缺失的幻灯片,恰好就是接下来十年价值最集中的地方。它不会靠又一轮模型微调产生,而会靠我们这个技术栈里最不性感的那一层:基础设施(Infrastructure,俗称 Infra)

数据也支持这个判断。麻省理工学院(MIT)2025 年《State of AI in Business》报告显示,95% 的生成式 AI 试点无法进入生产Gartner 的调研表明,只有 15% 的 IT 应用负责人在试点完全自主的 Agent,而整个 Agent 市场预计从 2025 年的 78 亿美元扩张到 2030 年的 526 亿美元。瓶颈不在智能。前沿模型 在 SWE-bench Verified 上已经聚集在 70–75% 区间。真正的瓶颈是从"一个能写代码的模型"到"一个能交付产品的组织"之间的所有环节——而这些环节,说到底都是 Infra。

把"暴论"说得直白一点:编程变得廉价,Infra 却在变得稀缺。AI 叙事习惯把 DevOps、CI/CD、容器、Kubernetes、云架构这些东西当作"已经解决的水管问题",但它们即将成为把 AI 能力变成可交付产品的头号杠杆。理由很朴素:Agent 现在能写代码,但它自己跑不起一次构建,也扛不下一次部署,更没法独自决定一次回滚、开通一个区域。它需要一个底座替它做这些事——而这个底座,正是过去二十年 DevOps 攒下来的、经过无数次故障检验的、几乎零成本的遗产。

绘制 2026 AI Agent 全景图:从协议到预测

· 阅读需 17 分钟
马老师 Marvin
软件工程师 & 开源爱好者

六大协议。六个自动化级别。十七款工具。十二项预测。一张交互式全景图将它们串联起来。

AI Agent 交互全景图是我构建的一个开源双语单页应用,旨在厘清 2026 年 AI Agent 如何与开发者、编辑器、工具以及彼此之间进行交互。本文将梳理其中引入的关键框架——以及构建过程中涌现的洞察。

AI 智能体:工程高于智能

· 阅读需 24 分钟
马老师 Marvin
软件工程师 & 开源爱好者

SWE-bench 评分在短短 14 个月内提升了 50%——从 2024 年 10 月 Claude 3.5 Sonnet 的 49% 跃升至 2026 年 1 月 Claude 4.5 Opus 的 74.4%——你可能会认为 AI 智能体(AI Agents)已经征服了软件工程领域。然而,大规模部署这些智能体的企业却讲述着不同的故事。Triple Whale 的 CEO 描述了他们的生产环境实践:"GPT-5.2 为我们解锁了一次彻底的架构转型。我们将一个脆弱的多智能体系统简化为单个配备 20 多种工具的超级智能体……这个超级智能体更快、更智能, 维护难度降低了 100 倍 。"

从聊天机器人到智能代理:构建企业级LLM应用

· 阅读需 23 分钟
马老师 Marvin
软件工程师 & 开源爱好者

想象一个再熟悉不过的场景:周一上午,你又坐在会议室里复盘,为什么公司的 LLM 应用始终冲不出展示环境。团队已经搭了一个看起来很“聪明”的、由 GPT-4o 驱动的智能代理:能理解复杂客户咨询、通过函数调用串起内部系统,甚至还能看似自主地编排多步骤流程。那时领导层一度热情高涨,预算批得很快,Roadmap 也写得漂亮。可六个月过去,项目仍困在资深从业者口中的 demo hell(“演示炼狱”)——永远在演示,始终不上真正可承压的生产。

如果你瞬间代入,这不是偶然共鸣——而是当今企业的常态。如果这个场景听起来很熟悉,你并不孤单。无论组织是使用托管API(如GPT-4o、Claude Sonnet 4和Gemini 2.5 Pro)构建,还是部署自托管模型(如DeepSeek-R1、QwQ、Gemma 3和Phi 4),绝大多数都难以超越实验性试点项目。正如我在AI生产力研究分析中探讨的,AI的生产力效益高度依赖于具体情境,结构化方法显著优于临时性使用。瓶颈不在于你的LLM集成的复杂性、托管与自托管模型的选择,或者你的AI开发团队的才能。而在于更根本的东西:LLM应用底层的数据基础。

真正卡住企业级 LLM 应用的,不是“模型选哪个”,而是:能不能在对的时间,把对的数据,以可追溯、可度量、可治理的方式送到模型面前。 你的“智能”代理,其上限只等于你数据基础设施的下限。

如果你尝试把一个惊艳的演示推向生产,结果被碎片化系统、不一致 API、缺失血缘、检索漂移、缓存陈旧这些细碎又顽固的阻力磨掉耐心——这篇文章就是写给你的。我们的基本立场很直接:企业级 LLM 应用的成功,不取决于提示技巧或代理框架炫不炫,而取决于是否有一套为“程序化智能消费”而设计的数据底座。

接下来我们会按层拆开:数据可访问性如何悄悄钳制模型表现;哪些数据与上下文管理模式让工具调用真正可靠;面向 LLM 特有风险的治理如何设计;以及如何把这些理念落成可以扩展、可演进的生产体系。

答案从来不是“多写几个高阶提示”或者“再换个更大模型”——而是重建数据基础。下面先从问题底层结构讲起。