跳到主要内容

控制论与 AI 智能体:那门被遗忘的旧语言

· 阅读需 26 分钟
马老师 Marvin
软件工程师 & 开源爱好者

一个八人的工程师团队,把 AI 编程智能体(AI Coding Agents)接进了自己的开发流水线。智能体从队列顶端取走 JIRA 工单,提交合并请求的速度超过人工评审的速度。半年下来,仪表盘上的数字相当好看:测试覆盖率 84%,每个改动接口的 p99 延迟稳定在 100 毫秒以内,自从智能体上线后合并吞吐量翻了三倍。周五的复盘会越开越短,因为实在没什么可复盘的。

直到有一天,竞争对手发布了一个新功能。算不上多巧妙的功能。竞争对手的用户已经在公开论坛上催了半年,团队自家用户在自家论坛上催了几乎一样长的时间。流水线里,没有一个人——也没有一个智能体——注意到这件事。竞争对手上线的消息周二午后落进 Slack 群,会议室一下子安静下来,因为所有人都在问同一个问题:我们这套系统里,到底哪一块本来应该接住这件事?

诚实的回答是:没有这一块。不是有人忘了构建它,而是团队的架构语言里,根本没有一个词指向它。

AI 的最后一公里,不是智能,是基础设施

· 阅读需 20 分钟
马老师 Marvin
软件工程师 & 开源爱好者

2026 年的每一场 AI 发布会都是同样三张幻灯片开场:更大的模型、更快的芯片、更聪明的 Agent。真正缺失的是第四张——这些东西到底怎么送到用户面前。而这张缺失的幻灯片,恰好就是接下来十年价值最集中的地方。它不会靠又一轮模型微调产生,而会靠我们这个技术栈里最不性感的那一层:基础设施(Infrastructure,俗称 Infra)

数据也支持这个判断。麻省理工学院(MIT)2025 年《State of AI in Business》报告显示,95% 的生成式 AI 试点无法进入生产Gartner 的调研表明,只有 15% 的 IT 应用负责人在试点完全自主的 Agent,而整个 Agent 市场预计从 2025 年的 78 亿美元扩张到 2030 年的 526 亿美元。瓶颈不在智能。前沿模型 在 SWE-bench Verified 上已经聚集在 70–75% 区间。真正的瓶颈是从"一个能写代码的模型"到"一个能交付产品的组织"之间的所有环节——而这些环节,说到底都是 Infra。

把"暴论"说得直白一点:编程变得廉价,Infra 却在变得稀缺。AI 叙事习惯把 DevOps、CI/CD、容器、Kubernetes、云架构这些东西当作"已经解决的水管问题",但它们即将成为把 AI 能力变成可交付产品的头号杠杆。理由很朴素:Agent 现在能写代码,但它自己跑不起一次构建,也扛不下一次部署,更没法独自决定一次回滚、开通一个区域。它需要一个底座替它做这些事——而这个底座,正是过去二十年 DevOps 攒下来的、经过无数次故障检验的、几乎零成本的遗产。

绘制 2026 AI Agent 全景图:从协议到预测

· 阅读需 17 分钟
马老师 Marvin
软件工程师 & 开源爱好者

六大协议。六个自动化级别。十七款工具。十二项预测。一张交互式全景图将它们串联起来。

AI Agent 交互全景图是我构建的一个开源双语单页应用,旨在厘清 2026 年 AI Agent 如何与开发者、编辑器、工具以及彼此之间进行交互。本文将梳理其中引入的关键框架——以及构建过程中涌现的洞察。

AI 智能体:工程高于智能

· 阅读需 24 分钟
马老师 Marvin
软件工程师 & 开源爱好者

SWE-bench 评分在短短 14 个月内提升了 50%——从 2024 年 10 月 Claude 3.5 Sonnet 的 49% 跃升至 2026 年 1 月 Claude 4.5 Opus 的 74.4%——你可能会认为 AI 智能体(AI Agents)已经征服了软件工程领域。然而,大规模部署这些智能体的企业却讲述着不同的故事。Triple Whale 的 CEO 描述了他们的生产环境实践:"GPT-5.2 为我们解锁了一次彻底的架构转型。我们将一个脆弱的多智能体系统简化为单个配备 20 多种工具的超级智能体……这个超级智能体更快、更智能, 维护难度降低了 100 倍 。"

LeanSpec:一个轻量级的 SDD 框架

· 阅读需 9 分钟
马老师 Marvin
软件工程师 & 开源爱好者

今年年初,我被 Claude Sonnet 3.7 的 AI 编程能力深深震撼。那时 "Vibe Coding" 这个词还没流行起来,但我做的正是这件事——让 AI 生成代码,我只负责引导对话。感觉像魔法一样神奇。直到问题开始浮现。

几周后,我注意到一些规律:代码冗余越来越多,实现方向偏离了最初的设想,AI 在不同会话之间丢失上下文导致返工不断增加。蜜月期结束了。我需要一套结构化的方法,但又不想引入那些拖慢开发速度的重型流程。

2025年规范驱动开发:工业级工具、框架与最佳实践

· 阅读需 24 分钟
马老师 Marvin
软件工程师 & 开源爱好者

引言:AI辅助开发的工业革命

Y Combinator 2025届创业公司中,25%的团队已在交付95%由AI生成的代码库。成功者与陷入技术债务泥潭者的区别在哪?规范(Specifications)。所谓"氛围编码"(vibe coding)——即临时性的、基于提示词的AI开发方式——或许能产出令人印象深刻的演示,却在生产规模上分崩离析。上下文丢失、架构漂移、可维护性噩梦,困扰着那些将AI助手当作增强版搜索引擎的团队。

2025年标志着转折点的到来。曾经的实验性工具已成熟为生产就绪的框架,背后既有开源动力,也有企业重金投入。GitHub的Spec Kit已成为开源SDD采用的事实标准。亚马逊推出Kiro,一个将SDD融入核心的IDE。由Snyk创始人创立的Tessl以5亿美元估值融资1.25亿美元,力推"规范即源码"开发模式。业界信号明确:系统化的规范驱动开发(Specification-Driven Development,SDD)不再可有可无——它正成为AI增强工程的基本要求。

如果你是一位正在评估如何在不牺牲代码质量的前提下利用AI开发的技术负责人,这份综合指南将为你绘制整个SDD生态图景。你将理解6大工具和框架构成的生态系统,学习来自真实生产部署的行业最佳实践,获得基于团队具体情况选择和实施正确方案的可操作框架。

相关阅读

关于理论基础和SDD方法论要点,请参阅规范驱动开发:应对复杂功能的系统化方法。本文聚焦于工业格局和实践落地。

AI 时代的领导力技能:超越传统管理

· 阅读需 15 分钟
马老师 Marvin
软件工程师 & 开源爱好者

第一次,AI 系统对我的架构决策提出了不同意见,结果证明它是对的——那一刻,我意识到某些根本性的东西变了。变的不是 AI 本身,而是"领导力"这个词的含义。这不是关于技术升级的故事,而是关于领导者角色如何进化的故事。那些曾让我成功领导团队的技能并没有失效,但在 AI 参与的环境中,它们需要重新调整。

也许你作为技术领导者,也感受到了这种张力。研究表明,AI 确实能提升生产力,但效果因人而异——它绝非包治百病的灵丹妙药。你懂得那些经典的领导技能:技术深度、业务洞察、人际沟通、组织政治,它们依然重要。但 AI 带来了全新的维度,要求这些技能延展和适应。你的角色不再只是领导团队成员或使用工具,而是要协调一个混合生态——人的判断、管理智慧与 AI 能力,三者需要和谐共生。

代码的物理学:理解计算中的基本限制(第二部分)

· 阅读需 19 分钟
马老师 Marvin
软件工程师 & 开源爱好者

引言:从理论走向实践

本系列的第一部分中,我们打下了计算限制的概念基础:基本限制与工程限制的区别、四层计算层次结构、形式化复杂性测量,以及智力-可计算性悖论。我们探讨了为何一些看似简单的问题(如停机问题)在数学上无解,而看似需要复杂智力的问题(如机器翻译)却是可判定的。

第二部分,我们从抽象理论走向实际应用。 本文探讨这些基本限制如何体现在日常工程决策中,考察历史如何揭示:理解约束反而能释放创新,并将计算限制与关于逻辑、数学和意识的深刻哲学问题联系起来。最后,我们会提供一个实用框架,帮你立即分类问题并做出更好的工程决策。

系列文章

这是两部分系列的第二部分第一部分涵盖限制的本质、计算层次结构、复杂性测量和智力-可计算性悖论。第二部分探讨实际应用、历史教训和哲学基础。

代码的物理学:理解计算中的基本限制(第一部分)

· 阅读需 30 分钟
马老师 Marvin
软件工程师 & 开源爱好者

引言:代码的宇宙速度限制

1905年,阿尔伯特·爱因斯坦(Albert Einstein)证明了一个革命性的结论:没有任何东西能够超越光速。这不是更好的技术可以克服的工程限制,而是时空本身的基本属性,编码在现实的结构中。三十年后的1936年,艾伦·图灵(Alan Turing)为计算证明了一个同样深刻的结果:没有任何算法能够确定一个任意程序是否会停机(称为停机问题(Halting Problem))。与爱因斯坦的光速屏障一样,这不是当前计算机或编程语言的限制。这是一个数学确定性,无论我们的机器变得多么强大,或者我们的算法变得多么聪明,它都将永远为真。

现代软件工程在这些基本限制的阴影下运作,尽管大多数工程师将它们体验为令人沮丧的工具限制,而不是数学确定性。你可能经历过这样的情况:静态分析工具错过了明显的错误,测试框架尽管有100%的覆盖率却无法保证正确性,AI助手生成的代码需要仔细的人工审查。当营销材料承诺"完整的自动化验证"或"有保证的错误检测"时,你可能会感觉有些不对劲——这些声明听起来太好了,不像是真的。

确实如此。你遇到的限制不是等待更好工具的临时工程挑战,而是基本数学不可能性的表现,就像光速或绝对零度一样不可改变。 理解这些限制从约束转变为竞争优势:知道什么是不可能的,可以让你将精力集中在可实现的事情上,就像物理学家利用相对论实现了GPS卫星和粒子物理学,而不是浪费资源试图超越光速。

如果你是一名开发人员,曾经想知道为什么尽管经过数十年的工具开发,某些问题仍然存在,或者如果你是一名技术领导者,正在评估关于革命性测试或验证技术的声明,这篇文章提供了关键的背景。理解计算限制不是失败主义,而是工程成熟的基础。 最好的工程师不会忽视这些边界;他们深入理解这些边界,并在其中出色地工作。

这段旅程探讨了计算限制如何反映物理定律,为什么"困难"问题与"不可能"问题有根本性的不同,以及这些知识如何赋能更好的工程决策。我们将从舒适的物理类比穿越到抽象的计算理论,然后回到你明天就可以应用的实用框架。在这个过程中,你会发现为什么了解游戏规则会让你在游戏中更有效,以及为什么计算历史上的每一次突破性创新都不是通过忽视限制,而是通过深入理解限制而出现的。

系列文章

这是探索计算基本限制的两部分系列的第一部分。第一部分涵盖限制的本质、计算层次结构、复杂性测量和智力-可计算性悖论。第二部分探讨实际工程影响、历史教训和哲学基础。

抱歉,AI救不了测试:莱斯定理告诉你为什么

· 阅读需 23 分钟
马老师 Marvin
软件工程师 & 开源爱好者

引言:完美测试的不可能之梦

"测试只能证明错误的存在,而不能证明错误的不存在。"荷兰计算机科学家艾兹格·迪杰斯特拉(Edsger Dijkstra)在1970年提出这一观点时,他阐明了软件测试的一个基本真理,这个真理至今依然适用。然而尽管有这样的智慧,软件行业仍在追求一个难以实现的目标:能够保证软件正确性的全面自动化测试。

如果你是一名开发者,曾经疑惑为什么达到100%的测试覆盖率仍然无法保证代码无bug,或者为什么精心设计的测试套件偶尔还是会漏掉关键问题,那么你正在面对一个更深层的现实。自动化测试的局限性不仅仅是工程挑战,它根植于数学上的不可能性

当前的AI驱动测试工具浪潮承诺将彻底改变质量保证。营销材料宣传智能测试生成、自主bug检测和前所未有的覆盖率。虽然这些工具确实带来了真正的改进,但它们无法逃脱七十多年前数学家亨利·戈登·莱斯(Henry Gordon Rice)建立的理论约束。他的定理证明,关于程序行为的某些问题根本无法通过算法来回答,无论计算能力或独创性如何。

这不是悲观的观点,而是现实的观点。理解为什么完全的测试自动化在数学上不可能,有助于我们更好地决策测试投入的方向,以及如何有效利用现代工具。与其追求无法实现的完美自动化目标,我们可以采用务实的方法,在承认这些限制的同时最大化实际效果。

莱斯定理如何影响软件测试?这正是本文要探讨的核心问题。我们会深入分析这个数学结果究竟证明了什么,理解它如何约束自动化测试,以及如何将形式化规格说明(Formal Specification)与 AI 驱动的测试生成结合起来,走出一条实用的道路。认清可能性的边界,反而能让你成为更有效的工程师,而不是被理论束缚。

让我们从理论出发,一步步走向日常开发实践,看看这些深层原理如何指导更好的工程决策。无论你是在编写单元测试、设计测试策略,还是评估新测试工具,掌握这些基础都能提升你的判断力、改善实际效果。