page contents

研究显示AI模型也会造成屎山代码 还会频繁引入错误并加速技术债务积累

来自中山大学和阿里巴巴集团的研究团队日前发布新论文,这篇论文系统性评估大型语言模型驱动的代码在真实软件项目多轮迭代中的可维护性,但结果让人震惊。

attachments-2026-04-VAboz2cK69dd9bcec396d.png来自中山大学和阿里巴巴集团的研究团队日前发布新论文,这篇论文系统性评估大型语言模型驱动的代码在真实软件项目多轮迭代中的可维护性,但结果让人震惊。

研究显示,即使是目前最先进的人工智能模型,也难以避免在长期维护过程中引入回归错误,这会导致代码质量逐步衰退,并且显著增加技术债务。

什么是技术债务:

技术债务是软件开发领域的经典比喻概念,最初由沃德・坎宁安在 1992 年提出。沃德・坎宁安将软件中的次优设计或权宜之计比作债务:在短期内看似借到了速度和快速交付的好处,但未来必须连本带利偿还,而且利息还会不断累积。

简单来说技术债务就是为了追求短期速度或者因业务压力而故意或无意采用的非最优方案,属于代码能跑就行,但这会在未来带来额外维护、修复、重构成本。

研究称现有基准测试无法评估 AI 代码能力:

现有基准测试例如 SWE-Bench 等主要聚焦于一次性错误修复或功能添加,AI 模型只会针对单一快照给出正确补丁即可通过。

这种静态评估忽略了真实软件工程中的核心现实:软件生命周期中 60%~80% 的成本发生在维护阶段,涉及持续的需求演变、重构、依赖变更以及对回归错误的严格控制。

一旦 AI 模型或智能体做出短期奏效但长期脆弱的决策,其后果就会在后续迭代中累积放大,但这种情况在传统基准测试中完全不可见。

论文指出,一个硬编码的脆弱修复与一个编写干净、可扩展代码的方案,在同一测试套件下可能都会通过,但不同方案的维护性差异只在代码库持续演化时才会显现。

SWE-CI 基准测试:模拟真实的持久战

SWE-CI 数据集从 GitHub 精选的 100 个活跃 Python 仓库任务作为测试点,每个任务对应真实主分支上的连续提交历史,平均跨越 233 天、71 次提交、源代码修改超过 500 行,每个任务都配备独立的 Docker 环境,确保测试可以复现。

实验结果揭示 AI 长期维护的严峻现实:

研究团队基于 SWE-CI 基准测试对 18 个主流 AI 模型进行评估,大多数模型的零错误回归率都低于 25%,仅 Claude Opus 系列中的两个模型超过 50%。

回归错误泛滥:零回归率指的是全程无任何测试退化,大多数模型的零回归率低于 25%,即在超过 75% 的任务中,AI 会在修复或添加功能时破坏已有功能。

测试中表现最好的是 Claude Opus 两个模型,其零回归率超过 50%,但这也仍然表明当前 AI 模型在长期代码维护中难以可靠的规避回归。

论文还强调,在 AI 模型的长期维护下,一旦系统发生回归,这不仅仅会影响用户体验,还会随着变更数量积累,导致系统性质量退化。

这项研究也为 AI 编码工具敲响警钟:短期内能跑通远非终点,真正可靠的 AI 软件工程,需要从训练与评估范式上彻底转向长期维护性。

更多相关技术内容咨询欢迎前往并持续关注好学星城论坛了解详情。

想高效系统的学习Python编程语言,推荐大家关注一个微信公众号:Python编程学习圈。每天分享行业资讯、技术干货供大家阅读,关注即可免费领取整套Python入门到进阶的学习资料以及教程,感兴趣的小伙伴赶紧行动起来吧。

attachments-2022-05-rLS4AIF8628ee5f3b7e12.jpg

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Pack
Pack

1959 篇文章

作家榜 »

  1. 轩辕小不懂 2403 文章
  2. 小柒 2228 文章
  3. Pack 1959 文章
  4. Nen 576 文章
  5. 王昭君 209 文章
  6. 文双 71 文章
  7. 小威 64 文章
  8. Cara 36 文章