各位软件工程师们,这是我们职业生涯终结的开始吗?
湾区初创公司Cognition发布了Devin,他是首位能够改变我们开发软件方式的 AI 软件工程师。Devin 在SWE-bench编码基准测试中取得了突破性的成功,展示了其执行复杂任务甚至超越顶尖人类工程师的能力。
什么是 Devin?
Devin 是一种新型人工智能模型,擅长推理和长期规划。它自带代码编辑器、shell 和浏览器。
以下是 Devin 的仪表板的示例:
它几乎具备了作为独立开发者所需的一切。这意味着 Devin 可以独立工作,无需依赖外部工具或人工干预。
但真正让 Devin 脱颖而出的是它在现实场景中令人印象深刻的表现。Devin 已经在顶级人工智能公司的面试中表现出色,展示了其处理具有挑战性的技术问题和解决问题的能力。
如果这还不够的话,Devin 甚至可以成功完成 Upwork 上的任务,证明了其在专业环境中提供高质量工作的能力。
德文能做什么?
以下是 Devin 的功能:
- 德文可以学习如何使用不熟悉的技术。
- Devin 可以解决开源存储库中的错误和功能请求。
- Devin 可以为成熟的生产存储库做出贡献。
- Devin 可以训练和微调自己的 AI 模型。
- Devin 可以在 Upwork 上从事真正的工作。
- Devin 可以端到端构建和部署应用程序。
- 让我们深入了解这些令人难以置信的功能。
学习不熟悉的技术
在 Cognition 团队展示的演示中,一位用户要求 Devin 创建一个可生成包含隐藏文本的图像的 AI 工具。
Devin 毫不费力地部署了自己的 AI 代理来创建该工具。仅用了几分钟,Devin 就成功创建了 AI 工具,并生成了一张令人惊叹的 1080p 图像,其中巧妙地隐藏了“SARA”。
作为一名人类开发者,我不禁对这个演示感到惊讶。我猜它正在从 Github 中拉取代码项目来创建工具。
此处观看完整视频。
端到端构建和部署应用程序。
另一个例子中,一位用户要求 Devin 从头开始创建一个名为“生命游戏”的游戏网络应用程序。
Devin 根据用户的要求逐步添加功能。应用程序完成后,Devin 将其部署到 Netlify。
此处观看完整视频。
Devin 可以在 Upwork 上做真正的工作
或许 Devin 最吸引人且最具颠覆性的方面就是它能够承接 Upwork 上发布的真实工作。
在演示视频中,德文被要求为客户完成一项复杂的计算机视觉任务,其中涉及处理和分析图像。
Devin 不仅成功完成了项目,还向客户提供了样本图像和详细说明所执行工作和模型输出的综合报告。
如果人工智能现在真的可以处理复杂的现实项目,那么我们人类开发人员又该怎么办呢?这是我们在未来几个月内都需要努力解决的问题。
此处观看完整视频。
Devin 的表演
为了测试 Devin 的能力,研究人员在SWE-bench上对 Devin 进行了评估,这是一项具有挑战性的基准测试,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。
令人印象深刻的是,Devin 端到端正确解决了 13.86% 的问题,大大超越了之前 1.96% 的最佳表现。即使提供了需要编辑的确切文件,之前最好的模型也只能解决 4.80% 的问题。
在上图中,Devin 在随机选择的 25% 数据集子集上接受了评估。与其他需要辅助的模型(即,为它们提供需要编辑的特定文件)不同,Devin 无需辅助即可完成任务。
截至目前,这是唯一可用的信息。研究人员已宣布他们打算在不久的将来发布更全面的技术报告。所以,让我们继续关注更多细节。
X 用户Andrew Kean Gao能够提前使用 Devin,据他所说,它的表现优于 GPT-4 和 Claude 2。
根据我迄今为止的互动,我相信这是真的。Devin 在编码任务上比 Claude 2 和 GPT-4 更好。
但请注意,Devin 可以使用 shell、cmd 行、代码编辑器和网络搜索等工具,这使其比竞争对手更具优势。
它真的值得这么大力宣传吗?
作为一名软件开发人员和人工智能爱好者,我对 Devin 的感情很复杂。虽然我对人工智能在编程方面的潜力感到兴奋,但我对各种人工智能工具的体验让我既乐观又怀疑。
尽管人工智能在编码方面的应用被大肆宣传,但我一直在努力寻找一个能够持续为软件编程任务提供高质量输出的人工智能代理。即使使用GPT-4、Claude和AgentGPT等高级模型,我也遇到了上下文长度、输出质量、架构理解等方面的限制。
不过,我承认AI工具仍然可以在特定领域为软件工程师提供宝贵的帮助。
事实证明,像 Copilot 这样的人工智能工具非常适合自动完成和生成重复的样板代码。
我也更加依赖 Gemini 进行调试和代码分析;现在我很少访问 StackOverflow。
尽管有这些好处,我仍然对人工智能独立编写大量代码的前景持怀疑态度。产品、业务、设备和系统的细微差别需要一定的理解水平,而目前的人工智能工具很难做到这一点。然而,作为助手和生产力增强器,人工智能无疑是有价值的。
如何接触 Devin
对于那些渴望亲身体验 Devin 的人来说,目前我们正以候补名单的形式提供访问权限。填写此表格即可加入候补名单。
至于定价,Cognition 尚未透露一旦 Devin 得到更广泛应用后使用需要花费多少费用。