分享好友 最新动态首页 最新动态分类 切换频道
AI编程界添新星!普林斯顿研究团队推出了革命性的智能体
2024-12-26 15:16

 

AI编程界再添新星!普林斯顿研究团队推出了革命性的智能体-计算机接口(ACI)——SWE-agent。这一创新使得大型语言模型如GPT-4能够华丽转身,成为软件工程领域的AI专家,自动在真实的GitHub仓库中修复bug。

困扰GPT-4已久的编程难题,如今迎刃而解。在SWE-bench测试集中,SWE-agent表现出色,解决了12.29%的问题,平均仅需93秒,准确率令人瞩目。更令人振奋的是,SWE-agent完全免费开源。

短短十几小时内,便在GitHub收获了1.6k星、109个Fork的热烈反响。感兴趣的朋友可访问:https://github.com/princeton-nlp/SWE-agent。英伟达高级科学家Jim Fan也透露了成功秘诀:要在SWEBench上取得12.3%的佳绩,关键在于精心设计GPT-4的命令行工具,无需其他复杂手段。

John Yang及其研究团队强调,大模型需要精心设计的智能体——计算机接口,以提供类似于人类喜好的UI设计体验。例如,当LLM出现缩进错误时,编辑器能够立即阻止并给出反馈。此外,他们还发现,在查看文件时,限制SWE-agent一次显示100行比展示200-300行或整个文件更为有效。

即使拥有强大的GPT-4模型支持,一个优秀的智能体-计算机设计同样至关重要。John Yang团队的技术报告将于4月10日发布,届时将详细展示SWE-agent的工作原理和应用前景。

此外,该项目的logo由Ofir Press使用DALLE-3精心设计,突显了开源Devin的独特性和创新精神。自推出以来,Devin在短短一个月内迅速走向大众化,吸引了众多开发者的关注。

有开发者表示:“我感受到了一个全新的研究领域正在崛起——智能体计算机交互(ACI)。它与人机交互(HCI)有着紧密联系,但更专注于LLM和LVM的应用。”同时,对于普林斯顿团队利用GPT-4在基准测试中取得的12.29%准确率,许多人感到惊叹,并期待GPT-5的诞生将带来更多突破。

随着开源Devin的普及和智能体计算机交互(ACI)领域的发展,软件行业的传统护城河似乎已经消失。数字经济应用实践专家骆仁童博士对此表示期待,随着更多的AI垂直应用出现,我们将看到更多创新工具和方法涌现,推动软件工程领域不断前进。

智能体工作流SWE-agent的运作可概括为两大环节:首先是“推理”阶段,SWE-agent针对GitHub中的某一问题,利用特定脚本进行处理后,提出相应的拉取请求以期待问题得到解决;随后进入“评估”阶段,对提出的拉取请求进行严格检查,以验证其是否有效解决了原问题。

目前,这一流程主要应用于SWE-bench基准测试中的问题。若要在任意GitHub问题上运行SWE-agent,可执行以下命令:`python run.py --model_name gpt4 --data_path [GitHub问题链接] --config_file config/default_from_url.yaml`。

而对于SWE-bench上的问题,需在SWE-bench Lite上运行SWE-agent并生成补丁:`python run.py --model_name gpt4 --per_instance_cost_limit 2.00 --config_file https://www.bilibili.com/read/config/default.yaml`。若需针对SWE-bench中的特定问题进行操作,可添加`--instance_filter`选项。

至于评估阶段,只需在终端中切换至evaluation目录并运行`https://www.bilibili.com/read/run_eval.sh

作者介绍

SWE-agent这项研究中两位核心作者是John Yang和Carlos E. Jimenez。

John Yang

John Yang目前是普林斯顿大学的研究助理,导师是Karthik Narasimhan。他曾在加州大学伯克利分校取得了电子工程和计算机学士学位。他本人对语言基础和交互、LLM的基准测试、软件工程和代码生成感兴趣。

Carlos E. Jimenez

Carlos E. Jimenez是普林斯顿的博士生,导师是Karthik Narasimhan教授。他研究的是自然语言处理的人工智能和ML,研究兴趣包括代码语言模型,以及面向任务的对话。

无疑,人工智能正在重塑技术行业的运作模式。从Devin、Devika到OpenDevin,他们在软件工程的舞台上展现出卓越的实力。AI已不再是软件工程师的简单助手,而是逐步取代他们,胜任曾被认为仅人类能完成的复杂任务。

这引发了一个深刻的问题:AI是否已从工具蜕变为工程合作伙伴?更进一步,AI是否具备独立编写安全代码的能力?未来,编程的大权是否会完全交给AI?这些问题不仅关乎技术的飞速发展,更触及我们对AI角色和能力的根本认知。

Devin:引领AI工程新时代

就在今年3月12日,一家仅创立两个月、由十名成员组成的初创企业,以其创新之举在全球范围内引发了强烈震撼。

这家公司的杰作便是全球首例AI程序员——Devin。Devin不仅具备全面的全栈技术能力,能够自主掌握未知技术领域,更能在整个开发流程中无缝构建与部署应用程序,从修正代码缺陷到亲自训练及优化自身的AI模型,无所不能。

在权威的SWE-bench测试中,Devin以显著优势超越了Claude 2、Llama、GPT-4等业界翘楚,其优异表现令人瞩目,得分高达13.86%,堪称卓越。

显然,Devin并非一款普通的AI辅助工具,而是具备独立执行全套软件工程任务的先进AI体系。它的诞生标志着AI技术在工程领域的重大飞跃。

与传统AI工具相比,Devin的独特之处在于其能够自主规划并执行复杂的软件工程项目,这意味AI现今已具备担当工程师角色的实力。

除了核心的编程工作,Devin还展现了处理程序故障、实现应用部署以及培育新型AI模型的全方位能力,彻底颠覆了人们对AI在软件开发中作用的认知。

OpenDevin:共绘未来图景

在首发当日,一款名为OpenDevin的Devin开源版本应运而生,它以革新之姿强势登场。

OpenDevin积极倡导社区成员参与代码贡献,并坚定秉持开放标准的理念,其核心目标在于持续优化与强化AI在软件开发领域的应用效能。如此一来,软件工程师们将能更为高效地驾驭编程工作,提升生产力。

Devika:开源社区冉冉升起的新星

在Devin于AI软件工程领域的开拓性贡献的启发下,又一极具潜力的开源项目——Devika应运而生。

Devika是一位积极进取的AI软件工程师角色,具备理解复杂人类指令的能力。它能将这些指令细化为明确的操作步骤,精准收集相关数据信息,进而依据这些输入自动生成实现预定目标的代码。

详言之,Devika巧妙借力于Claude 3的卓越性能,融合尖端的AI规划与编程技术,构建起一个面向公众、由社区集体驱动的开放式创新平台。

Devika不仅代表着一项技术创新,更是对全球开源社群的一份诚挚邀约。它呼唤着各路贡献者携手踏上AI创新之旅,共襄盛举,擘画并塑造AI技术的未来图景。

AI编程的崛起展示了其在软件工程领域的巨大潜力,从规划复杂任务到修复漏洞,甚至管理整个开发流程。尽管如此,AI仍难以应对现有复杂代码库和编写安全代码的挑战,这要求深入了解代码背景、潜在漏洞及最新安全研究。因此,人类的监督在此过程中不可或缺。

虽然AI尚未能完全替代软件工程师,但它正在重塑技术界的未来。当前,Devin、Devika和OpenDevin等AI软件工程师引发我们思考:AI应被视为类似人类的存在吗?Ethan Mollick在“On the Necessity of Sin”中探讨了与AI合作共创软件工程未来的机遇与挑战。答案或许取决于我们对未来的设想及是否愿意拥抱开源、透明和协作的精神。

商道童言(Innovationcases)欢迎点赞和分享哦!~~

免费电子书:结构化思维 | 荆棘商途 | 年度十词 创新企业案例 | 区块链金融

数字经济应用实践专家 骆仁童主讲课程

人工智能:《AI趋势》《ChatGPT》

数字应用:《区块链》《元宇宙》《大数据》

数字中国:《智慧城市》《数字政府》《智慧建筑》《智慧交通》

数字化转型:《制造业数转》《零售业数转》《中小企业创新》

产业数字化:《烟草数转》《银行金融科技》《电力能源互联网》

宏观与趋势:《数字经济》《2024宏观》《双碳》

思维与技能:《数字化思维》《组织变革》

创新与创业:《创业导师》《商业模式》

最新文章
如何解决房屋内墙面渗水问题?这些方法有哪些实际效果?
房屋内墙面渗水是一个令人头疼的问题,不仅影响美观,还可能导致墙面发霉、脱落,甚至影响居住者的健康。下面为您介绍一些解决房屋内墙面渗水问题的方法及其实际效果。1. 外墙防水涂料:在外墙表面涂刷防水涂料,形成一层防水膜,阻挡雨水
梦幻西游全服第一童子 18技能资质不差感受人生巅峰
  逆袭无级别的玩家有上千个,但是绝大多数的无级别装备价格都在10万以下,价格能到50万以上的少之又少!童子不一样,他是目前梦幻西游里175级玩家用来打服战的最佳选择。内丹数量6个、天生成长资质高、有必带技能,合成多技能的童子可比
(2024版)天翼云从业者认证考试题库(多选题汇总).docxVIP
(2024版)天翼云从业者认证考试题库大全-下(多选题汇总)第一部分多选题1.边缘节点是相对于网络复杂结构而提出的一个概念,指距离最终用户接入具有较少的中间环节的网络节点,对最终接入用户有较好的什么?A、运维能力B、响应能力C、安全能力D
贵阳夜生活指南:2024年热门商务KTV与夜总会排名及包厢价格概览
发布时间:2024-12-14 14:45:01贵阳,这座光与影交织的城市,以其独特的魅力吸引着八方来客。夜幕降临,华灯初上,贵阳的夜生活也随之拉开帷幕。你可以体验到别具一格的休闲娱乐方式,无论是逛街购物,还是享受夜总会的繁华,都能让人沉醉
上海徐汇线上青少年编程培训名单大全一览
课程单价:250元课时数:80节全部校区:童程童美少儿编程(南城中心)课程内容:课程采用SPIKE硬件以编程逻辑为主要学习目标,引导学生进行自主设计、搭建、编程,培养学生独立解决问题的能力。课程中还引入知名科创挑战活动的经典项目,锻
行为人的笔迹是怎么鉴定的?
一、行为人的笔迹是怎么鉴定的?由司法鉴定机构进行,笔迹鉴定的整个过程可以分为分别检验、比较检验、综合判断三个阶段。1、分别检验分别检验是发现与确定检材笔迹与样本笔迹各自的特征:真实程度、检材特征、样本特征。2、比较检验比较检
sem推广是什么?SEM推广的基本原理和优势
  SEM(Search Engine Marketing)是指通过搜索引擎进行网络营销的一种方式。在当今数字化时代,搜索引擎已经成为人们获取信息、寻找产品和服务的主要途径之一。而SEM推广作为一种有效的网络营销手段,已经成为各行各业企业提升品牌知名度
逆水寒手游江湖门派技能效果
逆水寒手游中有五大江湖门派,加入之后可以学会独特的门派技能。不少玩家对于这些门派的技能非常感兴趣,本次就给大家详细介绍一下。1、相思门相思剑法一式:突刺,对路径敌人造成伤害二式:化为剑影,跟随指定目标,持续造成伤害。三式:斩击。
还有6天,一年一度的云电脑产业嘉年华即将开启
12月18日14:00北京香格里拉饭店2024通信产业大会AI赋能云电脑创新发展论坛一年一度的云电脑产业嘉年华盘点2024云电脑产业发展特征展望2025AI云终端技术趋势发布2024云电脑产业创新调研(第二届)行业领袖纵论AI赋能产业机会和挑战最新云电
网站运营做seo/保定seo推广外包
  在有条件有能力的情况下,可以考的证书还是比较多的,也没有必要全部都考,主要看自己需要,符合需求。 那先了解一下PMP: PMP®的全称是Project Management Professional(项目管理专业人士资格认
相关文章
推荐文章
发表评论
0评