博彩投注金分配完美国际博彩
DevBench团队 投稿量子位 | 公众号 QbitAI
首个AI软件工程师Devin适应亮相,立即引爆了扫数本事界。
Devin不仅大概放胆处置编码任务,更不错自主完成软件设备的扫数周期——从技俩洽商到部署,涵盖但不限于构建网站、自主寻找并成就 BUG、考验以及微调AI模子等。
这种 “强到逆天” 的软件设备才调,让一众码农纷纷黯然,直呼:“才略员的末日真来了?”
在一众测试获利中,Devin在SWE-Bench基准测试中的弘扬尤为引东谈主隆重。
SWE-Bench是一个评估AI软件工程才调的测试,重心查察大模子处置本色 GitHub 问题的才调。
Devin以寂寞处置13.86%的问题率高居榜首,“秒杀”了GPT-4仅有的 1.74%得分,将一众AI大模子远远甩在后头。
这刚劲的性能让东谈主不禁念念入非非:“昔日的软件设备中,AI将演出如何的变装?”
上海东谈主工智能实验室聚合字节跨越SE Lab的洽商东谈主员以及SWE-Bench团队,提倡了一个新测试基准DevBench,初次揭秘大模子在多猛进度上不错从PRD启程,完成一个齐全技俩的设想、设备、测试。

具体地说,DevBench初次对大模子进行了从家具需求文档(PRD)到齐全技俩设备各阶段弘扬的评测,包括软件设想、依赖环境搭建、代码库级别代码生成、集成测试和单位测试。

实考据明,DevBench不错揭露GPT、CodeLlama、DeepSeek-Coder 等大言语模子在软件研发不同阶段的才调短板,如面向对象编程才调不及、无法编写较为复杂的构建剧本(build script),以及函数调用参数不匹配等问题。
皇冠hg86a
大言语模子距离不错寂寞完成一个中小规模的软件技俩设备回有一段路要走。
当今,DevBench的论文也曾发布在预印平台arXiv,有关代码和数据开源在GitHub上。(贯穿见文末)
DevBench 有哪些任务?

△图为DevBench框架概览
传统的编程基准测试往往温情代码生成的某个单一方面,无法全面反馈实践寰宇编程任务的复杂性。
DevBench的出现,箝制了这一局限,它通过一系列悉心设想的任务,模拟软件设备的各个阶段,从而提供了一个全面评估LLM才调的平台。
DevBench围绕五个重要任务构建,每个任务王人温情软件设备人命周期的一个重要阶段,模块化的设想允许对每个任务进行寂寞的测试和评估。
软件设想:诈欺家具需求文档PRD创建UML图和架构设想,展示类、属性、相干,以及软件的结构布局。该任务参考MT-Bench,招揽LLM-as-a-Judge的评测花样。评测主要依据两个主要缱绻:软件设想一般原则(如高内聚低耦合等)和诚挚度(faithfulness)。
环境设立:凭据提供的需求文档,生成脱手化设备环境所需的依赖文献。在评测流程中,该依赖文献将在给定的基础箝制环境(docker container)内通过基准辅导进行依赖环境搭建。随后在这个模子搭建的依赖环境中,该任务通过奉行代码仓的基准示例使用代码(example usage),评估奉行基准代码的得胜率。
代码达成:依据需求文档和架构设想,模子需要完成扫数代码库的代码文献生成。DevBench设备了一个自动化测试框架,并针对所使用的具体编程言语进行了定制,集成了Python的PyTest、C++的GTest、Java的JUnit和JavaScript的Jest。该任务评估模子生成代码库在基准环境中奉行基准集成测试和单位测试的通过率。
完美国际博彩集成测试:模子凭据需求,生成集成测试代码,考据代码库的对外接口功能。该任务在基准达成代码上运行生成的集成测试,并说明测试的通过率。
单位测试:模子凭据需求,生成单位测试代码。相同,该任务在基准达成代码上运行生成的单位测试。除了通过率缱绻外,该任务还引入了语句障翳率评价缱绻,皇冠导航网对测试全面性的进行定量评估。
对此,深交所请*ST太安核实以下问题并做出书面说明:

DevBench 包含哪些数据?
DevBench数据准备流程包括三个阶段:仓库准备、代码算帐和文档准备。
在准备阶段,洽商东谈主员从GitHub中遴荐高质料的仓库,确保它们的复杂性可照应。在代码算帐阶段,标注东谈主员考据代码的功能性,对其进行致密,并补充和运行测试以确保质料。文档准备阶段波及为仓库创建需求文档、 UML图和架构设想。
最终,DevBench的数据集包含4个编程言语,多个领域,共22个代码库。这些代码仓库的复杂性和所使用编程范式的各样性为言语模子设立了宽敞的挑战。

几个深嗜的例子:
TextCNN
大模子能齐全地写一个TextCNN作念文本二分类的模子吗?大概我方把数据集从HF拉下来,把考验跑起来是基本条件。还需模子按照文档的需求定制超参数、纪录log、存储checkpoint、同期保阐明验可复现性。
(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/TextCNN)
Registration & Login
前端技俩往往依赖较多的组件库和前端框架,模子是否大概在可能出现版块冲突的前端技俩中应付自由?
博彩投注金分配(https://github.com/open-compass/DevBench/tree/main/benchmark_data/javascript/login-registration)
People Management
皇冠客服飞机:@seo3687模子对SQLite数据库的创建和照应掌执的何如样?除了基本的增改变查操作,模子能否将校园东谈主员信息和相干数据库的照应和操作封装成易用的敕令行用具?
(https://github.com/open-compass/DevBench/tree/main/benchmark_data/cpp/people_management)
皇冠走地盘口Actor Relationship Game
“六度分隔表面”在影视圈的猜念念考据?模子需要从TMDB API取得数据,并构建流行演员们之间通过配合电影进行联接的东谈主际连续网。
(https://github.com/open-compass/DevBench/tree/main/benchmark_data/java/Actor_relationship_game)
ArXiv digest
ArXiv论文检索小用具也被放胆拿捏了?ArXiv的API并不赞成“筛选最近N天的论文”的功能,但却不错“按发表时刻排序”,模子大概以此设备一个好用的论文查找用具吗?
在2024年欧洲杯小组赛中,克罗地亚队对阵瑞士队,比赛进行到第80分钟,双方互交白卷,场上气氛有些紧张。突然,一名球迷冲进场内,向场上扔了一瓶汽水,差点砸中了瑞士队门将。裁判立即中断比赛,安保人员将球迷带离了现场,比赛在20分钟后重新开始。(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/ArXiv_digest)
实验发现
皇冠90比分网洽商团队诈欺DevBench对现时流行的LLMs,包括GPT-4-Turbo进行了全面测试。成果清楚,尽管这些模子在浮浅的编程任务中弘扬出色,但在濒临复杂的、确凿寰宇的软件设备挑战时,它们仍然遭受了紧要勤恳。非凡是在处理复杂的代码结构和逻辑时,模子的性能还有待普及。
洗码
DevBench不仅揭示了现存LLMs在软件设备中的局限性,也为昔日模子的改良提供了适应的洞见。通过这一基准测试,洽商东谈主员不错更好地清爽 LLMs的坚韧和缺欠,从而有针对性地优化它们,鼓吹AI在软件工程领域的进一步发展。
此外,DevBench 框架的绽放性和可扩张性意味着它不错连接适配不同的编程言语和设备场景。DevBench 还在发展流程中,十分接待社区的一又友参与共建。
皇冠比分Devin 在 SWE-Bench 上沿途当先,它的优异弘扬不错扩张到其他评测场景吗?跟着 AI 软件设备才调的连接发展,这场码农和 AI 的较量让东谈主倍感期待。
还有OpenCompass大模子评测体系
DevBench现已加入OpenCompass司南大模子才调评测体系,OpenCompass是上海东谈主工智能实验室研发推出的面向大言语模子、多模态大模子等各种模子的一站式评测平台。
www.crowncitybetzone.comOpenCompass具有可复现、全面的才调维度、丰富的模子赞成、散播式高效评测、各样化评测范式以及生动化拓展等特色。基于高质料、多脉络的才调体系和用具链,OpenCompass 翻新了多项才调评测要领,赞成各种高质料的中英文双语评测基准,涵盖言语与清爽、学问与逻辑推理、数学诡计与应用、多编程言语代码才调、智能体、创作与对话等多个方面,大概达成对大模子确凿才调的全面会诊。DevBench更是拓宽了 OpenCompass 在智能体领域的评测才调。
澳门新葡京酒店图片DevBench论文:https://arxiv.org/abs/2403.08604GitHub:https://github.com/open-compass/devBench/OpenCompass https://github.com/open-compass/opencompass
下一篇:没有了
