OpenAI 推出大模型测试基准 SWE-Lancer

品玩
02-19

品玩2月19日讯,OpenAI 官方宣布,推出一款全新的大模型测试基准SWE-Lancer,主要用于评测大模型的编程能力。

据悉,该评测基准提供了1400多项软件工程任务,包括独立工程任务和管理任务。独立任务由经验丰富的软件工程师通过三重验证的端到端测试进行评分,而管理决策则根据最初聘用的工程经理的选择进行评估。

为了促进未来的研究,OpenAI开源了统一的 Docker 映像和公共评估拆分,即 SWE-Lancer Diamond。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法