成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MIT微軟為AI量身打造了一套leetcode編程題

新聞 人工智能
不用自然語言描述,也沒有輸入輸出示例,你所看到的就只有一個Python函數。這是來自MIT、Allen AI和微軟的研究人員提出的一種全新的編程題目描述方法

 [[407672]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

你見過這種編程題目描述方式嗎?

MIT微軟為AI量身打造了一套leetcode編程題

不用自然語言描述,也沒有輸入輸出示例,你所看到的就只有一個Python函數

這是來自MIT、Allen AI和微軟的研究人員提出的一種全新的編程題目描述方法

每個題目都由一個簡短的Python函數f定義,目標是找到一個輸入x,使f輸出true。

這樣的題目形式可以讓AI審題更容易,人類程序員的理解也不會受到影響。

AI編程,道路真是越來越平了啊。

接下來就來詳細看看這個研究吧。

MIT微軟為AI量身打造了一套leetcode編程題

沒有自然語言描述的編程題目

再來解釋一下這種描述方法:

題目采用Python函數的形式,參數為答案。

解題的目標是找到使函數輸出為真的輸入x,即滿足f(x)= true的正確答案。

現在請你舉一反三:求解一個有1000個不連續“o”的字符串,用這種新形式如何描述呢?

[[407673]]

正確答案:

MIT微軟為AI量身打造了一套leetcode編程題

下面是另外兩道題目的描述示例。

動態規劃—最長單調遞增子序列問題:

MIT微軟為AI量身打造了一套leetcode編程題

經典的漢諾塔 (Towers of Hanoi ):

MIT微軟為AI量身打造了一套leetcode編程題

研究人員按此種出題形式囊括了各種編程題,提出來一個開源數據集:叫做P3。

該數據集題型非常全面:涉及不同難度、不同領域和不同算法工具等方面的題目。

有簡單的字符串操作問題;

有經典如漢諾塔和國際象棋(例如,騎士游歷算法和N皇后問題變體)等難題;

也有兩人挑戰尋找最佳策略的題型,如井字棋(Tic-Tac-Toe)、石頭剪刀布、珠璣妙算Mastermind等;

還包括來自國際數學奧林匹克競賽(IMO)和國際大學生程序設計競賽(ICPC)的題目,如各種圖論和數論難題。

MIT微軟為AI量身打造了一套leetcode編程題

一共包含208種題型、14萬+的題目,并且還在不斷更新中。

每個題目都提供了至少一種答案。

MIT微軟為AI量身打造了一套leetcode編程題

這套新穎的編程挑戰題庫數據集,抓住了編程題目的本質,可用于教AI編程評估AI的編程能力。

研究人員表示,這套題可以對AI的編程能力進行客觀評估。因為不用查看答案,就能直接驗證解答的正確性。因此,這種題目不會增加AI學習任何答案偏差的負擔。

希望這個數據集可以開發出新的AI編程解決方案

不同AI求解器根據這些題目編程的效果如何呢?

研究人員做了一些深入的實驗,開發了基于隨機森林、Transformer和不同類型GPT-3 prompts的AI求解器,它們采用不同參數枚舉、自頂向下的方法,使用這個P3數據集來評估性能。

首先,測試這些求解器在這個數據集上利用此前解決題目的方法來解決新題目的自舉效率(bootstrapping efficacy)。

結果發現,增加嘗試次數可以解決新題目。但它們也能通過學習過去的經驗,更快地解決新的難題。

下圖為這些AI求解器在不同嘗試次數下的已解決題目數量:

MIT微軟為AI量身打造了一套leetcode編程題

而在一項小的用戶研究中,21名在Python編程方面有不同經驗年限的程序員完成了不同難度的30個題目。每個題目最多分配6分鐘的時間來解決。

用這個數據集評估AI與人類程序員對編程題難度的感知發現:

人類覺得難的題對AI來說也更難,現階段情況下,AI求解器能解決的大多數題都是對人類來說比較簡單的。

MIT微軟為AI量身打造了一套leetcode編程題

上圖表示人類和AI對各種題目的難度打分,按人類分數排序。人類的難度分數通過超出允許的最大解題時間的平均分數來衡量,AI的則是根據解題所需的嘗試次數。

另外,AI用這種形式的題目可以解決了60% 的難題,初學者和有經驗的程序員平均分別解決了 76% 和 87% 的難題。

總的來說,利用這個新穎的數據集,通過精心設計的AI求解器,可以大大減少AI編程求解所需的嘗試次數、并解出更多的題目。

因此,研究人員希望,這個新的編程題庫數據集能支持大家研究和開發新的AI編程解決方案,提高AI編程的效率和性能。

此前,UC伯克利曾訓練AI刷LeetCode,總共5000道題的測試中,AI能做出15%。

不知道使用這個數據集訓練,AI編程的能力又會達到什么水平呢?

論文地址:https://arxiv.org/abs/2106.05784

開源數據集鏈接:https://github.com/microsoft/PythonProgrammingPuzzles

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2019-12-27 11:16:13

Linux操作系統Redis

2009-04-15 10:28:14

TechNet微軟Windows 7

2024-03-01 10:25:07

AIAI工具微軟

2020-10-27 15:04:14

AI 數據人工智能

2017-11-16 16:23:01

浙江

2017-09-20 15:34:31

互聯網

2009-05-21 14:47:29

酷點KoolPoin產品摩卡軟件

2009-05-23 12:42:14

賽門鐵克中小企業終端防護

2011-09-13 11:17:43

iPad應用

2023-10-17 08:42:13

ChatGPT定制指令

2019-10-11 15:58:25

戴爾

2021-05-27 07:12:19

單點登錄系統

2014-11-19 17:14:23

BQ企業即時通

2015-09-21 09:42:29

Azure CloudLinux操作系統

2020-06-29 09:58:29

微軟算法照片

2020-03-19 12:15:09

2021-02-07 18:19:44

RabbitMQ客戶端

2017-04-13 09:56:57

0分貝主機風扇

2025-04-07 07:45:00

AI模型神經網絡

2013-06-08 10:31:01

微軟MIT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产综合精品 | 亚洲精品久久久久久久久久久 | 欧美一a| 九九av| 祝你幸福电影在线观看 | 国产在线精品一区二区三区 | 久久久久国产精品 | 日本a视频 | 日韩一级二级片 | 三级视频在线观看电影 | 日韩电影在线 | 亚洲成人av在线播放 | 亚欧洲精品在线视频免费观看 | 桃色五月 | 毛片毛片毛片毛片毛片 | 久久免费精品视频 | 激情av在线 | 色橹橹欧美在线观看视频高清 | a天堂在线 | av官网在线 | japanhd美女动 | 日日噜噜噜夜夜爽爽狠狠视频, | 久久久久久黄 | 免费久久99精品国产婷婷六月 | av资源中文在线 | 天天草天天操 | 国产成人精品亚洲日本在线观看 | 亚洲一区二区中文字幕在线观看 | 国产日韩欧美一区二区在线播放 | 久久久一区二区三区 | 99精品福利视频 | 精一区二区 | 黄免费看 | 亚洲欧美在线观看 | 高清欧美性猛交 | aaa级片| av影音资源 | 国产日产久久高清欧美一区 | 亚洲精品国产精品国自产在线 | 国产精品一区二区电影 | 一区二区免费在线 |