成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI博士如何做出有影響力的研究?斯隆獎得主弟子親身講述經驗

人工智能 新聞
一個好的開放源碼工具可以創造出模塊化的作品,供新的研究者和貢獻者探索、擁有和發展。

在研究生期間,很多人經常會迷茫于如何構建自身的研究。我們應該如何開展研究,才能在已經相當擁擠的人工智能領域有所作為?

太多人認為,長期的項目、適當的代碼發布和深思熟慮的基準測試無法產生足夠的激勵作用 —— 有時候這可能是你快速而內疚地完成的事情,然后又要回去做「真正的」研究。

最近,斯坦福大學 NLP 組在讀博士 Omar Khattab 發布了一篇博文,討論了頂級 AI 學者們有關做有影響力研究的思考。

圖片

讓我們看看他是怎么說的:

科研的影響力有多種形式,我將只關注通過開源工作(例如模型、系統、框架或基準測試)對人工智能產生的研究影響來衡量。因為我的目標部分是完善自己的想法,記錄具體的建議,并收集反饋,所以我會做出較為簡潔的陳述。如果你有其他的想法,歡迎在評論區討論。

首先,以下是指導原則:

  • 著眼于項目,而不是論文。
  • 選擇合適的、具有較大發揮空間的問題,可以「挖坑」。
  • 提前思考兩步并快速迭代。
  • 將你的工作公之于眾,并推廣你的想法。
  • 找到方法激勵自己:這是關于發展開源研究的提示。
  • 通過新論文繼續投資你的項目。
  • 第五點「關于發展開源研究的提示」值得單獨寫一篇更長的文章。我可能會在下一篇文章中寫到。

著眼項目

而不是論文

這是一個至關重要的思維,其他的一切都基于此。

剛入門的學生會非常重視發表他們的前幾篇論文。這是合理的:這是你學習進行研究、探索初始方向和證明早期進展的方式。但這是一個你最終必須離開的階段:從長遠來看,你的成就和成長不太會取決于單純的論文數量,而更多地取決于你的影響力和你傳達的總體研究脈絡。

不幸的是,太多的博士生認為大多數可能產生影響的行為都是「不激勵的」。這讓我很困惑,直到我意識到他們的意思是這些行為可能會減慢你發表下一篇論文的能力。但你如此迅速地發表下一篇論文的能力并不那么重要。

我建議你不要把你的工作看作一系列孤立的論文,而是問問自己:你將要領導的更大愿景,那么其中子領域或范式是什么?你的工作想要帶來什么不同?因此,你將發表單篇論文來探索并建立基準,而更大的愿景應該是你有意迭代的東西。它需要比論文所承載的大得多,而且肯定是尚未完全解決的問題。

要想實現這一點,一種方法是圍繞你在開源領域中維護的連貫工件(如模型、系統、框架或基準)構建一些研究論文。這種策略比「進行一些實驗,并發布一個轉瞬即逝的快速倉庫」成本更高,但它會迫使你找到一個具有真正影響的問題,并有助于確保你所做的新研究實際上是連貫且有用的:你不會花費力氣引入一個對自己一直在開發和維護的工件無用的小功能或技巧。

選擇合適的、具有較大發揮空間的問題

可以「挖坑」

并不是你撰寫的每篇論文都是值得無限期投資的。許多論文都是一次性的探索性論文。要找到可以轉變為更大項目的方向,所以請使用以下標準。

首先,問題必須是前沿的。你可以用多種方式定義它,但在人工智能領域中行之有效的一種策略是 —— 尋找一個將在 2-3 年內「熱門」但尚未成為主流的問題空間。

其次,問題必須具有較大的挖坑潛力,即對許多下游問題的潛在影響。基本上,這些問題的結果可能會使足夠多的人受益或感興趣。研究者和人們關心什么可以幫助他們實現目標,因此你的問題可能是幫助他人構建事物或實現研究或生產目標等東西。你可以應用此過濾器來研究理論基礎、系統基礎設施、新基準、新模型和許多其他事物。

第三,問題必須留有較大的余地。如果你告訴人們他們的系統可以快 1.5 倍或更有效 5%,這可能沒什么意思。在我看來,你需要找到這樣的問題:至少在經過多年的努力之后,你有非零的希望讓事情變得更快,比如快 20 倍或更有效 30%。當然,你不需要一路走到那一步才算成功,你也不應該等到完全走到那一步后才發表第一篇論文或發布第一件作品。

我不想說得太抽象,還是用 ColBERT 來說明吧。2019 年底,應用 BERT 進行檢索的研究非常流行,但這些方法非常昂貴。人們自然會問,我們是否能大幅提高這種方法的效率?是什么讓這成為一個好問題呢?

首先,它很前言。我們可以正確地預計,到 2021 年(1.5 年后),許多研究者將尋求基于 BERT 的高效檢索架構。其次,它有很大的發展空間。新的 ML 范式往往會這樣,因為大多數此類工作一開始都會忽略效率。事實上,最初的方法可能需要 30 秒才能回答一個查詢,而現在 30 毫秒就能完成更高質量的檢索,速度快了 1000 倍。第三,它有很大的 Fanout??蓴U展檢索是一個很好的「基礎」問題:每個人都需要在檢索器之上構建一些東西,但卻很少有人愿意去構建它們。

提前思考兩步

并快速迭代

既然你已經有了一個好問題,就不要急于選擇眼前的低掛果實作為你的方法!在某些時候,至少最終會有很多人在考慮這種「顯而易見」的方法。

相反,至少提前兩步思考。當這個及時出現的問題最終成為主流時,確定大多數人可能采取的途徑。然后,找出這條道路本身的局限性,并著手了解和解決這些局限性。

在實踐中會是什么樣子呢?讓我們重溫一下 ColBERT 案例。利用 BERT 構建高效檢索器的明顯方法是將文檔編碼成向量。有趣的是,到 2019 年底,只有有限的 IR 工作做到了這一點。例如,該類別中被引用次數最多的工作(DPR)在 2020 年 4 月才發布了第一份預印本。

有鑒于此,你可能會認為,2019 年要做的正確事情是通過 BERT 建立一個偉大的單矢量 IR 模型。與此相反,如果只提前兩步思考,就會提出這樣的問題:每個人遲早都會建立單矢量方法,那么這種單矢量方法會從根本上卡在哪里呢?事實上,這個問題導致了后期交互范式和廣泛使用的模型。

再舉一個例子,我們可以使用 DSPy。2022 年 2 月,隨著提示功能變得越來越強大,人們顯然希望通過提示來進行基于檢索的質量保證,而不是像以前那樣進行微調。為此,我們自然要建立一種方法。再往前走兩步,我們會問:這樣的方法會在哪里卡???歸根結底,「先檢索后生成」(或稱 RAG)方法可能是涉及 LM 的最簡單的方法。

出于人們會對它感興趣的同樣原因,他們顯然會對以下方面越來越感興趣:(i) 表達更復雜的模塊組合;(ii) 通過對底層 LM 的自動提示或微調,弄清楚應該如何監督或優化由此產生的復雜 pipeline。這就是 DSPy。

這條準則的后半部分是「快速迭代」。這也許是我的導師 Matei Zaharia(斯隆獎得主、Apache Spark 創始人)在我攻讀博士學位的第一周給我的第一條研究建議:通過確定一個可以快速迭代并獲得反饋(如延遲或驗證分數)的問題版本,可以大大提高你解決難題的機會。如果你要提前兩步思考問題,這一點就尤為重要,因為這已經足夠困難和不確定了。

將你的作品公之于眾

讓你的想法深入人心

此時,你已經發現了一個好問題,然后不斷迭代,直到你發現了一些很酷的東西,并寫出了一篇有見地的文章。不要繼續寫下一篇論文。相反,要專注于將你的工作成果公之于眾,并尋求與人們進行真正的互動,不僅僅是關于你的一次論文發布,而是關于你正在積極研究的全局?;蛘吒玫淖龇ㄊ牵屓藗兞私饽阏跇嫿ê途S護的有用的開源工具,它捕捉到了你的關鍵想法。

常見的第一步是在 arXiv 上發布論文預印本,然后發布「帖子」宣布你的論文發布。這樣做時,請確保你的帖子是以具體、充實、易懂的主張開頭。這樣做的目的不是告訴人們你發布了一篇論文,那并不具有內在價值,目標是以一種直接而又吸引人的方式傳達你的關鍵論點。(是的,我知道這很難,但這是必要的)。

也許更重要的是,整個過程不會在第一次「發布」后結束,發布只是開始。鑒于你現在投入的是項目,而不僅僅是論文,你的想法和科學交流將持續一年之久,遠遠超過孤立的論文發布。

當我幫助研究生在「推特」上介紹他們的工作時,他們最初發布的文章并沒有像希望的那樣受到關注,這種情況并不少見。學生們通常會認為這驗證了他們對發布研究成果的恐懼,并認為這是另一個信號,表明他們應該繼續寫下一篇論文。顯然,這種想法是不正確的。

大量的個人經驗、二手經驗和觀察結果都表明,在這件事上堅持不懈是非常有意義的(順便說一句,能堅持的人不多)。也就是說,除了極少數例外情況,好想法的牽引需要你在不同的環境中多次告訴人們關鍵的東西,并不斷改進你的想法和你對想法的傳達,直到社區能夠隨著時間的推移吸收這些想法,或者直到該領域發展到更容易理解這些想法的正確階段。

匯聚興奮點

發布開源研究的技巧

讓人們對你的研究成果感到興奮固然是件好事,但通過發布、貢獻和發展開源工具,將你的想法傳遞給相關的下游應用,往往能產生更大的影響。

要做到這一點并不容易:僅僅將代碼文件連同 README 上傳到 GitHub 是不夠的。一個好的資源庫將是你項目的「故鄉」,比你發表的任何一篇論文都更重要。

優秀的開源研究需要具備兩個幾乎獨立的特質。首先,它必須是好的研究,新穎、及時、范圍明確、準確。其次,它需要有明確的下游效用和低摩擦。

這是最重要的部分:人們會因為各種「錯誤」的原因,總是反復回避(而其他人也會反復使用)你的開放源碼軟件成果。舉例來說,你的研究可能是客觀的「最新技術」,但人們十有八九會優先考慮摩擦更小的替代方案。反過來說,對于研究生來說,往往不能抓住人們使用你工具原因的重點,比如,因為他們沒有充分利用你最有創意的部分。這并不是什么值得抵制的事情,而是值得理解,必須要為此改進的事情。

基于此,我想列出在研究成果開源方面需要注意的幾個里程碑。

里程碑 0:讓發布的內容可用

發布一個無人能運行的代碼是毫無意義的。在你的研究領域,這些人想復制你的運行結果,也許他們會超越過你的工作并引用你的研究結果。這些人比其他類型的用戶更有耐心。盡管如此,你還是會發現,根據代碼是否容易修補的情況,它在學術影響力方面也存在巨大差異。

里程碑 1:讓發布的內容有用

除了在你的細分領域的人,你應該確保你的發布對想要實際使用該項目來構建其他東西的受眾有用。在人工智能研究中,這個里程碑很少會自然而然地到來。你應該分配大量時間來思考人們試圖解決的(研究、生產等)問題,而你的人工智能成果可以在這些問題上提供幫助。如果你能正確地做到這一點,那么從項目設計到公開的應用程序接口以及展示的文檔 / 示例,都會體現出它的很多作用。

里程碑 2:讓發布通俗易懂

這對人工智能研究者來說很難,但我們應該意識到,一個有用的版本,在技術上所有的東西可用且是某種程度上可解釋,并不等于你的大多數潛在用戶會覺得這個版本通俗易懂,足以讓他們投入學習或嘗試。

知名 AI 學者 Andrej Karpathy 寫過一篇關于這個問題的文章:「你建造東西,然后你需要建造坡道通往它」。Ben Clavie 也撰寫了大量有關這方面的文章,他將我們在 ColBERT 上所做的工作加以改進,使其變得更加平易近人了,這在很大程度上證明了這一點。

圖片

來源:https://www.youtube.com/watch?v=c3b-JASoPi0

里程碑 3:找出顯而易見的替代方案失敗的原因,并保持耐心

我們一開始就討論了提前兩步思考的問題。在我看來,這一點至關重要,但也意味著大多數人都不會理解,為什么他們需要采用一種解決方案來解決他們還無法明顯觀察到的問題。我認為,隨著時間的推移,你的工作之一就是要建立一個案例。收集證據,并以易于理解的方式說明為什么顯而易見的替代方案(一次只思考一個步驟)會失敗。

里程碑 4:了解用戶的類型,并利用這一點實現增長

當我創辦 ColBERT 和 DSPy 時,我最初尋找的受眾是研究者和專業的 ML 工程師。隨著時間的推移,我學會了放棄這一點,并明白你可以接觸到更多的受眾,但他們需要的是不同的東西。在做任何事情之前,都不要間接甚至直接屏蔽不同類別的潛在用戶。這種情況比人們想象的要普遍得多。

其次,在尋找用戶時,要在兩類用戶之間尋求平衡。一方面,擁有高級用例的專家級構建者可能需要你投入大量資金,但往往會在研究意義上推動某些用例的發展,這可能會帶來回報。另一方面,公眾構建者通常不是 ML 專家,但他們經常在公眾場合構建并分享他們的學習成果,在大規模增長中占據更大的比例,并會讓你對自己最初的假設有更多的了解。兩者都是你需要的。

里程碑 5:將興趣轉化為不斷壯大的社區

OSS 工作的真正成功在于社區的存在,以及不依賴于你的努力而持續增長。一般來說,一個好的社區應該是有機的,但你需要積極努力幫助它形成,例如歡迎貢獻和討論,并尋找機會將興趣轉化為貢獻或某種論壇(例如 Discord 或 GitHub)。

里程碑 6:將興趣轉化為活躍、協作和模塊化的下游項目

很有可能,你的 OSS 項目在早期階段并沒有解決最初愿景中的所有問題。一個設計精良的項目通常會有多個模塊化部分,可以讓你發起研究合作(或其他努力),讓新的團隊成員不僅能推進項目,還能擁有項目的重要部分,從而更快或更大程度地影響他們的想法,同時大幅改進項目。例如,DSPy 目前由不同的團隊分別領導及時優化、編程抽象和強化學習方面的研發工作。ColBERT 的外部應用程序接口、底層檢索基礎架構和核心建模等組件主要由不同項目中的不同人員負責推進。

來,總結一下。開源研究的采用需要好的研究和好的開源成果。這種平衡很難把握,但一旦把握得當,就會收獲頗豐。就我個人而言,我花了很長時間才掌握并內化了這一點。這要歸功于我的博士生導師 Chris Potts 和 Matei Zaharia 的反復反饋,以及 Heather Miller 和 Jeremy Howard 的寶貴意見。

評估研究的標準是與先前知識相比的「增量」,但在人們能夠有意義地利用「增量」之前,軟件本身必須是有效的。要使軟件有效,其文檔也必須有效:除非你向人們展示,否則人們不會看到他們應該使用軟件的所有下游方法。也就是說,直到這些任務可以由一個獨立的社區來開發。

說了這么多,本節最重要的技巧就是「發布」,真正發布且經常發布,并從中學習。

發表新論文

繼續投入自己的項目

當你讀到第五條準則時,很自然會產生這樣的疑問:研究生哪里有這么多時間花在開放源碼軟件上?什么時候才能做真正的研究?

實際的答案是,花在開源上的大部分時間都可以用來進行新的、令人興奮的研究。這兩者并不像表面上看起來那么割裂。為什么這么說呢?

首先,處于這種開放源碼軟件工作的前沿,你可以極早地憑直覺識別新問題。與其他方式相比,你對問題的理解會更加本能。另外,你所建立的社區通常會對自己的方法原型提供直接反饋,并讓你有機會接觸到了解問題重要性的優秀合作者。你還可以獲得有用的「分發渠道」,確保自己在這一領域發表的每一篇新論文都能得到受眾的關注,并鞏固現有的平臺。

舉例來說,「ColBERT」不僅僅是 2020 年初的一篇論文。它現在可能有十篇左右的后續相關論文,投資于改進的訓練、更低的內存占用、更快的檢索基礎架構、更好的領域適應性以及與下游 NLP 任務更好的匹配。同樣地,DSPy 也不是一篇論文,而是關于編程摘要、提示優化和下游程序的論文集合。這些論文中有很多都是由不同的優秀作者撰寫的,他們的工作都產生了巨大的影響,其中一部分是通過開放源碼軟件渠道創造了大量的受眾。

所以說,一個好的開放源碼工具可以創造出模塊化的作品,供新的研究者和貢獻者探索、擁有和發展。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-03-08 10:54:58

蘋果阿里巴巴女性

2023-09-17 00:09:35

微軟新模型參數

2019-12-26 07:10:59

技術5G網絡

2012-12-14 16:12:17

全球移動游戲開發者聯盟

2009-04-10 21:28:08

2014-08-21 13:32:05

2023-01-04 10:01:53

物聯網IOT

2010-09-06 09:17:04

微軟VMwareWindows

2015-08-25 16:00:43

2023-06-15 12:08:27

2019-09-27 17:57:07

2021-01-20 09:48:42

物聯網互聯網IoT

2024-12-31 14:58:37

2025-02-27 10:00:00

2010-03-19 12:00:14

開源影響力

2013-07-19 09:31:09

2020-02-26 07:25:14

物聯網應用物聯網IOT

2019-10-31 09:05:18

區塊鏈區塊鏈協議比特幣

2025-01-23 15:10:28

2013-07-18 10:31:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区国产精品 | 亚洲性视频 | 爱爱小视频 | 国产高清亚洲 | 免费毛片在线 | 日本亚洲一区 | 91精品国产综合久久久亚洲 | 午夜视频在线免费观看 | 91在线观看视频 | 欧美专区日韩专区 | 国产精品视频在线播放 | 一区二区三区亚洲 | 亚洲人成在线观看 | 亚洲精品一区二三区不卡 | 亚洲精品一区二区在线观看 | 午夜婷婷激情 | 久精品视频 | 亚洲精品福利视频 | 国产91丝袜在线熟 | 欧美日韩高清 | 亚洲成人av| 中文字幕精品一区二区三区精品 | 欧美日韩视频 | 午夜电影福利 | 97久久超碰 | 久久久精品一区二区三区 | 午夜视频在线免费观看 | 久久久免费电影 | 欧美1区2区| 久久夜色精品国产 | 亚洲高清av在线 | 久久久久国产精品 | 一区观看 | 国产精品久久一区二区三区 | 亚洲一区二区在线视频 | 91精品国产一区二区三区 | 992人人草| 精品在线一区 | 色嗨嗨| 国产视频福利一区 | 免费人成激情视频在线观看冫 |