GitHub 編程神器 Copilot被斥「盜版」大量開源代碼,面臨90億美元集體訴訟
作者:Mickey?
自誕生之日起就飽受爭議的微軟代碼工具Copilot近期又遭遇了新的問題。
一名程序員就該工具正式起訴了微軟、GitHub 和 OpenAI,尋求對微軟和其他設計部署 Copilot 的公司進行集體訴訟,并要求賠償。目前訴訟已經提交到了美國加州北區地方法院,要求批準 9,000,000,000 美元的法定賠償金。
讓程序員們早下班的AI工具
Copilot到底何方神器?
今年6 月下旬,微軟發布了一種可以自動生成計算機代碼的新型人工智能技術。
該工具名為 Copilot,旨在讓專業程序員更快地工作。當他們工作時,Copilot會給出代碼建議,程序員可以直接將copilot展示的建議的代碼塊直接添加到自己的代碼中,快速完成工作,這一工具也因此被很多媒體譽為“讓程序員早下班的工具”。
據 Copilot 網站稱,Copilot基于Codex 模型產生,其由“互聯網上的公共代碼和文本”訓練,“既能理解編程,也能理解人類語言”。作為 Visual Studio Code 的擴展,Copilot “將你的評論和代碼發送到 GitHub Copilot 服務,然后它會使用 OpenAI Codex 來合成并建議個別行和整個函數”。
許多程序員喜歡這個新工具,有開發者表示: “使用 Copilot,我能盡量少把精力浪費在枯燥重復的工作身上。它點燃的靈感火花,讓我感到編碼過程更有趣、更高效了。”但也有不少人不買賬,洛杉磯的程序員、設計師、作家和律師Matthew Butterick就是其中之一。本月,他和其他律師團隊提起訴訟,尋求對微軟和其他設計和部署 Copilot 的知名公司的集體訴訟地位。
前程序員律師發起集體訴訟:與盜版無異
與許多尖端人工智能技術一樣,Copilot通過分析大量數據來發展其技能。在這種情況下,它依賴于發布到互聯網上的數十億行計算機代碼。52 歲的 Butterick認為此過程等同于盜版,因為該系統不會展示任何版權來源。他的訴訟聲稱微軟及其合作者侵犯了數百萬、花費數年時間敲下原始代碼的程序員的合法權利。
這起訴訟被認為是對稱為“AI訓練”類技術的首次法律訴訟。通過大量公開數據進行訓練,讓ai學習并生成自己的產物,這是一種構建人工智能的方式,有望重塑科技行業。這些所謂產物包括畫作、文字、和代碼。近年來,許多藝術家、作家、專家和隱私活動家抱怨說,公司正在使用不屬于他們的數據來訓練他們的人工智能系統。
程序員兼律師馬修·巴特里克 (Matthew Butterick) 表示,他擔心自己所做的工作在新的人工智能系統中被不當使用。
在過去幾十年的技術發展中,這一訴訟并不是首例。在 1990 年代和 2000 年代,微軟與開源軟件的興起作斗爭,將其視為對公司業務未來的生存威脅。隨著開源的重要性與日俱增,微軟欣然接受它,后來還收購了開源程序員的家園——GitHub。
幾乎每一代新技術,甚至是在線搜索引擎,都面臨著類似的法律挑戰。通常,“沒有任何成文法或判例法對其有效,”專門研究這一法律領域的知識產權律師Bradley J. Hulbert說。
這起訴訟是人工智能發展途中的重要里程碑。藝術家、作家、作曲家和其他創意類型越來越擔心公司和研究人員在未經他們同意且不提供報酬的情況下使用他們的作品來創造新技術。公司以這種方式訓練各種各樣的系統,包括藝術生成器、 Siri 和 Alexa 等語音識別系統,甚至無人駕駛汽車。
Copilot 基于由 OpenAI 構建的技術,在微軟和 GitHub 發布 Copilot 后,GitHub 的首席執行官 Nat Friedman 在推特上表示,根據版權法,使用現有代碼來訓練系統是對材料的“合理使用”,構建這些系統的公司和研究人員經常使用這一論點。但目前還沒有法庭案件檢驗過這一論點。
“微軟和 OpenAI 的野心遠遠超出了 GitHub 和 Copilot,”Butterick在接受采訪時說。“他們想在任何地方免費訓練任何數據,無需同意,永遠。”
從GPT-3到Copilot,AI用開源數據訓練是否合法?
2020 年,OpenAI推出了一個名為 GPT-3 的系統。研究人員使用大量數字文本對系統進行訓練,其中包括數千本書籍、維基百科文章、聊天記錄和其他發布到互聯網上的數據。
通過精確定位所有文本中的模式,該系統學會了預測序列中的下一個單詞。當有人在這個“大型語言模型”中輸入幾個單詞時,它可以用整段文本來完成這個想法。通過這種方式,系統可以編寫自己的 Twitter 帖子、演講、詩歌和新聞文章。
令構建該系統的研究人員大吃一驚的是,它甚至可以編寫計算機程序,顯然是從互聯網上發布的無數程序中學到的。
因此,OpenAI 更進一步,在專門存儲代碼的新數據集合上訓練新系統Codex 。該實驗室后來在一份詳細介紹該技術的研究論文中表示,至少部分代碼來自 GitHub。
這個新系統成為 Copilot 的底層技術,微軟通過 GitHub 分發給程序員。在與相對較少的程序員進行了大約一年的測試后,Copilot 于 7 月在 GitHub 上向所有程序員推出。
目前,Copilot 生成的代碼很簡單,可能對更大的項目有用,但必須進行修改、擴充和審查,許多使用過該技術的程序員表示。有些程序員發現它只有在學習編碼或試圖掌握一門新語言時才有用。
盡管如此,Butterick還是擔心 Copilot 最終會摧毀全球程序員社區。系統發布幾天后,他發表了一篇博文,標題為:“這個Copilot很蠢,它想殺了我”。
Butterick 先生自稱為開源程序員,是與世界公開分享代碼的程序員社區的一員。在過去的 30 年里,開源軟件幫助推動了消費者每天使用的大多數技術的興起,包括網絡瀏覽器、智能手機和移動應用程序。
盡管開源軟件旨在在編碼人員和公司之間自由共享,但這種共享受許可證約束,旨在確保它的使用方式使更廣泛的程序員社區受益。Butterick 先生認為,Copilot 違反了這些許可證,并且隨著它的不斷改進,將使開源編碼器變得過時。
在公開吐槽這個問題幾個月后,他向其他幾位律師提起訴訟。該訴訟仍處于早期階段,尚未被法院授予集體訴訟地位。
令許多法律專家感到意外的是,Butterick的訴訟并未指控微軟、GitHub 和 OpenAI 侵犯版權。他的訴訟采取了不同的策略,認為這些公司違反了 GitHub 的服務條款和隱私政策,同時也違反了要求公司在使用材料時顯示版權信息的聯邦法律。
Butterick和訴訟背后的另一位律師喬·薩維里 (Joe Saveri) 表示,訴訟最終可能會解決版權問題。
當被問及公司是否可以討論這起訴訟時,GitHub 發言人拒絕了采訪,然后在一封電子郵件聲明中表示,該公司“從一開始就致力于通過 Copilot 進行負責任的創新,并將繼續改進產品,為全球開發人員提供最好的服務” 微軟和 OpenAI 拒絕就訴訟發表評論。
大多數專家認為,根據現行法律,在受版權保護的材料上訓練人工智能系統不一定違法。但這樣做可能是因為系統最終創建的材料與它所訓練的數據基本相似。
Copilot 的一些用戶表示,它生成的代碼似乎與現有程序相同(或幾乎相同),這一觀察結果可能成為 Butterick 先生和其他人案例的核心部分。
加州大學伯克利分校教授帕姆·薩繆爾森專門研究知識產權及其在現代技術中的作用,他說法律思想家和監管機構在技術出現之前的 80 年代簡要探討了這些法律問題。她說,現在需要進行法律評估。
“這不再是玩具問題,”薩繆爾森博士說。
Butterick還創建了一個網站,跟進訴訟情況,也呼吁更多人的支持,在網站文章中他強調:“我們反對的絕不是 AI 輔助編程工具,而是微軟在 Copilot 當中的種種具體行徑。微軟完全可以把 Copilot 做得更開發者友好——比如邀請大家自愿參加,或者由編程人員有償對訓練語料庫做出貢獻。但截至目前,口口聲聲自稱熱愛開源的微軟根本沒做過這方面的嘗試。另外,如果大家覺得 Copilot 效果挺好,那主要也是因為底層開源訓練數據的質量過硬。Copilot 其實是在從開源項目那邊吞噬能量,而一旦開源活力枯竭,Copilot 也將失去發展的依憑。”
相關素材:
https://archive.ph/3tuU0
https://githubcopilotinvestigation.com/