誰在發起抵制Copilot?代碼版權爭議不休,有開發者退出GitHub
GitHub Copilot 發布不足一周時間,卻引發了前所未有的爭議。此前,就有試用者發現了 Copilot 復制粘貼代碼的實錘,甚至帶著原代碼的「WTF」注釋,所謂「原生 AI 代碼生成工具」的宣傳顯得略微尷尬:
現在,這種矛盾似乎更進一步,已經有開發者站出來抵制 GitHub Copilot 了,并表示自己以后也不會再用 GitHub 平臺托管代碼:

「我不同意 GitHub 在未經授權和未經許可的情況下,使用受版權保護的源代碼作為其 Copilot 產品的訓練數據。該產品將受版權保護的源代碼放入使用者的軟件中,而不告知他們源代碼的許可,這導致了對版權所有者作品的未經授權和未經許可的不當使用。」
這位開發者認為,Copilot 產品的這個特點是對版權所有者權利的嚴重侵犯,因此他不再繼續使用 GitHub 的服務,轉為在 https://thelig.ht/code/ 上托管自己所有的開源編程工作。
Copilot 最受質疑的地方,一直是對原代碼的版權侵犯問題。有人曾在推特上公開討論:GitHub Copilot 難道不是將開發者的開源代碼清洗一番,然后轉化為自己的商業化產品?
GPL 協議的核心是要對源碼進行公開,但這并不意味著「沒有版權」,也不意味著可以被「不受限地復制」,而且代碼版權的保護不僅涉及復制和粘貼,同時也涵蓋衍生作品。
GitHub 公開表示過,GitHub Copilot 接受了大量 GPL 代碼的訓練,它所知道的所有內容和知識都是從這些代碼中提取的,不可能不包括「衍生」的部分。看起來,「它通常不會大塊復制」的說法不足以應對公眾質疑。

盡管人類開發者也會閱讀開源代碼并學習,但這和 AI 模型的「學習」完全不是一回事。至少人類會去理解抽象層面的知識并廣泛借鑒其他知識,而 AI 可能只是出于營銷目標。

「我真的厭倦了科技行業將神經網絡當作神奇黑箱的做法,利用它吐出一些全新的東西,然后將免費軟件視作理所當然的東西。與此同時,再支付 15 萬美元的薪水請人編寫廣告投放系統……」
有開發者說:「GitHub 抓取了你的代碼,幫你進一步訓練后再向你收取 Copilot 的費用。為了一家利用千萬開發者工作成果的公司,人們正在歡呼,這真令人失望。」

同樣的爭議,也曾發生在 GPT-3 等模型之上。人工智能時代的開源工作,正面對著全新的挑戰。說到底,建立簡單的自托管存儲庫,就能解決問題嗎?
有人就認為不必為此退出 GitHub,至少這個行為不能達成目標:「GitHub 可以從任何地方向它提供開源代碼,而且美國版權法允許這樣做。」

「總的來說,像 Copilot 這樣的工具是對人類有益的,我們需要更多而不是更少的分享。」
「即使自己托管,也會有人拿走你的代碼并將其上傳到 Github。很快,Github 存儲庫就會擁有比你的私人存儲庫更多的貢獻者。因此,不能通過簡單的自托管存儲庫來避免 Copilot 的侵犯。」

「唯一的選擇,就是對 GitHub 采取法律手段刪除這些存儲庫,不過這樣又費時又費錢。」
面對種種迎面而來的挑戰,個人開發者還有更好的辦法嗎?