數據管理是生成式人工智能健康發展的關鍵
2023年成為人工智能時代的正式開端,幾乎每個人都在談論ChatGPT。
像ChatGPT這樣的生成式人工智能語言模型吸引了我們的目光和興趣,因為我們第一次能夠看到人工智能像真人一樣與我們進行對話,并生成我們認為有創意的文章、詩歌和其他新內容。生成型人工智能解決方案似乎充滿了更快、更好的創新、生產力和價值實現的突破性潛力。然而,它們的局限性尚未得到廣泛關注,它們的數據隱私和數據管理最佳實踐也未得到廣泛理解。
最近,由于對人工智能技術的使用缺乏了解和足夠的監管,科技和安全界的許多人發出了警告。我們已經看到了對人工智能工具輸出的可靠性、IP(知識產權)和敏感數據泄露以及侵犯隱私和安全的擔憂。
三星與ChatGPT的事件成為頭條新聞,此前這家科技巨頭無意中將自己的秘密泄露給了人工智能。并非只有三星:Cyberhaven的一項研究發現,4%的員工將敏感的企業數據放入了大型語言模型中。許多人不知道,當他們用公司數據訓練模型時,人工智能公司可能能夠在其他地方重用這些數據。
網絡安全情報公司Recorded Future透露:“在ChatGPT發布的幾天內,我們在暗網和特殊訪問論壇上發現了許多威脅參與者,他們共享有缺陷但功能強大的惡意軟件、社會工程教程、賺錢計劃等,所有這些都是通過使用ChatGPT實現的。”
在隱私方面,當個人注冊像ChatGPT這樣的工具時,它可以像今天的搜索引擎一樣訪問IP地址、瀏覽器設置和瀏覽行為。但風險更高,因為“未經個人同意,它可能會披露政治信仰或性取向,并可能意味著尷尬甚至毀掉職業生涯的信息被發布。”私人互聯網接入公司的工程總監Jose Blaya說。
顯然,我們需要更好的法規和標準來實施這些新的人工智能技術。但是,關于數據治理和數據管理的重要作用,卻缺乏討論——但這在企業采用和安全使用人工智能方面發揮著關鍵作用。
一切都與數據有關
以下是我們應該關注的三個領域:
數據治理和訓練數據的透明度:一個核心問題圍繞著專有的預訓練人工智能模型或大型語言模型(LLM)。使用LLM的機器學習程序包含了來自許多不同來源的大量數據集。問題是,LLM是一個黑匣子,它對源數據幾乎沒有透明度。我們不知道這些來源包含欺詐數據,是否包含PII(個人身份信息),是否可信、無偏見、準確或合法。LLM研發公司并不共享其源數據。
《華盛頓郵報》分析了谷歌橫跨1500萬個網站的C4數據集,發現了數十個令人不快的網站,其中包含煽動性和PII數據以及其他可疑內容。我們需要數據治理,這需要所使用的數據源的透明度以及這些來源所含知識的有效性/可信度。例如,你的人工智能機器人可能正在對未經核實的來源或假新聞網站的數據進行培訓,從而對其知識產生偏見,而這些知識現在已成為你公司新政策或研發計劃的一部分。
數據隔離和數據域:目前,不同的人工智能供應商在如何處理你提供的數據有不同的隱私政策。無意中,員工可能會在他們的提示中向LLM提供數據,而不知道該模型可能會將數據納入其知識庫。公司可能會在不知情的情況下將商業秘密、軟件代碼和個人數據暴露給世界。
一些人工智能解決方案提供了變通方法,如采用API,通過將您的數據排除在預先訓練的模型之外來保護數據隱私,但這同時限制了人工智能的功能價值。因為理想的用例是在保持數據隱私的同時,用你特定情況數據增強預先訓練的模型。
一個解決方案是讓經過預訓練的人工智能工具理解數據“域”的概念。培訓數據的“通用”域用于預培訓,并在通用應用之間共享,而基于“專有數據”的培訓模型則安全地限制在組織的邊界內。數據管理可以確保創建和保留這些邊界。
人工智能的衍生作品:數據管理的第三個領域涉及人工智能過程及其最終所有者產生的數據。比方說,使用人工智能機器人來解決編碼問題。如果某件事做得不正確,導致出現錯誤或錯誤,通常我們會知道誰做了什么來調查和修復。但有了人工智能,組織很難界定人工智能執行的任務所產生的任何錯誤或不良結果由誰負責——你不能責怪機器:在某種程度上,是人為造成了錯誤或糟糕的結果。
更復雜的問題是IP,你擁有用生成人工智能工具創作的作品的IP嗎?你會在法庭上如何辯護?據《哈佛商業評論》報道,藝術界已經開始對某些人工智能應用提起索賠訴訟。
現在要考慮數據管理策略
在早期,我們不知道人工智能在壞數據、隱私和安全、知識產權和其他敏感數據集的風險方面有什么不知道的。人工智能也是一個廣泛的領域,有多種方法,如LLM、基于業務流程邏輯的自動化,這些只是通過數據治理政策和數據管理實踐的結合來探索的一些主題:
暫停對生成人工智能的實驗,直到你有了一個監督戰略、政策、以及降低風險和驗證結果的程序。
納入數據管理指導原則,首先要對自己的數據有一個堅實的了解,無論數據駐留在哪里。您的敏感PII和客戶數據在哪里?你有多少IP數據,這些文件位于哪里?你能監控使用情況,以確保這些數據類型不會被無意中輸入人工智能工具,并防止安全或隱私泄露嗎?
不要向人工智能應用程序提供超出所需的數據,也不要共享任何敏感的專有數據。鎖定/加密IP和客戶數據以防止其被共享。
了解人工智能工具如何以及是否可以對數據源透明。
供應商能否保護您的數據?谷歌在其博客中分享了這一聲明,但“如何”尚不清楚:“無論一家公司是在Vertex AI中培訓模型,還是在Generative AI App Builder上建立客戶服務體驗,私人數據都是保密的,不會在更廣泛的基礎模型培訓語料庫中使用。”閱讀每個人工智能工具的合同語言,了解你提供給它的任何數據是否可以保密。
標記業主、委托項目的個人或部門衍生作品的數據。這很有幫助,因為你可能最終要對你公司制作的任何作品負責,你想知道人工智能是如何融入這個過程的,是由誰參與的。
確保域之間數據的可移植性。例如,一個團隊可能想要剝離其IP和識別特征的數據,并將其輸入到通用訓練數據集中以供將來使用。這一過程的自動化和跟蹤至關重要。
隨時了解正在制定的任何行業法規和指導方針,并與其他組織的同行交談,了解他們如何應對風險緩解和數據管理。
在開始任何生成式人工智能項目之前,請咨詢法律專家,以了解數據泄露、隱私和IP侵犯、惡意行為者或虛假/錯誤結果時的風險和流程。
企業中人工智能的實用方法
人工智能發展迅速,前景廣闊,有可能以前所未有的速度加速創新、削減成本和改善用戶體驗。但與大多數強大的工具一樣,人工智能需要在正確的背景下謹慎使用,并設置適當的數據治理和數據管理護欄。人工智能的數據管理尚未出現明確的標準,這是一個需要進一步探索的領域。同時,企業在使用人工智能應用程序之前,應謹慎行事,確保清楚了解數據暴露、數據泄露和潛在的數據安全風險。