采用AIGC系統可能會改變企業的云架構
如果你正在構建一個云架構,同時也在設計高性能的AI系統,你需要做些什么不同的事情?你需要什么才能做到這一點呢?新興的最佳實踐是什么?以下是我的建議:
了解你的用例
明確定義你的云架構中AIGC的目標。如果我反復看到任何錯誤,那就是沒有理解商業系統中AIGC的含義。了解你的目標是什么,無論是內容生成、推薦系統還是其他應用程序。
這意味著寫下東西,在目標上找到共識,如何實現目標,最重要的是,如何定義成功。這并不是只有AIGC才有的;這是每一次遷移和構建在云中的全新系統成功的一步。
我看到云中的整個AIGC項目都失敗了,因為它們沒有很好地理解業務用例。公司創造的東西很酷,但不會給企業帶來任何價值,這是行不通的。
數據來源和質量是關鍵
通過AIGC模型識別訓練和推理所需的數據源。數據必須是可訪問的,良好的質量,并仔細管理。你還必須確保云存儲解決方案的可用性和兼容性。
AIGC系統高度以數據為中心。我會稱它們為面向數據的系統,數據是推動AIGC系統成果的燃料。垃圾進,垃圾出。
因此,它有助于將數據可訪問性作為云架構的主要驅動因素。你需要訪問大多數相關數據作為訓練數據,通常將其保留在其存在的位置,而不是將其遷移到單個物理實體。否則,你最終會得到冗余的數據,沒有單一的真理來源。在將數據送入AI模型之前,考慮使用高效的數據管道對數據進行預處理和清理,這確保了數據質量和模型性能。
這大約是使用AIGC的云架構成功的80%。然而,它最被忽視,因為云架構師更多地關注AIGC系統處理,而不是向這些系統提供數據。數據就是一切。
數據安全和隱私
正如數據很重要一樣,應用于該數據的安全和隱私也很重要。AIGC處理可能會將看似毫無意義的數據變成可能會暴露敏感信息的數據。
實施強大的數據安全措施、加密和訪問控制,以保護AIGC使用的敏感數據和AIGC可能生成的新數據,至少要遵守相關的數據隱私法規,這并不意味著將某些安全系統固定在你的體系結構上作為最后一步,必須在每一步都將安全性融入到系統中。
可伸縮性和推理資源
規劃可擴展的云資源以適應不同的工作負載和數據處理需求。大多數公司都在考慮自動伸縮和負載平衡解決方案。我看到的一個嚴重的錯誤是,建立了規模很大、但成本高昂的體系。最好在可伸縮性和成本效益之間取得平衡,這是可以做到的,但需要良好的體系結構和FinOps實踐。
此外,還應檢查培訓和推理資源。我想你已經注意到,云會議上的許多新聞都是圍繞這個主題的,而且有很好的理由。選擇合適的具有GPU或TPU的云實例進行模型訓練和推理。再次,優化資源配置以實現成本效益。
考慮型號選擇
選擇示范性的AIGC架構(一般對抗性網絡、轉換器等)。基于你的特定用例和需求。考慮使用云服務進行模型培訓,如AWS SageMaker等,并找到優化的解決方案。這也意味著你要明白,你可能有很多相互連接的模型,這將是常態。
實施強大的模型部署策略,包括版本化和容器化,以使你的云架構中的應用程序和服務可以訪問AI模型。
監控和日志記錄
設置監控和日志記錄系統以跟蹤AI模型的性能、資源利用率和潛在問題不是可選的。建立異常警報機制以及為處理云中的AIGC而構建的可觀察性系統。
此外,持續監控和優化云資源成本,因為AIGC可能是資源密集型的。使用云成本管理工具和實踐。這意味著讓FinOps監控你的部署的所有方面——最低限度地提高運營成本效益和架構效率,以評估你的架構是否最優。大多數架構都需要調整和持續改進。
其他考慮事項
需要故障轉移和冗余來確保高可用性,災難恢復計劃可以最大限度地減少系統故障時的停機時間和數據丟失,在必要時實施冗余。此外,定期審計和評估你的AIGC系統在云基礎設施中的安全性,彌補漏洞并維護合規性。
為AI的道德使用建立指導方針是一個好主意,特別是在生成影響用戶的內容或做出影響用戶的決策時。解決偏見和公平問題,目前有關于AI和公平的訴訟,你需要確保你做的是正確的事情。持續評估用戶體驗,以確保AI生成的內容符合用戶預期并增強參與度。
無論你是否使用AIGC,云計算架構的其他方面都大同小異。關鍵是要意識到,有些事情要重要得多,需要有更嚴格的要求,總有改進的空間。