合成數據會推動 AI/ML 訓練的未來嗎？

作者：千家網 2022-06-13 11:18:08

合成數據可以幫助在現實生活中難以或危險地捕獲邊緣數據的情況下訓練 AI/ML 應用。

毫無疑問，為訓練人工智能或機器學習 (AI/ML) 收集真實數據既耗時又昂貴。而且，很多時候也充滿了風險，但更常見的問題是數據太少或有偏見的數據可能會使企業組織誤入歧途。但是，如果你可以生成新數據，即所謂的合成數據呢？

這聽起來不太可能，但這正是Synthesis AI計劃從 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital 和 Kubera Venture Capital 等風險投資公司籌集的 1700 萬美元的 A 輪融資。

這是一個非常可靠的證據。該公司正計劃利用這這筆資金來擴大其在混合真實和合成數據領域的研發。

Synthesis AI 的首席執行官 Yashar Behzadi 在一份聲明中表示：“合成數據正處于采用的拐點，我們的目標是進一步開發該技術并推動計算機視覺系統構建方式的范式變革。該行業將很快在虛擬世界中全面設計和訓練計算機視覺模型，從而實現更先進和合乎道德的人工智能。”

但什么是合成數據？

合成數據是人工創建的，而不是從現實世界中收集的。當前，許多應用都專注于視覺數據，例如從計算機視覺系統收集的數據。盡管如此，沒有實際理由不能為其他用例創建合成數據，例如測試應用或改進用于檢測欺詐的算法。它們有點像物理記錄的高度結構化的數字孿生。

通過大規模提供海量、真實的數據集，數據科學家和分析師理論上可以跳過數據收集過程，直接進入測試或訓練。

這是因為創建真實世界數據集的大部分成本不僅僅是收集原始數據。以計算機視覺和自動駕駛汽車為例，汽車制造商和研究人員可以將各種攝像頭、雷達和激光雷達傳感器連接到車輛上進行收集，但原始數據對 AI/ML 算法沒有任何意義。同樣艱巨的挑戰是使用上下文信息手動標記數據，以幫助系統做出更好的決策。

讓我們來看看這個挑戰的背景：想象一下，你經常開一段很短的車，所有的停車標志、十字路口、停著的車、行人等等，然后想象一下，給每一個潛在的危險都貼上標簽是一項艱巨的任務。

合成數據的核心優勢在于，理論上，它可以創建完美標記的數據集，其規模足以正確訓練 AI/ML 應用，這意味著數據科學家可以在大量新地方突然測試他們的算法，然后才能真正實現世界數據或在難以獲取的情況下。繼續自動駕駛汽車的例子，數據科學家可以創建合成數據來訓練汽車在惡劣條件下駕駛，例如積雪覆蓋的道路，而無需派司機向北或進入山區手動收集數據。

合成數據的核心優勢在于，從理論上講，它可以在適當訓練AI/ML應用所需的規模上創建完美標記的數據集，這意味著數據科學家可以在獲得真實數據之前，或在難以獲得數據的情況下，突然在許多新的地方測試他們的算法。還是自動駕駛汽車的例子，數據科學家可以創建合成數據來訓練汽車在不利條件下駕駛，比如白雪覆蓋的道路，而無需讓司機一路向北或進入山區手動收集數據。

然而，合成數據存在先有雞還是先有蛋的問題，因為只能使用……更多數據和更多 AI/ML 算法來創建它。從“種子”數據集開始，然后將其作為合成創作的基準，這意味著它們只會與您開始使用的數據一樣好。

（無形）利益

有哪些數據科學家或研究人員不會從看似無窮無盡的數據生成器中獲益?其核心好處——能夠避免手動收集真實世界的數據——只是合成數據可以加速AI/ML應用的方式之一。

由于分析師和數據科學家可以嚴格控制種子數據，甚至可以額外努力納入多樣性，或與外部顧問合作發現和解碼偏見，他們可以對自己提出更高的標準。例如，Synthesis AI正在開發一種監測司機狀態的系統，并仔細地將不同的面孔包含在他們的計算機生成的合成數據集中，以確保現實世界的應用適用于每個人。

隱私是另一個潛在的勝利。如果一家公司花費數百萬英里來為他們的自動駕駛汽車收集真實世界的數據，他們就會收集到很多人認為是個人隱私的大量數據——尤其是他們的臉。像谷歌和蘋果這樣的大公司已經找到了在他們的地圖軟件中避免這些類型問題的方法，但他們的路線對于想要測試他們的算法的小型 AI/ML 團隊來說并不可行。

“企業還在努力解決與以人為本的產品中的模型偏見和消費者隱私相關的道德問題。很明顯，構建下一代計算機視覺需要一種新的范式，”該公司首席執行官兼創始人 Yashar Behzadi??對媒體表示??。

雖然合成數據確實依賴于種子才能開始，但可以對其進行調整和修改，以幫助在現實生活中難以或危險捕獲的邊緣情況下訓練 AI/ML 應用。自動駕駛汽車背后的公司希望擅長識別僅部分可見的物體或人，例如隱藏在卡車后面的停車標志，或站在兩輛車之間的行人沖上馬路。

考慮到這些勝利，盡管有些人擔心將偏見編碼到合成數據中的先有雞還是先有蛋的問題，Gartner??預測，到 2024??年，用于開發 AI 和分析產品的數據的 60% 將綜合生成。他們預測，大部分新數據將專注于在它們所基于的歷史數據失去相關性或基于過去經驗的假設失效的情況下修復預測模型。

但是總是需要收集一些真實世界的數據，所以我們距離被我們通用的、公正的自我的虛擬形象完全淘汰還有很長的路要走。

責任編輯：趙寧寧來源：千家網

合成數據 AI ML

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

合成數據會推動 AI/ML 訓練的未來嗎？

但什么是合成數據？

（無形）利益