成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

合成數據會推動 AI/ML 訓練的未來嗎?

人工智能
合成數據可以幫助在現實生活中難以或危險地捕獲邊緣數據的情況下訓練 AI/ML 應用。

合成數據會推動 AI/ML 訓練的未來嗎?

毫無疑問,為訓練人工智能或機器學習 (AI/ML) 收集真實數據既耗時又昂貴。而且,很多時候也充滿了風險,但更常見的問題是數據太少或有偏見的數據可能會使企業組織誤入歧途。但是,如果你可以生成新數據,即所謂的合成數據呢?

這聽起來不太可能,但這正是Synthesis AI計劃從 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital 和 Kubera Venture Capital 等風險投資公司籌集的 1700 萬美元的 A 輪融資。

這是一個非常可靠的證據。該公司正計劃利用這這筆資金來擴大其在混合真實和合成數據領域的研發。

Synthesis AI 的首席執行官 Yashar Behzadi 在一份聲明中表示:“合成數據正處于采用的拐點,我們的目標是進一步開發該技術并推動計算機視覺系統構建方式的范式變革。該行業將很快在虛擬世界中全面設計和訓練計算機視覺模型,從而實現更先進和合乎道德的人工智能。”

但什么是合成數據?

合成數據是人工創建的,而不是從現實世界中收集的。當前,許多應用都專注于視覺數據,例如從計算機視覺系統收集的數據。盡管如此,沒有實際理由不能為其他用例創建合成數據,例如測試應用或改進用于檢測欺詐的算法。它們有點像物理記錄的高度結構化的數字孿生。

通過大規模提供海量、真實的數據集,數據科學家和分析師理論上可以跳過數據收集過程,直接進入測試或訓練。

這是因為創建真實世界數據集的大部分成本不僅僅是收集原始數據。以計算機視覺和自動駕駛汽車為例,汽車制造商和研究人員可以將各種攝像頭、雷達和激光雷達傳感器連接到車輛上進行收集,但原始數據對 AI/ML 算法沒有任何意義。同樣艱巨的挑戰是使用上下文信息手動標記數據,以幫助系統做出更好的決策。

讓我們來看看這個挑戰的背景:想象一下,你經常開一段很短的車,所有的停車標志、十字路口、停著的車、行人等等,然后想象一下,給每一個潛在的危險都貼上標簽是一項艱巨的任務。

合成數據的核心優勢在于,理論上,它可以創建完美標記的數據集,其規模足以正確訓練 AI/ML 應用,這意味著數據科學家可以在大量新地方突然測試他們的算法,然后才能真正實現世界數據或在難以獲取的情況下。繼續自動駕駛汽車的例子,數據科學家可以創建合成數據來訓練汽車在惡劣條件下駕駛,例如積雪覆蓋的道路,而無需派司機向北或進入山區手動收集數據。

合成數據的核心優勢在于,從理論上講,它可以在適當訓練AI/ML應用所需的規模上創建完美標記的數據集,這意味著數據科學家可以在獲得真實數據之前,或在難以獲得數據的情況下,突然在許多新的地方測試他們的算法。還是自動駕駛汽車的例子,數據科學家可以創建合成數據來訓練汽車在不利條件下駕駛,比如白雪覆蓋的道路,而無需讓司機一路向北或進入山區手動收集數據。

然而,合成數據存在先有雞還是先有蛋的問題,因為只能使用……更多數據和更多 AI/ML 算法來創建它。從“種子”數據集開始,然后將其作為合成創作的基準,這意味著它們只會與您開始使用的數據一樣好。

(無形)利益

有哪些數據科學家或研究人員不會從看似無窮無盡的數據生成器中獲益?其核心好處——能夠避免手動收集真實世界的數據——只是合成數據可以加速AI/ML應用的方式之一。

由于分析師和數據科學家可以嚴格控制種子數據,甚至可以額外努力納入多樣性,或與外部顧問合作發現和解碼偏見,他們可以對自己提出更高的標準。例如,Synthesis AI正在開發一種監測司機狀態的系統,并仔細地將不同的面孔包含在他們的計算機生成的合成數據集中,以確保現實世界的應用適用于每個人。

隱私是另一個潛在的勝利。如果一家公司花費數百萬英里來為他們的自動駕駛汽車收集真實世界的數據,他們就會收集到很多人認為是個人隱私的大量數據——尤其是他們的臉。像谷歌和蘋果這樣的大公司已經找到了在他們的地圖軟件中避免這些類型問題的方法,但他們的路線對于想要測試他們的算法的小型 AI/ML 團隊來說并不可行。

“企業還在努力解決與以人為本的產品中的模型偏見和消費者隱私相關的道德問題。很明顯,構建下一代計算機視覺需要一種新的范式,”該公司首席執行官兼創始人 Yashar Behzadi??對媒體表示??。

雖然合成數據確實依賴于種子才能開始,但可以對其進行調整和修改,以幫助在現實生活中難以或危險捕獲的邊緣情況下訓練 AI/ML 應用。自動駕駛汽車背后的公司希望擅長識別僅部分可見的物體或人,例如隱藏在卡車后面的停車標志,或站在兩輛車之間的行人沖上馬路。

考慮到這些勝利,盡管有些人擔心將偏見編碼到合成數據中的先有雞還是先有蛋的問題,Gartner??預測,到 2024??年,用于開發 AI 和分析產品的數據的 60% 將綜合生成。他們預測,大部分新數據將專注于在它們所基于的歷史數據失去相關性或基于過去經驗的假設失效的情況下修復預測模型。

但是總是需要收集一些真實世界的數據,所以我們距離被我們通用的、公正的自我的虛擬形象完全淘汰還有很長的路要走。

責任編輯:趙寧寧 來源: 千家網
相關推薦

2022-08-11 08:00:00

機器學習合成數據深度學習

2021-03-23 23:17:18

AI人工智能

2023-08-01 15:46:18

數據

2023-02-22 09:37:14

AI模型

2023-06-30 16:28:24

人工智能ML

2023-08-13 14:48:14

OpenAIAI模型

2025-06-04 03:00:00

人工智能AI智能訓練

2024-04-18 08:38:15

LLM數據訓練模型

2024-09-02 16:11:39

大數據

2017-12-06 09:30:24

邊緣計算云計算企業

2017-12-05 14:18:01

邊緣計算云計算AI

2025-06-04 09:15:16

2014-05-01 18:38:56

OpenPOWERPower開放

2023-02-23 07:46:48

學習模型數據倉庫

2022-11-08 07:40:55

2024-12-12 14:10:00

AI模型數據

2024-01-16 14:23:32

大數據人工智能AI

2025-04-15 09:08:51

系統數據模型

2019-05-07 15:49:27

AI人工智能藝術

2022-08-23 14:56:04

合成數據數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产黄色电影 | 黄篇网址 | 国产福利在线 | 欧美高清视频一区 | 黄色网毛片| 一级片免费视频 | 日日碰狠狠躁久久躁婷婷 | 国产日韩一区二区 | 狠狠色网 | 999观看免费高清www | 男人天堂网址 | 欧美操操操| 91精品国产综合久久久亚洲 | 国产欧美一级二级三级在线视频 | 国产美女精品视频 | 久久久夜 | 亚洲va在线va天堂va狼色在线 | 麻豆一区二区三区精品视频 | 日本精品视频一区二区三区四区 | www中文字幕 | 久久精品毛片 | 欧美一级黑人aaaaaaa做受 | 欧美成人a | 91av在线不卡 | 久久成人18免费网站 | 亚洲精品一区二区冲田杏梨 | www.伊人.com | 亚洲视频三区 | 欧美福利 | 久久亚洲综合 | 国产精品日韩欧美 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | 日韩欧美三级电影在线观看 | 精品欧美一区免费观看α√ | 欧美视频网 | 在线播放日韩 | 天天玩天天操天天干 | 国产日韩精品一区 | 国产精品美女久久久久久免费 | 嫩呦国产一区二区三区av | www久久久|