成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這個比肩ImageNet的數據集遭MIT緊急下架,原因令人憤怒

新聞 人工智能
就在這周,麻省理工學院緊急下架了Tiny Images數據集。原因很簡單,有學者研究指出,這個通過大量搜索引擎整合的數據集,內里竟然隱藏著諸多令人不齒的標簽。

 本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

就在這周,麻省理工學院緊急下架了Tiny Images數據集。

原因很簡單,有學者研究指出,這個通過大量搜索引擎整合的數據集,內里竟然隱藏著諸多令人不齒的標簽:兒童猥褻、性暗示、種族歧視……

而這些圖像的標簽(b***h,w**re),則帶有強烈的偏見和反人道的意味。

這個比肩ImageNet的數據集遭MIT緊急下架,原因令人憤怒

△ 從統計數據來看,包含這類標簽的圖片達成千上萬張

如果含有這樣的標簽和圖像的數據集被用于訓練AI,后果將不堪設想。

然而局面似乎已經無法挽回:由于這個數據集主打微小圖像,且圖片數量龐大,在當年計算機硬件還不發達時,曾被廣泛用于AI訓練,在arXiv上屬于高引用論文。

Reddit上針對此事的說法不一。

有網友認為,這件事有點小題大做的意思。畢竟這些通過網絡搜集到的圖片、文本信息,也是真實世界的一部分。

這個比肩ImageNet的數據集遭MIT緊急下架,原因令人憤怒


在我看來,這有點「道德恐慌」了。難道會有人覺得用來訓練GPT-3的接近1TB的開放式網絡文本信息里沒有任何冒犯性的內容?


但也有支持的網友拍手稱快。

這個比肩ImageNet的數據集遭MIT緊急下架,原因令人憤怒


MIT干得好!


除了這類情緒化的觀點,很多人也開始理性思考這種數據集形成的原因。

這是不是制作數據集的作者們無暇抽空檢查導致的?

這個比肩ImageNet的數據集遭MIT緊急下架,原因令人憤怒


這些機器學習的研究人員在處理圖像的時候,難道不會設置一下搜索過濾嗎?就我經驗來看,有些制作不精的數據集在沒時間檢查的情況下就發布了。


很快有網友否認了這種觀點,因為Tiny Images不屬于這種情況。

這個比肩ImageNet的數據集遭MIT緊急下架,原因令人憤怒


我認識原作者,情況不是你想的那樣。我覺得,作者只是沒有像我們今天這樣考慮這么多,他們在利用搜索引擎整合圖片的時候,可能沒想過要對標簽列表進行過濾。


無論網友抱持有何種觀點,目前這個數據集的下架都已是不爭的事實。

哪怕是比Tiny Images更有影響力的數據集ImageNet,在這次研究中也被指出存在部分令人不適的圖片,但沒有Tiny Images數量這么龐大。

有學者指出,ImageNet維護者眾多、且圖像分類明確,與之相比,Tiny Images則幾乎從未被仔細檢查過。

到底是什么原因,使得這么多年來,Tiny Images數據集一直少有人工清查?

這個問題,可能還得從Tiny Images自身的特性說起。

Tiny Images數據集的特點

Tiny Images數據集自2006年問世后,至今已包含5萬多個WordNet中的不同標簽。

數據集中的圖像,來源于搜索引擎搜索標簽、并自動下載所搜到的圖片。

整理后的圖像數量達8000萬張,每張都以非常低的分辨率(32×32)保存在數據集中,形成了Tiny Images數據集的特色:數量龐大,圖像微小

然而,正是由于圖像數量過于龐大,導致這些令人反感的圖像隱藏太深;而低分辨率,則會導致這些圖像難以被視覺識別。

下架時,麻省理工學院給出了官方說明。

由于我們無法保證,能徹底刪除Tiny Images中所有令人反感的圖像,所以將它下線了。

同時,也希望網上不要再傳播已有的Tiny Images數據集副本。

將Tiny Images下架的最重要的原因,是因為這些帶有強烈偏見的、令人反感的標簽所標注的圖像,與我們計算機視覺行業致力于達成的包容、無偏見的價值觀背道而馳。

不僅如此,采用這些標簽進行訓練后的AI模型,可能會在圖像分類或目標檢測時,將這些隱含的反人道標簽用于目標識別中。

為什么會使AI產生偏見

無論是Tiny Images還是ImageNet,這次都栽在了一個叫WordNet的分類詞庫上。

詞庫以其強大的詞義關聯性著稱,會根據各種單詞的意義,將不同的詞組成各式各樣的集合,最終構成一個詞庫網。

例如,WordNet會將「比基尼」、「色情」和「whore」(貶義)等單詞關聯到一起,如果在搜索引擎上進行圖像搜索,所獲得的圖片會帶有強烈的偏見色彩。

這個比肩ImageNet的數據集遭MIT緊急下架,原因令人憤怒

△ 「whore」標簽的圖像下可能僅僅是一個穿著比基尼的女人

不可避免的是,WordNet中會收錄許多帶有貶義和偏見標簽的圖片,如果在使用這些圖片進行訓練時,沒有對標簽進行過濾,訓練后的AI就可能會利用這些標簽,戴上「有色眼鏡」識人。

ImageNet以其知名度和做得較好的圖像分類,較為幸運地得到了比較良好的維護,與之相比,Tiny Images中許多帶貶義標簽的圖像卻因為低分辨率難以被識別。

這就導致了這次的緊急下線。

但正如某些網友所說,無論如何,制作無任何偏見的數據集,本身就是良好的AI訓練不可或缺的一部分。

目前,許多最新的數據集也在不斷致力于以各種方式,接近這種「無偏見」的目標。

Tiny Images作者介紹

[[332095]]

△ 作者Antonio Torralba

Antonio Torralba,麻省理工學院的副教授,主要研究方向為計算機視覺和機器學習,Tiny Images是他與另外兩位作者,經過8個月時間整理出來的微型圖像數據集。

??

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-07-19 10:55:43

數據庫工具技術

2022-05-20 10:45:37

Gitee開源

2017-01-19 19:46:21

Opera Prest代碼瀏覽器

2014-05-29 11:04:14

Windows 8操作系統

2024-05-21 13:15:07

2023-06-19 12:28:21

GPT人工驗證數據集

2020-09-21 09:50:41

微信禁令系統

2023-05-23 08:00:00

數據集ImageNet算法

2020-10-26 10:04:50

GitHub代碼開源

2012-02-06 17:14:05

360APP Store隱私

2023-08-21 14:09:17

2018-04-19 08:58:51

App蘋果JavaScript

2025-01-09 10:55:53

2012-08-29 09:50:05

憤怒的小鳥免費

2020-03-11 11:00:28

病毒惡意軟件疫情

2012-11-26 09:53:48

亞馬遜云計算私有云

2024-07-15 09:00:00

2012-10-09 10:44:49

大數據管理大數據服務器

2025-02-26 15:06:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日噜噜夜夜爽爽狠狠 | 欧美最猛黑人xxxⅹ 粉嫩一区二区三区四区公司1 | 久久三级av | 亚洲一区二区在线 | 欧美日韩专区 | 日本三级电影在线看 | 欧美性生活一区二区三区 | 日日夜夜免费精品 | 国产一伦一伦一伦 | 99精品视频免费观看 | 久久久久久高潮国产精品视 | 国产高清精品一区二区三区 | 91免费在线视频 | 久久久免费精品 | 又爽又黄axxx片免费观看 | 国产视频一区二区三区四区五区 | 视频一区在线观看 | 欧美精品欧美精品系列 | 国产激情精品一区二区三区 | 一区久久 | 午夜91 | 国产免费一区二区三区 | 九九热在线视频免费观看 | 亚洲欧美日韩中文在线 | 久久人人国产 | 国产高清自拍视频在线观看 | 国产福利91精品一区二区三区 | 国产精品久久国产精品 | 成人福利视频网站 | 超碰97免费在线 | 一区二区三区四区免费在线观看 | 二区成人| 中文字幕加勒比 | 91久久精品一区二区二区 | 国产一区二区欧美 | 亚洲精品免费视频 | 欧美一卡二卡在线观看 | 久久精品二区亚洲w码 | 欧美一二区| 人人cao| 中文字幕乱码亚洲精品一区 |