谷歌剛剛發布了2500萬個免費數據集,快來了解一下
注意:谷歌的新數據集搜索工具已于2020年1月23日問世。
疫情防控階段,大家的“寒假“越過越長,這么“長”時間的寒假能做些什么呢?
最近,谷歌發布了免費工具datasetsearch,它可以搜索2500萬個公開可用的數據集。
搜索工具包括過濾器,可基于許可證(免費或付費)、格式(csv,圖像等)和更新時間限制結果。
結果還包括對數據集內容的描述以及作者的引用。
谷歌的數據集聚合方法不同于其他數據集存儲庫(如亞馬遜的開放數據注冊表)。與其他自行管理和托管數據集的存儲庫不同,谷歌不會直接管理或提供2500萬個數據集的訪問權限。
取而代之的是,谷歌依靠數據集發布者,使用 schema.org的開放標準描述其數據集的元數據。然后,谷歌索引元數據,并使其在發布者之間可搜索。
發布者仍需自己托管數據集,因此符合schema.org標準的營利性發布者也將使用谷歌為其數據集建立索引。根據以往經驗,筆者發現,搜索與市場相關的數據集時,其百分比更高,搜索結果中約有一半的數據集來自營利性聚合器。
該平臺上其他受歡迎的數據集發布者包括政府機構和研究機構。谷歌聲稱,僅美國政府機構就已經發布了超過200萬個數據集。
據谷歌統計,大多數數據集涉及”地球科學、生物學和農業領域。”
簡單使用schema.org的開放標準即可發布自己的數據集。越來越多的出版商遵守該標準,公開可用的數據集的數量可能會持續增長。
目前,谷歌未提供用于搜索或下載免費數據集的API。
網上數百萬個數據集出沒
在網絡上,用戶感興趣的任何主題,幾乎都有數百萬個數據集。如果想購買一只小狗,可以查找數據集來匯總買家的投訴或查找對小狗認知度的研究?;蛘?,如果喜歡滑雪,可以查找有關滑雪勝地收入或受傷率及受傷人數的數據。Dataset Search 已為其中近2500萬個數據集建立了索引,可以在一個地方搜索數據集并查找指向數據所在位置的鏈接。在過去一年里,人們對其進行嘗試并提供了反饋,現在DatasetSearch正式退出測試版。
查詢“滑雪”的一些搜索結果,涉及最快滑雪者的速度以及滑雪勝地收入的數據集。
Dataset Search有何創新之處?
根據從DatasetSearch早期試用版中得到的反饋,開發者添加了新功能?,F在,根據所需的數據集類型(例如表格、圖像、文本)或是否可以從提供商處免費獲得數據集,就可以過濾結果。如果數據集是關于某個地區的,可以查看地圖。另外, 該產品現在可以在移動設備上使用,并且數據集描述的質量得到了極大改善。然而,一件事情沒有改變:發布數據的任何人都可以使用開放標準(schema.org)在自己的網頁上描述其數據集的屬性,從而使人們在搜索中可以發現數據集。
開發者還了解到有不同類型的人在尋找數據。有一些學術研究人員正在尋找可以支持其假設的數據(例如:嘗試催產素)、學生查找表格形式并涵蓋其高級論文主題的免費數據(例如:嘗試使用相應過濾器的監禁率)、業務分析師和數據科學家尋找有關移動應用程序或快餐店等的信息。所有這些都有數據!用戶都搜索什么呢?最常見的查詢包括“教育”、“天氣”、“癌癥”,“犯罪”、“足球”和“狗”。
上圖為查詢“快餐店”的一些搜索結果。
在Dataset Search里有哪些數據集?
Dataset Search還提供了網上數據的快照。此處有一些亮點。數據集涵蓋的最大主題是地球科學、生物學和農業。世界上大多數國家的政府都會發布數據,并使用schema.org對其進行描述。美國可用的開放政府數據集超過200萬,在數量上遙遙領先。最受歡迎的數據格式是什么?用戶可以在DatasetSearch中找到超過600萬張表格。
在Dataset Search中找到的數據集數量持續增加。如果站點上有一個數據集,并使用開放標準schema.org對其進行了描述,其他人可以在DatasetSearch中找到它。如果知道一個數據集存在,但是在DatasetSearch中找不到它,請要求提供者添加schema.org描述,其他人也將了解他們的數據集。
未來何去何從?
DatasetSearch已退出測試版,但無論產品是否有“測試版”,改進都將繼續。快下載體驗DatasetSearch吧!