成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Kaggle大神們都在用什么語言、框架、模型?這里有一份詳細統計

人工智能 架構
對于ML學習者和從業者來說,參加競賽是一個很好的鍛煉機會,還能賺取一些零花錢。那么,你知道哪個平臺比賽最多,成績比較好的那些團隊都在使用什么架構、什么模型嗎?在這篇文章中,一位名叫Eniola Olaleye的數據科學愛好者介紹了他們的統計結果。

統計網站:https://mlcontests.com/作者得出了幾個重要結論:

1、在所有競賽中,Kaggle上的競賽數量仍然占據1/3,而且獎金數量占270萬美元總獎金池的一半;
2、在所有比賽中,有67場比賽是在前5大平臺(Kaggle、AIcrowd、Tianchi、DrivenData 和 Zindi)上舉行的,有8場比賽是在去年只舉辦了一場比賽的平臺上舉行的;
3、幾乎所有的冠軍都使用了Python,只有一個冠軍使用了C++;
4、77%的深度學習解決方案使用了PyTorch(去年高達72%);
5、所有獲獎的CNN解決方案都使用了CNN;
6、所有獲獎的NLP解決方案都使用了Transformer。

以下是這次調查的詳細信息:

平臺類型

在本次調查中,作者總共統計了16個平臺上的83場競賽。這些競賽的總獎金池超過270萬美元,其中獎金最豐厚的比賽是由Driven data舉辦的Facebook AI Image Similarity Challenge: Matching Track,獎金高達20萬美元。

競賽類型

此次調查顯示,2021年最常見的競賽類型是計算機視覺和自然語言處理。與2020年相比,這部分變化很大,當時NLP競賽僅占競賽總數的7.5%。

在眾多NLP競賽中,Zindi與AI4D(Artificial Intelligence for Development Africa)合作舉辦的競賽數量最多,比賽內容包括將一種非洲語言翻譯成英語或其他語言以及針對一種非洲語言進行情感分析。

語言與框架

在這次調查中,主流的機器學習框架依然是基于Python的。Scikit-learn非常通用,幾乎被用于每個領域。

不出所料,兩個最流行的機器學習庫是Tensorflow和Pytorch。其中,Pytorch在深度學習比賽中最受歡迎。與2020年相比,在深度學習競賽中使用PyTorch的人數突飛猛進,PyTorch框架每年都在快速發展。


冠軍模型

監督學習

在經典機器學習問題中,Catboost、LightGBM等梯度提升模型占據主流。舉個例子,在一個室內定位和導航的Kaggle競賽中,選手需要設計算法,基于實時傳感器數據預測智能手機在室內的位置。冠軍解決方案考慮了三種建模方法:神經網絡、LightGBM和K-Nearest Neighbors。但在最后的pipeline中,他們只用LightGBM和K-Nearest Neighbours達到了最高分。

計算機視覺


自從AlexNet在2012年贏得ImageNet競賽以來,CNN算法已經成為很多深度學習問題都在用的算法,特別是在計算機視覺方面。

循環神經網絡和卷積神經網絡并不相互排斥。盡管它們似乎被用來解決不同的問題,但重要的是這兩個架構都可以處理某些類型的數據。例如,RNN使用序列作為輸入。值得注意的是,序列并不局限于文本或音樂。視頻是圖像的集合,也可以用作序列。循環神經網絡,如LSTM,被用于數據具有時間特征的情況(如時間序列),以及數據上下文敏感的情況(如句子補全),其中反饋循環的記憶功能是達到理想性能的關鍵。RNN還在計算機視覺的下列領域中得到了成功的應用:

  • 「日間圖片」與「夜間圖片」是圖像分類的一個例子(一對一RNN);
  • 圖像描述(一對多RNN)是根據圖像的內容為圖像分配標題的過程,例如「獅子獵鹿」;
  • 手寫體識別;

最后,RNN和CNN的結合是可能的,這可能是計算機視覺的最先進的應用。當數據適合CNN,但包含時間特征時,混合RNN和CNN的技術可能是有利的策略。

在其他架構中,EfficientNet脫穎而出,因為它專注于提高模型的準確性和效率。EfficientNet使用一種簡單而有效的技術——復合系數(compound coefficient)來放大模型,使用縮放策略創建了7個不同維度的模型,其精度超過了大多數卷積神經網絡的SOTA水平。

NLP

像2020年一樣,2021年NLP領域大型語言模型(如Transformer)的采用比例顯著增加,創歷史新高。作者找到了大約6個NLP解決方案,它們全都基于transformer。

獲勝團隊情況

作者在數據集中追蹤了35場比賽的獲勝者。其中,只有9人之前從未在比賽中獲獎。與2020年相比,可以看到贏得很多比賽的老參與者一次又一次獲勝,只有少數幾人首次得獎,在百分比上沒有真正明顯的變化。


優勢方案

在機器學習競賽的優勝方案中,集成模型成為了首選方法之一。集成方法中最常用的方法是求平均,即構建多個模型并通過將輸出和的平均值相加將其組合在一起,從而達到更穩健的性能。

在調整一個模型時,一旦你達到了一個收益率下降的點,通常最好重新開始構建一個產生不同類型錯誤的新模型,并將它們的預測求平均。

集成方法應用示例

在一個kaggle「木薯葉病分類」比賽中,選手要將木薯葉子圖像分類為健康或四類疾病。冠軍解決方案包括4個不同的模型CropNet、EfficientNet B4、ResNext50和Vit,并采用了平均方法。

獲勝者從ResNext和ViT模型中取類權重的平均值,并在第二階段將這種組合與MobileNet和EfficientnetB4結合。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-07-30 09:33:21

2018-02-08 08:35:23

區塊鏈食品安全食品供應商

2019-08-16 09:55:22

Pandas編程語言代碼

2020-03-30 11:32:49

IT技術面試

2018-04-19 14:42:48

深度學習DL數據集

2018-05-15 08:35:37

AI微軟人工智能

2020-04-22 16:21:57

HTTP3數據HTTP2

2019-04-16 13:13:56

碼農程序員開發

2020-11-16 11:10:21

代碼開發工具

2018-04-19 10:33:39

DevOps開源工具

2020-12-30 10:20:03

數據技術架構

2018-02-08 08:26:54

紅包春節支付寶

2018-01-02 16:42:42

iPhone電池Apple

2024-08-16 14:02:00

2023-04-28 15:41:08

模型ChatGPT

2023-03-21 09:44:34

模型AI

2018-04-02 11:22:31

大數據Hadoop數據處理

2022-01-25 15:00:07

AI技術趨勢

2023-07-27 08:59:19

線程同步Python
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 97色在线观看免费视频 | 九色在线观看 | 一区二区三区四区在线视频 | 国产伦精品一区二区三毛 | av先锋资源 | 国产精品久久久久久久久免费高清 | 国产成人jvid在线播放 | 青青草一区二区 | 精品粉嫩aⅴ一区二区三区四区 | 日本精品在线一区 | 91视频网| 国产日韩久久 | 日本视频在线播放 | 久久一区 | 亚洲精品一区二区 | 中文日韩在线视频 | 国产精品久久久久久久久久99 | 亚洲电影一区二区三区 | 久久久www成人免费精品 | 日韩中文字幕在线播放 | 成人精品在线观看 | 国产视频中文字幕 | 国内精品伊人久久久久网站 | 欧美精品综合在线 | 日韩视频91 | 日韩一区二区在线免费观看 | 人人亚洲 | 在线观看av网站永久 | 日韩在线视频播放 | 亚洲欧美在线一区 | 精品久久中文 | 大陆一级毛片免费视频观看 | www.亚洲视频.com| 国产精品a久久久久 | 久久亚洲二区 | 精品91久久| 久久99国产精品 | 亚洲福利一区 | 国产麻豆乱码精品一区二区三区 | 日韩精品一区二区三区在线播放 | 欧州一区二区 |