2021年進入AI和ML領域之前需要了解的10件事
用新奇的人工智能算法解決復雜的問題,再加上一份不錯的薪水,聽起來很有吸引力。很多公司都加入了宣傳的行列,現在提供在不到一年的時間里學習數據科學/AI/ML的新兵訓練營。在加入這樣的訓練營或轉向機器學習之前,請考慮以下10件事。

已經是2021年了,但是工作頭銜還沒有明確定義并且所需技能差異很大
在初創(chuàng)企業(yè)注意到人工智能現在是一個有力的流行語之后,他們開始將現有的工作機會從數據分析師/統(tǒng)計學家重命名為數據科學家或其他相關人員。 職位聽起來更性感,因此他們獲得了更多的職位申請。
但是如果你讀了招聘啟事,你會注意到有些角色完全不同。有些需要業(yè)務分析師,用SAS, SPSS回答問題。有些人想要數據工程師構建大數據Hadoop系統(tǒng),有些人想要使用TensorFlow和神經網絡的深度學習研究人員,但他們可能都稱他們?yōu)閿祿茖W家。所有這些類型都非常不同,需要不同的技能。近年來,這些類型出現了:數據科學家(高級分析)、機器學習工程師、數據工程師和應用科學家/研究人員。
畢業(yè)生并不短缺
如前所述,很多人都想成為數據的魔術師。不僅是計算機科學家、物理學家和數學家,還有經濟學家、心理學家和其他有定量背景的自然科學家。問題是,大多數公司并不尋找應屆畢業(yè)生,有些公司甚至不知道他們在尋找什么都不知道。有些人可能希望雇傭一個數據科學家來解決他們所有的問題。因為他們并不真正了解這些要求,所以他們雇傭了剛畢業(yè)的大學生或新兵訓練營的畢業(yè)生,把所有的流行語都寫在了他們的簡歷上。85%的工作計劃可能會失敗,其中一個原因可能就是因為這個。此外,據techrepublic稱,對數據科學家的需求在2019年已經開始萎縮。今天你可以從年輕的數據科學家那里知道了很多失望,問題,找工作困難等(COVID也是原因之一)
可能會出現技能短缺,但不會出現應聘者短缺。數據科學領域的入門級或實習職位收到數百名申請者的情況并不少見。當雇主談到人才短缺時,他們通常指的是缺乏有經驗的專業(yè)人士。
沒有學位是很難的
在沒有任何學術教育背景的情況下獲得一份數據工作的想法是大膽的。如果你是一個天才或者幸運兒的話,這是可能的,但一般來說,你幾乎不會得到面試電話。人工智能涉及統(tǒng)計學和數學,通常這兩方面是研究中最難的部分。你可能不需要所有這些,但通常你不是唯一的申請者,你要和擁有博士學位的人競爭。所有這些mooc和訓練營不可能在幾個月內教你基本知識,你需要更多的時間。閱讀招聘廣告,你會注意到大部分碩士甚至博士都是加分項,這取決于職位。考慮到這一點,這很難,但不是不可能。
88%至少擁有碩士學位,46%擁有博士學位。
應用機器學習構建數據集
Kaggle挑戰(zhàn)和大學課程有一個共同之處,這在工業(yè)中是基本不存在的的:一個數據集是可用的和準備好的。學習探索,數據預處理和建模是絕對有意義的,并且在實際工作的很大一部分是要做這些工作。如果機器學習能帶來價值,那么它是值得的,但它需要你進行大量的觀察和實驗,直到你得到良好的結果,甚至需要更長的時間,直到你得到干凈的數據。如果你是一個完美主義者,而你的挫折容忍度很低,不要去應用機器學習,它會讓你發(fā)瘋。
深度學習并沒有被廣泛采用
神經網絡讓人工智能在過去幾年中流行起來,但它們也有一些缺點。他們很難訓練和構建,他們需要很多時間來調整,他們容易過度擬合,計算強度非常高。基礎設施正在改善,但仍然沒有達到應有的水平。如果你想使用神經網絡,請不要選擇成為該行業(yè)的數據科學家。很少有公司使用神經網絡,因為它太神奇了,在很多情況下,傳統(tǒng)的方法已經足夠好了。如果你想要使用深度學習,那么就把重點放在學術和研究上,或者擴展專注于ANNs的初創(chuàng)公司。
對人工智能的看法是錯誤的
人工神經網絡的靈感來自大腦,但它們離大腦還很遠。我不認為人工智能能與人類競爭。公眾和科學界對人工智能的看法截然不同。問題是很難解釋為什么ai玩《dota2》,deepfakes或作曲,但仍然不“智能”。似乎被遺忘的是,人工智能仍然是模式識別,如果某些模式發(fā)生變化,它很快就會失敗。它不會理解,它不會思考,它也沒有夢想。你可能會被問到,為什么你的AI系統(tǒng)不能做XYZ,你可能無法修復它。現在解釋一下,為什么人工智能可以在圍棋中擊敗世界冠軍,卻不能學會如何預測一些“簡單”的商業(yè)問題。
很多AI實際上不是人工智能
2019年有一項關于歐洲人工智能初創(chuàng)企業(yè)的研究。他們基本上發(fā)現40%的人工智能初創(chuàng)公司根本沒有使用人工智能。有些人甚至雇傭人類來偽造人工智能。原因很簡單。人工智能系統(tǒng)需要數據、時間和人力來構建,成本很高。有時候,讓人來做更容易、更便宜。不要做那種“給東西貼標簽”的人,怎么就這樣證明你的初創(chuàng)公司有人工智能方面的專業(yè)知識呢?對數據科學的職位招聘要持懷疑態(tài)度,在加入他們之前詢問他們的數據。
需要終身學習
Spark, TensorFlow, PyTorch, keras, scikit-learn, pandas都是工具,讓你的生活更輕松。這些工具會改變,它們會被更好的工具取代,或者它們會永遠存在,誰知道呢。但它們只是工具。您不應該過多地關注這些工具,而應該關注技術和問題解決。如果你喜歡keras,但是PyTorch能更好地解決一些問題,那么學習PyTorch。您會注意到,這些工具和框架背后的思想通常非常接近,它們的工作原理也很相似。編程語言也是如此。不要做那種因為他太驕傲而不愿意學習Python,而用c++來建立ML模型原型的人。
學習領域知識
機器學習是關于數據的。數據是關于領域的。理解域對于理解數據是必要的。數據團隊可以用數據解決任何問題而沒有領域專長的想法是危險的,而且不會起作用。數據中有如此多的提示,只有您知道域是如何工作的,以及流程是如何工作的,才能理解這些提示。不僅僅是業(yè)務視圖,還有技術視圖。僅僅擺弄技術是不夠的。為了理解這些領域,你需要有良好的溝通技巧,至少作為高級分析的數據科學家。
批判性思維
批判性思維是最重要的技能之一。許多項目之所以成功,僅僅是因為有人質疑當前的方法或目標。目標變量真的是我們想預測的嗎?我們真的需要機器學習嗎?我們會多花一個星期的時間來獲得1%的收益嗎?我們真的能相信這些數據嗎?是一個自我實現的預言嗎?問這些問題是相當困難的,因為通常我們不喜歡答案,但它是必要的!
如果你真的對機器學習和數據科學感興趣,請不要相信咨詢和培訓公司的承諾,他們提供新兵訓練營。不要因為炒作就這么做,記住,所有的炒作都有結束的時候。