數據科學,數據工程和技術的未來
2020年即將結束,我們想花一點時間反思技術的所有變化,并展望未來的發展趨勢。
無論您是在關注初創企業及其首次公開募股,技術的改進,還是您對亞馬遜re:Invent的關注,我們都見證了一年的公司繼續努力突破界限。
AWS的SageMaker Data Wrangler是2020年個人最喜歡的公告,旨在加快機器學習和AI應用程序的數據準備。這似乎是朝著擁有更流暢的機器學習管道的方向邁出的一大步,希望這將使不專注于技術的公司更容易使用機器學習。
但是2020年即將結束,因此,我們邀請了來自技術領域的各個方面的人們提供他們對2021年期望的見解-無論是新興的初創公司,技術還是最佳實踐。
讓我們看看他們怎么說。
1. Sam Cannon,Facebook,數據科學家
> Photo from LinkedIn.
我感覺自然語言處理(NLP)當前正在以不可思議的速度發展,這同時令人興奮和沮喪。一旦建立了不錯的文本分類或分布式詞表示聚類的管道,就會出現一個新模型,該模型的性能優于我昨天使用的模型。
話雖這么說,我對NLP的發展方向感到非常興奮,特別是在針對復雜NLP任務的開源解決方案方面。我在這個領域最喜歡的公司之一,也是我個人的開放源碼晴雨表,即最先進的NLP,就是Hugging Face。Hugging Face通過使復雜的NLP模型和任務民主化而遵循"解決NLP"的信條,由于缺乏計算能力或專業知識,許多人通常無法使用這些模型和任務。
他們已經提供了需要最少用戶輸入的簡單情緒分析解決方案。在此基礎上,我認為2021年將迎來一系列可與一行代碼一起使用的預打包SOTA NLP模型。雖然無法預測2021年在這個領域中將真正實現什么,但我相信,至少,開箱即用的NLP模型將比以往更多的人從他們的自然語言數據中獲得洞察力—這就是2021年我在我們領域最期待的東西。
2. 凱瑟琳·陶(Catherine Tao),數據標準,數據科學家
> Photo from LinkedIn.
我很高興看到2021年的云技術將在技術領域進行創新。截至目前,云是存儲公司數據的空間。這樣做存在一些挑戰,例如可伸縮性,效率,數據流等等。
我想看看如何改善云計算以平衡技術企業所面臨的一些主要問題。許多公司都在努力將AI引入其業務中,這導致某些公司在技術行業落后。通過創新云計算,更多的公司應該能夠在其公司中實施人工智能,并以更高的生產率部署項目/產品。
3. Riley Kinser,地形,產品負責人
> Photo from LinkedIn.
展望2021年(對于商業房地產來說,希望是光明的一年!),我的主要重點是成為地理和地理地圖繪制新工具的專家。我的主要路線圖目標之一是將我們在Terrain的見解轉化為易于為最終用戶解釋的地圖。
當今行業中的許多示例都是使用ArcGIS來完成的,ArcGIS是一種較舊的但成熟的數據映射工具。我相信可能會有更好的工具,這為我們的客戶提供了一個對舊經典的新認識的機會。我感興趣的兩個工具是Uber開發的開源項目:H3和kepler.gl。我看到的H3的主要優勢之一是能夠根據縮放將世界細分為大小不同的六邊形。
這解決了我們確定的早期問題之一,即不同的用戶喜歡對都市圈內的社區,子市場或城市的邊界采取不同的觀點。這也使我們能夠更好地在全球范圍內開發難以獲取邊界數據的地圖。
另一方面,kepler.gl很有趣,因為它相對容易為最終用戶或MVP在線開發和托管。Uber開發了Kepler.gl,使用戶可以在內部(技術和非技術)并快速開發可共享的地圖,以可視化地理空間數據中的想法。kepler.gl支持的其他有趣的事情之一是能夠輕松地可視化時間序列中的地理數據的功能。我希望從kepler.gl成為我們的MVP,然后在我們開始收集用戶反饋時探索H3。
4. Chris Zeoli,Base10合作伙伴,負責人
> Photo from LinkedIn.
盡管我對許多趨勢感到非常興奮,但電子商務(尤其是Shopify及其相關工具的興起)和遠程醫療是我最激動的兩個領域。我已經撰寫了有關Shopify生態系統的文章,并且該公司繼續達到新的高度,為200萬以上的商家提供了超過$ 100B的GMV。
我對與Facebook / instagram,TikTok,支付寶,Affirm和Pinterest等新的合作伙伴關系感到特別興奮,因為Shopify成為跨消費者所在的主要網絡進行商務交易的基礎架構。它的軟件以及第三方生態系統在蓬勃發展中令人興奮。有趣的是,電子商務的傳統領域(服裝和時尚,CPG產品,保健和保健等)繼續增長,而食品/雜貨等較新的類別可以通過Shopify等平臺自動上線。
遠程醫療和新的數字醫療經驗也讓我感到非常興奮。從COVID來看,很明顯,就我們的經濟"基本"而言,醫療保健是最重要的。該類別占GDP的20%(并且還在增長),幾乎沒有突破性成果,也沒有FAANG規模的公司。我可以想象,五年內,至少會有一個主要參與者(并且還期望看到Apple,Google和Amazon繼續推動醫療保健發展)。2020年對于遠程醫療來說是重要的一年,Teladoc收購了Livongo并創建了數字醫療領域最強大的品牌,但其企業價值總和超過$ 30B,并且$ 1.5B的ARR增長> 100%。
我很高興看到嶄新的數字化健康體驗浪潮,可以滿足人類在照顧自己方面最基本的需求。
5. Jun Kim,Facebook,數據工程師
> Photo from LinkedIn.
即將到來的2021年最令我興奮的技術是期待已久的Apache Airflow 2.0版本。自2015年首次發布以來,Apache Airflow一直是數據工程中最受歡迎的工作流管理系統之一(如果不是最受歡迎的話)。
它的巨大成功可以歸因于以下事實:它允許將工作流編寫為代碼,簡單但有效的GUI,并且在構造數據管道方面具有通用的靈活性。借助新的2.0版本,每個人都喜歡的工作流管理系統將變得更好。Airflow 2.0將具有許多令人印象深刻的附加功能,包括完全受支持的綜合REST API,TaskFlow API和任務組。它還提供了許多改進,包括簡化的Kubernetes Executor,低延遲的調度程序以及更加直觀的GUI。
我很高興嘗試新的和改進的Airflow。
6. Michael Mirandi,土星Cloud.io,戰略主管
> Photo from LinkedIn.
我很高興在2021年看到幾種技術趨勢,但無非就是GPU計算在數據科學和機器學習中的日益普及。這種轉變是由性能優先驅動的,以及通過開源項目RAPIDS使得易于使用成為可能。如果您不熟悉RAPIDS,則用戶可以使用RAPIDS在NVIDIA硬件上執行Python代碼(免責聲明:NVIDIA贊助了該項目)。
該團隊于今年早些時候發布了行業標準的大數據分析基準測試結果,其表現要高出近20倍!有趣的是,這些基準測試不僅展示了GPU計算對數據科學工作負載的強大功能,而且還展示了其加速傳統數據工程ETL工作的能力。這會導致更廣泛地采用Python嗎?我愿意打賭,特別是隨著一批新的數據科學初創公司最近發布了分布式GPU計算平臺,這是一種能夠以前所未有的速度啟動云中GPU集群的功能。
2021年及以后的技術
到2021年,無論是預打包的SOTA NLP模型是否可以與一行代碼一起使用,自然語言查詢還是對Airflow等框架進行改進,都將有很多期待。
小型和大型科技公司似乎都繼續前進,即使所有Zoom疲勞了。
我們希望2021年不僅能帶來技術上的進步,而且也將是我們在能夠提升所有人的能力的領域取得進步的一年。
感謝您的閱讀和新年的好運!