突破邊界:數據科學、數據工程和技術的未來
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
不管是關注初創公司和它們的IPO進程,關注科技的進步,還是關注亞馬遜的re:Invent,你都會看到,這一年有很多公司在不斷嘗試突破邊界。
我個人最喜歡的2020年公告是AWS的SageMaker Data Wrangler,它旨在加快機器學習和人工智能應用的數據準備。這是一個偉大的舉措,將有更多的流體機器學習管道,有望進一步使機器學習更容易接近的公司,不專注于技術。
我們采訪了來自不同科技領域的人們,請他們談談對2021年的期待,受訪者都來自具有代表性的創業公司和技術最佳實踐企業。看看他們都說了什么吧!
1.山姆·坎農,Facebook數據科學家
我覺得自然語言處理目前正以不可思議的速度發展,這令人既興奮又沮喪。一旦為文本分類或分布式詞表示聚類建立了一個像樣的管道,新的模型就會出現,它的性能會超過昨天使用的模型。
我對NLP的發展方向感到非常興奮,尤其是針對復雜的NLP任務的開源解決方案。在這個領域中,我最喜歡的公司之一是Hugging Face,它也是我個人對開放源碼、最先進的NLP的晴雨表。
Hugging Face遵循了solv[ing] NLP的信條,將復雜的NLP模型和任務民主化,而這些模型和任務通常由于缺乏計算能力或專業知識而不可能被許多人使用。
它們已經提供了簡單的情感分析解決方案,只需要最少的用戶輸入。在此基礎上,我認為2021年將迎來一波預先打包的SOTA NLP模型,這些模型只需要一行代碼就可以使用。
在2021,我相信至少開箱即用的NLP模型將允許更多的人從他們的自然語言數據中獲得的見解,這就是我在2021年最期待的方面。
2.凱瑟琳·陶,數據標準,數據科學家
我很興奮地看到云計算在2021年將如何在技術領域創新。云是公司存儲數據的空間,這方面尚存在一些挑戰,比如可擴展性、效率、數據流等等。
我想看看2021會如何改善云計算以平衡技術企業所面臨的一些主要問題。許多公司都在努力將AI引入其業務中,通過創新云計算,更多的公司應該能夠在其公司中實施人工智能,并以更高的生產率部署項目/產品。
3.賴利·金瑟,Terrain,產品主管
展望2021年,我的關注重點是地理地圖繪制新工具。我的主要目標之一是將我們在Terrain的見解轉化為易于為最終用戶解釋的地圖。
當今行業中的許多示例都是使用ArcGIS來完成的,ArcGIS是一種較舊的但成熟的數據映射工具。我相信可能會有更好的工具,為客戶提供一個對舊經典的新認識的機會。我感興趣的兩個工具是Uber開發的開源項目:H3和kepler.gl。
H3的主要優勢之一是能夠根據縮放將世界細分為大小不同的六邊形。這解決了我們發現的早期問題之一,即不同的用戶喜歡對都市圈內的社區,子市場或城市的邊界采取不同的觀點。這也使我們能夠更好地在國際范圍內開發地圖,從而難以獲取邊界數據。
kepler.gl也很有趣,因為它更容易為最終用戶或MVP在線開發和托管。Uber開發了Kepler.gl,允許用戶在內部(技術和非技術)快速開發可共享的地圖,以可視化地理空間數據中的想法。
kepler.gl能夠輕松地可視化時間序列中的地理數據的功能。希望從kepler.gl成為我們的MVP,然后在開始收集用戶反饋時探索H3。
4.克里斯·杰奧里,Base10合作伙伴,負責人
電子商務(尤其是Shopify及其相關工具的興起)和遠程醫療是我最感興趣的兩個領域。我寫過關于Shopify生態系統的文章,該公司繼續達到新的高度,為200萬以上的商家提供了超過100B美元的GMV。
我對與Facebook、instagram、TikTok、支付寶、Affirm和Pinterest等新的合作伙伴關系感到特別興奮,因為Shopify成為跨消費者所在的主要網絡,以及進行商務交易的基礎架構。
電子商務的傳統領域(服裝和時尚,CPG產品,保健和保健等)繼續增長,而食品/雜貨等較新的類別可以通過Shopify等平臺自動上線。
遠程醫療和新的數字醫療經驗也讓我感到興奮。從COVID來看,很明顯,就經濟“基礎”而言,醫療保健是最重要的。該類別占GDP的20%(并且還在增長),幾乎沒有突破性成果,也沒有FAANG規模的公司。
我可以想象,五年內,至少會有一個巨頭出現(并且還期望看到Apple,Google和Amazon繼續推動醫療保健發展)。2020年對于遠程醫療來說是重要的一年,Teladoc收購了Livongo,并以$30B +的企業價值和超過$1.5B的ARR增長大于100%,創建了數字醫療領域最強大的品牌。
很高興看到嶄新的數字化健康體驗浪潮。
5.金俊, Facebook數據工程師
即將到來的2021年最令我興奮的技術是Apache Airflow 2.0版本。自2015年首次發布以來,Apache Airflow一直是數據工程中最受歡迎的工作流管理系統之一。
它的巨大成功可以歸因于:它允許將工作流編寫為代碼,簡單但有效的GUI,并且在構造數據管道方面具有通用的靈活性。借助新的2.0版本,工作流管理系統將變得更好。
Airflow 2.0將具有許多令人印象深刻的附加功能,包括完全受支持的綜合REST API,TaskFlow API和任務組。它還提供了許多改進,包括簡化的KubernetesExecutor,低延遲的調度程序以及更加直觀的GUI。
6.邁克爾·米蘭迪,土星云戰略主管
我很希望在2021年看到幾種技術趨勢,包括GPU計算在數據科學和機器學習中的日益普及。這種轉變是由性能優先驅動的,以及通過開源項目RAPIDS使得易于使用成為可能。如果你不熟悉RAPIDS,可以使用RAPIDS在NVIDIA硬件上執行Python代碼。
該團隊于今年早些時候發布了行業標準的大數據分析基準測試結果,其表現要高出近20倍!有趣的是,這些基準測試不僅展示了GPU計算對數據科學工作負載的強大功能,而且還展示了其加速傳統數據工程ETL工作的能力。
這會導致更廣泛地采用Python嗎?我愿意打賭,特別是隨著一批新的數據科學初創公司最近發布了分布式GPU計算平臺,這是一種能夠以前所未有的速度啟動云中GPU集群的功能。
我期待著2021年能出現更多有趣的技術突破。