在12家科技創業公司工作后,這是我的8條經驗
這是一篇經驗帖,作者 Daniel Shenfeld 曾在 12 家創業公司工作過,這些公司覆蓋金融科技、醫療、教育技術、生物技術等多個領域,所處的階段也各有不同,從種子前(pre-seed)到收購后都有。Daniel 在不同的公司中擔任各種各樣的職位,從基層員工到數據科學主管和戰略顧問主管都做過。在所有工作中,他一直致力于研究有趣的機器學習和數據科學問題。所有人都試圖創造偉大的產品,一些人確實成功了。
從這么多工作經歷中他學到了什么?本文介紹了他對產品、數據和人才的 8 條經驗。
關注產品,而非 AI
作為貨真價實的數學家,我一開始是被機器學習科學打動的,想創建新的算法和方法來解決挑戰。
但我很快就意識到,即便是最準確的機器學習模型也沒法自己創造價值。機器學習和 AI 的價值是根據它們支持的產品來衡量的。弄清楚如何有效地做到這一點才是構建 ML 驅動產品的真正意義所在。
《愛麗絲夢游仙境》的作者劉易斯·卡羅爾(Lewis Carroll)也是一位數學家。他發明了很多有吸引力的產品,盡管有一些并沒能像預期的那樣發揮作用。(本文所有插圖均來自約翰·坦尼爾(John Tenniel))。
關注問題,而非方法
如果以構建產品為目標,那么機器學習和 AI 就只是達成目標的手段。重要的是如何解決產品問題,而不是使用什么樣的方法。在大多數情況中,快捷但有缺陷的方法(quick and dirty solution)會讓你走得更遠。如果一個問題用簡單回歸就能很好地解決時,就不要訓練深度神經網絡了。
當關注問題本身時,你有時會發現機器學習并不是解決問題的工具。很多問題是流程的問題。即使在這些情況下,數據科學家也可以做出很多貢獻,因為他們天然傾向于采取嚴格、數據驅動的方法。但這并不表示用 AI 修復糟糕的流程是個好主意。只需修復流程。
尋找數據和產品之間的協同效應
將現有產品和根據機器學習模型做的預測結果結合起來很少能體現出機器學習的真正價值。當然,這也會給它們加一點分,但在強大的 AI 產品中,機器學習不只是附加功能。它是創造價值的引擎,而產品是建立在引擎基礎上的:產品和數據必須要協同工作。
如果做得好,就會形成強大的良性循環,我稱之為「產品/數據擬合」(product/data fit):產品有效地意識到數據的潛在價值,同時持續生成必要數據來進一步改進產品。
將機器學習引入產品是次優策略。
尤其是,AI 不能只停留在數據科學和工程團隊中。組織的其他部分,從產品到管理層,都要參與其中,來加速創造價值的過程。這需要大量的教育和投入,而這超出了工程師們以往構建軟件的習慣(即便是在初創公司中)。
數據先行,AI 在后
機器學習和 AI 都需要大量數據,更重要的是「高質量數據」。如果你要從頭構建一個產品,那從開始你就要考慮收集數據了。如果你要在現有產品中引入 AI 技術,那在進入 AI 部分之前,首先要準備好在數據工程和重建架構方面進行大量投入。
這并不意味著你要在實現價值前預先加載所有工作。更好的數據操作意味著更好的分析,這對任何組織的學習和改進都至關重要。利用這些成果來展示價值并產生組織認同。當你的分析非常堅實時,就可以真正開始考慮機器學習了。
進行有效溝通
打造優秀的產品需要優秀的產品經理和高管的支持。雖然 AI 和深度學習的力量吸引了許多人,但很少有非技術人員真正了解這些技術。有效討論機器學習和 AI 需要對統計學有深刻的理解,溝通鴻溝往往會造成不切實際的期望。
關于機器學習和 AI 的討論顯然不是完全基于業務指標的
一個關鍵點是討論業務指標的同時,也要思考如何將業務指標轉換為模型指標。這樣的話產品經理要承擔很多責任,但對數據科學家而言也是如此,他們必須了解擬建產品相關領域的知識,還要深入理解業務,這樣才能真正高效地工作。
快捷但有缺陷的方法副作用并沒有那么大
正如我前面提到的,快捷但有缺陷的方法會讓你走得更遠。部分在于,現在快捷但有缺陷的方法其實就是過去緩慢但準確的方法。像 word2vec 這樣的工具變得和回歸一樣易于使用,而且研究者還在不斷創建功能強大的新工具。對任何數據科學家來說,充分了解不同的構建模塊以及它們之間的粘合劑是非常必要的。
開源工具爆炸式增長的后果之一是,大多數情況下開發專門的 ML 平臺算不上一個好主意。當然,你應該有用常見構建塊建立的專門算法,并將這些算法用在自己的問題和領域中。但,請把深度學習的研究留給谷歌的研究人員——要專注于業務問題,還記得嗎?
如有疑問,展示數據
向用戶展示數據很有用,但不是所有呈現方法都同樣效果拔群
在產品開發的早期階段,最重要的活動是獲得市場反饋。但機器學習需要大量數據,而這需要很長時間。這就出現了一個問題:如何在沒有太多數據的情況下,獲得市場對某個數據產品的反饋?
一般來說解決方案是向用戶展示數據。人類一次只能處理少量數據,所以沒有太多數據也沒關系。用戶會如何處理你展示給他們的數據呢?他們想掩飾哪些,又想深入挖掘哪些呢?公開之前無法獲取的信息是一種很強大的方法,而且能夠提供數據的潛在業務價值。
建立信任
信任是大多數技術成功的主要因素。最終,每一項技術都是供人類使用的,因此必須取得人們的信任。在機器學習應用的背景下,有些人可能擔心他們的工作會被自動化取代。其他人則正在根據技術提供的信息做出重要決策。
如果一個 AI 產品中混合了這些擔憂,比如某個產品試圖做出決策,而不是讓人類自主決策,則會導致信任的快速流失。
信任易失不易得。打造人們信任的產品。
柴郡貓展示了一種獲得用戶信任的方法
原文鏈接:
https://towardsdatascience.com/what-ive-learned-working-with-12-machine-learning-startups-a9a3026d2419
【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】