你要了解數據科學團隊中的這些角色
譯文譯者 | 李睿
審校 | 孫淑娟
全球知名的流媒體服務商Netflix公司在2017年將其五星級評級系統更改為“拇指向上”(喜歡)和“拇指向下”(不喜歡)簡單的評價系統。該系統可以根據百分比匹配來推薦電影,但也有人對這一做法很反感。那么如何將電影藝術中所有的細微差別簡化為一種原始的二元反應?
實際上,Netflix公司發現人們對那些他們認為很好的電影給予了很高的評價,但不一定是他們真正喜歡觀看的電影。至少數據是這么描述的。那么數據分析在像Netflix這樣的公司中是如何工作的?數據科學團隊的角色是什么?
Netflix反饋系統
Gibson Biddle是Netflix公司的前副總裁兼首席產品官。在談到消費者洞察時,他對導致整個評級系統發生變化的意外客戶行為進行了解釋。在轉換成百分比匹配時,Netflix表示雖然觀眾可能喜歡觀看亞當·桑德勒主演的喜劇,但給出的評價可能只有三顆星;而觀眾對觀看《辛德勒的名單》這部電影感覺很好,并給出五顆星的評價,但這并不會增加其整體樂趣,讓訂閱者滿意對Netflix來說是至關重要的。因此,他們簡化了反饋系統以避免偏差。但是這些對客戶的洞察本身就令人印象深刻,如果沒有促進數據使用的文化和強大的數據基礎設施這個因素,它們是不可能實現的。用技術術語來說,這被稱為數據驅動的組織。
數據驅動的組織
人們可能多次聽到“數據驅動”這個流行術語,但它的真正含義是什么?僅Netflix公司每天就記錄超過7000億個事件,從登錄和點擊電影縮略圖到暫停視頻和打開字幕。所有這些數據都可供用戶使用。任何人都可以使用tableau或Jupiter等可視化工具訪問它,或者他們可以通過大數據門戶訪問它——這是一個允許用戶檢查報告、生成報告或查詢他們需要的任何信息的環境。然后,這些數據用于制定業務決策,從較小的縮略圖(例如展示哪些縮略圖)到企業的決策(例如Netflix公司下一步應該投資和推出哪些節目)。
數據驅動的組織并非只有Netflix公司一家。據估計,財富1000強企業中約有97%的企業投資于人工智能和大數據等項目。以下了解真正的數據基礎設施技術和使其運營的數據工程師。
數據基礎設施技術
為了描述數據基礎設施的工作原理,技術人員借用了通常運輸液體或氣體的“管道”這一術語。數據管道有自己的起點、終點和中間站。所以這是一個非常貼切的比喻。數據的來源可能是任何事務,從點擊保留按鈕和刷新頁面到與客戶支持的對話記錄,從車輛跟蹤設備到發電廠的渦輪振動傳感器。在當今世界,實際上很難說有什么不能生成數據,即使沒有數據也能告訴人們一些事情。
一旦生成數據項,它就會沿著管道到達暫存區域。這是保存所有原始數據的地方。原始數據尚未準備好使用。你必須做好準備。如果沒有做,必須填補空白,更改其格式或合并來自不同來源的數據,以獲得更細致的觀察。一旦完成這些操作,就會獲得結構化和干凈的數據。所有這些操作都是自動進行的。它們用兩個詞語來描述。
- 提取:從數據源中提取數據并將其送到暫存區域。
- 轉換:準備數據以供使用并加載將準備好的數據進一步推入ETL。
所有準備好的數據都進入另一個存儲器,即數據倉庫。
數據倉庫
與暫存區域不同,數據倉庫是所有存儲記錄都進行結構化并準備使用的地方。就像圖書館的分類系統一樣,可以查詢、可視化和下載倉庫的信息。為此,必須擁有商業智能(BI)軟件。它將數據呈現給最終用戶。
數據列表和業務分析師
數據列表和業務分析師是執行基本任務的人員。他們訪問數據、探索數據、將其可視化,并嘗試使其具有商業意義。例如,企業的營銷活動成功嗎?表現最差的渠道是什么?它們就像一個感官系統,通過歷史數據為企業提供支持,并為管理層以及最終決策者提供見解。
數據工程師
數據工程師負責構建整個管道。大多數技術人員都精通所謂的“管道”。通過管道將數據從源頭移動到目的地,并在途中對其進行轉換。他們設計管道架構、設置ETL流程、配置倉庫,并將其與報告工具連接起來。例如,Airbnb公司擁有約50名數據工程師。該公司有時可能會遇到涉及一些額外規則的更精細的方法。例如,數據質量工程師確保正確捕獲和轉換數據。當試圖從中得出決策時,擁有有偏見或不正確的數據代價太高。可能有單獨的工程師僅負責ETL。此外,商業智能開發人員只專注于集成報告和可視化工具。然而,報告工具并不會成為頭條新聞,數據工程師也不是21世紀的最佳工作,但機器學習和數據科學家可能是。
機器學習和數據科學家
眾所周知的是,數據科學家特別擅長收集數據并回答有關數據的復雜問題,例如企業下個季度的收入是多少?優步預約的汽車什么時候到達?喜歡《辛德勒名單》和《原鉆》的可能性有多大?
實際上有兩種方法可以回答這些問題。數據科學家像業務分析師和數據分析師一樣使用商業智能工具和倉庫數據。所以,他們會從倉庫中獲取數據。有時數據科學家會使用數據湖:另一種存儲非結構化欺詐數據的存儲類型。他們將創建一個預測模型,并提出可供管理層使用的預測。它適用于收入估算的一次性報告,但對預測優步預約汽車的到達時間沒有幫助。
機器學習的真正價值在于生產模型可以自動工作,并定期生成復雜問題的答案,有時每秒生成數千次,用它們處理的事情要復雜得多。
生產機器學習模型
為了使模型工作,還需要基礎設施。有時這是一個很大的問題。數據科學家探索數據倉庫和數據湖中的數據,對其進行實驗,選擇算法,并訓練模型以產生最終的機器學習代碼。這需要對統計數據庫、機器學習算法和學科領域有深入的理解。
SLAC公司前數據工程負責人Josh Wills在推特上表示,“數據科學家是比任何軟件工程都更擅長統計學的人。”
例如訂餐者使用ubereats 軟件點餐。用戶一旦確認訂單,該應用程序必須估計交付時間、訂餐者的位置、餐廳和訂單數據發送到部署了交付預測機器學習模型的服務器。但這些數據還不足夠。該模型還從一個單獨的數據庫中獲取額外數據,其中包含餐廳準備的平均時間和其他詳細信息。一旦有了所有的數據,模型會向訂餐者返回預測。然而,這一過程并沒有就此結束。預測本身保存在一個單獨的數據庫中。它將針對監控模型性能,并通過分析工具探索模型,以便稍后對其進行更新。所有這些數據最終都會出現在數據湖和數據倉庫中。
實際上,僅ubereats訂餐服務就使用了數百種不同的模型同時工作,對推薦進行評分,對餐廳進行搜索排名,并估計送貨時間。
結論
Foursquare公司核心技術負責人Adam Waxman認為,未來將不再有數據科學家或機器學習工程師這些職位,因為隨著模型訓練的自動化和持續構建生產環境,許多數據科學家的工作將成為軟件開發中的常見功能。
原文標題:??Roles in Data Science Teams??,作者:Anomi Ragendran