成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深解數據驅動:從過去 到未來

大數據
在2000年初,做為Oracle 8i的OCP有一個福利就是能定期收到Oracle的Tech Magazine和ProfitMagazine。在Yahoo統治下的以EditorContent為主的Internet時代,這是一個不錯的了解灣區工業界技術趨勢和產品的渠道。當然也是能和ACM期刊一起Zhuangbility的工具。

  在2000年初,做為Oracle 8i的OCP有一個福利就是能定期收到Oracle的Tech Magazine和ProfitMagazine。在Yahoo統治下的以EditorContent為主的Internet時代,這是一個不錯的了解灣區工業界技術趨勢和產品的渠道。當然也是能和ACM期刊一起Zhuangbility的工具。記得Profit某期討論的一個話題,讓我這個初出茅廬的工程師,對Data有了不一樣的理解(Everything in tech stack changes time from time, exceptdata).其實這也包括Oracle自己。

  做為一個有想法的碼農,當然不會把自己的職業生涯和某一個產品或者語言綁定起來,同時也希望有幾個清晰的領域可以持續研究和學習。而這個討論,讓我意識到在數據存儲、處理、高性能獲取之外,更應該考慮數據背后所存在的實體的實際意義,以及數據整合后的實用價值。伴隨著最近這幾年BigData, AI, Machine Learning概念的火爆,數據驅動(Data Driven)做為一個策略被IT界滄海拾珠 , 重新翻炒。

  在這個大趨勢下,如何做到數據驅動?如何發揮了投資無數的DT(Data Technology的收益,而不只是一堆高性能高并發的一零一零?如何在回答圖靈問題之外,有效的部署機器算法去解決真實的問題?“風物長宜放眼量”,回到經典的哲學思維,數據從哪里來(從哪里來)?數據是什么(是什么)?我們哪里能用數據(到那里去)?

深解數據驅動:從過去 到未來

  利用定量數據來透明描述問題

  在今天的互聯網時代,提到用戶,大家張口就來的一個詞應該就是用戶畫像(User Persona),之前說的是用戶群分(User Segmentation),都是一個意思,即利用數據來定量的描述一個用戶,無非緯度更多,劃分更細。而在這個之前,而我們在談到一個公司、一個部門、一個產品、一個feature的時候,也需要有量化的數據指標來清晰的定量描述運營的健康狀況, 應該把這個定義為公司畫像(Company Profile)。

  傳統的BI技術,致力于打造基于業務交易數據(Transaction Data的數據倉庫(Data Warehouse)。在非常長的一段時間里,我們采集的數據來源自交易系統背后的RDBMS。而主要工作是通過對這些交易數據的可視化,業務方可以相對清晰的了解目前企業的生產、庫存、周轉,現有效率和財務現狀。在WebAnalyzing 2.0的平臺和方法出現之前,基于交易的數據產品其實沒有辦法回答用戶是誰,用戶在那里和用戶需要什么。

  換句話說,我們只擁有整個Datalife cycle里一小段數據。當時通過調研,市場雙盲測試的方法,企業可以獲取一小部分的數據來支持這個閉環,但是時效性,覆蓋面,反饋度都不夠高。這就給了Yahoo,eBay,初期Amazon這樣的***代Internet公司的機會。通過提供內容和商品平臺來收集用戶的數據,在提供One stop的體驗之外,通過采集用戶訪問過程中的數據,理解和分析用戶的意圖,刻畫用戶在不同階段的屬性,完成完整的數據閉環。

深解數據驅動:從過去 到未來

  現有的BI工具提供了大量炫酷的可視化工具,基于完整的數據采集和運算平臺,提供對從效率指標到KPI體系的支持。讓從管理層到一線同事能夠清晰的了解他所負責的產品和業務目前運營狀況:增長,趨于平穩或者萎縮,盈利或者虧損(blooding), 健康或者冒煙,這是數據驅動要解決的***個問題。只有了如指掌,才能運籌帷幄。工作中遇到的 CEO們都會說,“數據對我們很重要 ”,大多指的就是數據透明化后,他們可以做更好的策略判斷。

  定性的分析問題

  當有了準確、可靠的基本數據后,自然而然會想做些更有趣和不同的東西。對于有想法的數據從業者來說,有趣之處在于能夠應用到實際場景上,看到問題的解決。從定量的數據解讀,到定性的分析,再到以分析結果驅動相應的實施行為,***采集這些Action 的效果并持續迭代改進。

  從實際解決視角的的角度來看,數據沒有大小之分,數據只有是否被商業認知之分。數據驅動是一種信仰,只有讓數據產生商業價值,數據才能在實踐中反復迭代變大,從而產生力量驅動改變。

  常見的幾類定性分析的應用如下。同時也分享了我們想去解決的問題:

  從互聯網站點誕生以來“流量為王”就是***公理,無數初創企業的估值都來源于DAU/PV。基于現有的流量數據以及流量成份的組合,利用7天數據對未來15到30天可以做出一個可靠的預測。

  Case: 基于定向流量和意圖的相關性,意圖和購買的相關性,Google利用了多種不同類型的搜索和廣告點擊量,成功預測了計劃上映電影的票房情況。

深解數據驅動:從過去 到未來

  Case: 在眾多電商的Ranking Algo里,對商品本身的售賣預期是一個關鍵因素。商品的歷史展示,點擊和購買情況會做為歷史數據的堆積。基于這個歷史數據,綜合競爭商品,替代商品,搭售商品的堆積,可以對某一商品未來的售賣做出一個相對可靠的趨勢預測。

  Problem: 點融做為一個互聯網金融公司,我們發現我們的流量和我們的投資有很強的相關性。如何有效的對于未來流量的做出預估?基于未來流量對后續的投資做一個可靠的預估是我們有興趣解決的問題。

#p#

  成份分析/ Decomposition

  “天下熙熙皆為利來,天下攘攘皆為利往”,在經典的商業問題里,我們都希望搞清楚購買你的產品和服務的用戶是誰?他們各自喜歡你產品的那些部分?他們會有多忠誠? 他們的各自的滿意度是多少?通過產品特征和用戶特征的關聯,通過對流量成份的分析和監控,提高收益。

  Case: 航空公司作為資源固定的業態(PerishableCapacity)是最早采用收益管理/動態定價(Yield Management/Variable Pricing)的行業。通過對需求的售賣周期(Fluctuating Demand),計劃性(Sold in Advance),成本(Class),變化性(Refund/Return)等因素的分析,制定了一系列定價上的策略,從而實現收益的***化和可管理性。

深解數據驅動:從過去 到未來

  Case:為了解決配送效率的問題,Amazon提出過把熱門貨物預先分配到指定地點的策略。國內的某電商同樣基于效率考慮,按照電腦的金額和送貨地址的匹配,以及庫存周期的預估,完成了筆記本的配送優化。

[[143405]]

  Problem:在目前互聯網金融行業普遍貨客成本高居不下的情況下,如何定性不同的渠道從而在合理預算的前提下提升推廣和活動的效率?如何按照用戶的忠誠度和需求劃分,組合不同的金融產品從而提升體驗?

  Problem:在Risk領域,如果有效評估現有規則的效用和效率(Attribution)?如何確定經驗規則的使用范圍和周期? 如何在借貸的整個周期里Cut over現有規則的效力?

  AB Testing的方法

  線上的大規模的流量,在有效的Managing Orthogonal分流后,比較傳統的線下分組測試,可以同時進行更大規模的測試。ABT可以回答很多針對目前客流人群習慣和喜好的問題。通常這類問題相對感性,ABT的方法可以替代簡單Survey和主觀的判斷。

  Problem: 點融計劃設計和部署一個同時支持Online和Mobile,同時支持前臺和后端的實驗平臺。通過一個輕量的EP平臺,以支持業務的發展。

  自動化干預

  數據驅動的***目標是希望利用數據能夠直接在生產環境帶來改變,提供價值。在厘清了數據管理,完成了離線的事后分析后,我們可以利用這樣的數據基礎在特定領域完成基于算法的自動調整。

深解數據驅動:從過去 到未來

  算法的線上部署除了對平臺和算法本身的支持之外,還需要考慮一下幾點:

  ·風險約束Constraints– 不同于離線系統的決策和執行周期,線上系統需要確定一系列的邊界,例如收益管理的利潤率目標、系統單位時間***損失和單品的單位時間***損失;推薦系統的CTR的下線;Score Card的TypeII 的Error rate。在類似Quants的極端高頻交易情況下,系統本身的防線風險完全依賴超過幾個Unit頭寸的自動止損規則。

  ·數據的及時性–實時數據和歷史數據的組合,如何Decay歷史特征;如何在特定周期下替換歷史數據;

  ·異常數據的容忍– 線上Algo的輸入無法做到離線的清洗水平,為了防止做出愚昧的判斷,我們需要更健壯的數據預處理模塊。

  ·Algo的迭代– 需要可靠的離線迭代平臺來糾正線上Algo運行過程中的誤差和偏離。采集線上的數據到離線平臺,通過離線平臺調整參數和適應性。支持從離線平臺推送新的algo。

[[143406]]

  構建數據平臺

  作為一個創業公司,我們目前考慮升級我們的數據平臺:

  ·系統構成簡潔– 我們擁抱現有的業內數據處理技術,同時希望標準化技術選型,降低復雜度。

  ·自助服務–提供數據獲取的自動化能力,讓Data Engineering不只是為業務的資源。

  ·數據產品– 整合我們的內部數據和第三方數據,提供目前具體問題的加工后的數據產品。

  我們的目標不是構建海量數據的聚合平臺。而是構建更清晰靈活的支持小數據(Micro Data)計算處理平臺,完成對商業有價值的數據應用。

責任編輯:李英杰 來源: 點融黑幫
相關推薦

2023-03-30 10:30:15

數據系統

2017-11-24 13:51:40

數據倉庫數據庫數據分析

2020-04-17 10:45:21

數據中心IT技術

2021-05-10 09:40:02

大數據互聯網大數據應用

2016-10-27 08:57:00

2011-11-16 09:00:39

編程語言

2022-08-03 10:27:53

數據大數據

2020-11-30 11:06:52

數據中心數據中心融合

2023-01-03 10:50:04

2022-10-27 09:59:55

視音學習

2012-02-16 09:10:31

JavaScript

2016-08-28 15:55:04

Hadoop大數據

2017-08-08 15:40:26

OpenStack轉型基金會

2024-09-23 21:55:10

2024-09-23 21:51:52

數據倉庫數據中臺數據飛輪

2022-05-30 09:43:06

數據庫字節跳動數據規模

2022-09-26 09:41:25

MySQL數據庫

2022-05-31 09:01:44

RedisRDBAOF

2020-08-03 08:24:26

原型模式拷貝

2017-03-22 20:36:34

深度學習機器學習人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲日本乱码在线观看 | 日韩电影一区二区三区 | 久草成人 | 亚洲精品久久嫩草网站秘色 | www久久国产 | 成人特区 | 九一视频在线观看 | 国产999精品久久久 日本视频一区二区三区 | 亚洲福利 | 亚洲一区高清 | 日韩在线观看一区 | 日韩中文字幕一区 | 久久精品视频在线观看 | 色播视频在线观看 | 亚洲最新网址 | av免费网站在线观看 | 最新国产精品视频 | 欧美精品三区 | 一区二区三区四区日韩 | avhd101在线成人播放 | 福利精品| 欧美午夜一区 | 欧美日韩亚洲视频 | 中文字幕在线视频免费观看 | 国产成人91| 国产成人免费视频 | 国产精品久久久久久久久久久新郎 | 色女人天堂 | 日日操av | 蜜桃免费一区二区三区 | 特级黄一级播放 | 91精品国产一区二区三区 | 最近免费日本视频在线 | 免费的av网站 | 欧美精品在线一区二区三区 | 亚洲性人人天天夜夜摸 | 激情网五月天 | 亚洲品质自拍视频 | 欧美精品一区三区 | 亚洲欧美一区二区三区在线 | 成人伊人 |