成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機(jī)器學(xué)習(xí)如何應(yīng)用于商業(yè)場(chǎng)景?三個(gè)真實(shí)的商業(yè)項(xiàng)目

人工智能 機(jī)器學(xué)習(xí)
今天CDA數(shù)據(jù)分析師教研副總監(jiān)徐楊老師將給同學(xué)們介紹我們最近采集到的三個(gè)真實(shí)的企業(yè)機(jī)器學(xué)習(xí)項(xiàng)目,以讓同學(xué)們更好地理解機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)在實(shí)踐中是如何工作的。

在國富如荷這些年的教學(xué)過程中,很多同學(xué)問到了一個(gè)問題:

在現(xiàn)實(shí)的商業(yè)世界中如何應(yīng)用機(jī)器學(xué)習(xí)?

也就是說,雖然現(xiàn)在我們一直被各種算法文章和教程轟炸,但是關(guān)于企業(yè)中一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目的“上下文”卻總是缺失的。

今天楊老師將給同學(xué)們介紹我們最近采集到的三個(gè)真實(shí)的企業(yè)機(jī)器學(xué)習(xí)項(xiàng)目,以讓同學(xué)們更好地理解機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)在實(shí)踐中是如何工作的。

01、掃描 eBay 是否有假冒商品或贓物

這個(gè)項(xiàng)目來源于我們美國部門的反饋。這是一家娛樂行業(yè)的企業(yè),由于保密協(xié)議的原因老師無法給出企業(yè)的名稱。他們有一個(gè)專門的分析團(tuán)隊(duì),在購物網(wǎng)站(如eBay)上搜索帶有客戶品牌的被盜或假冒商品。 

[[424397]] 

在eBay上數(shù)以百萬計(jì)的商品清單列表中,只有很小一部分是企業(yè)感興趣的。于是分析團(tuán)隊(duì)上線了爬蟲算法,抓取包含相關(guān)關(guān)鍵字的網(wǎng)頁,并將網(wǎng)頁圖片存儲(chǔ)在特定的文件夾中。每天,該團(tuán)隊(duì)都會(huì)登錄到相關(guān)的門戶網(wǎng)站,爬取并查看這些圖片,以確定它們是否侵犯了企業(yè)的版權(quán)。這是一個(gè)非常昂貴卻無聊的過程,昂貴在負(fù)責(zé)查看圖片的人工成本,無聊在于這個(gè)查看工作本身沒有太多技術(shù)含量卻非常消耗工時(shí)。但是這個(gè)問題可以通過一點(diǎn)機(jī)器學(xué)習(xí)得到很大改善。

尷尬的是,現(xiàn)在很多很多討論計(jì)算機(jī)視覺的文章都在關(guān)注一些"不務(wù)正業(yè)"的問題,例如 貓 vs 狗、汽車 vs 摩托車、手繪數(shù)字等等。但在這個(gè)項(xiàng)目中,我們必須在圖像中尋找侵犯版權(quán)的東西。

決定使用哪種機(jī)器學(xué)習(xí)算法來解決問題通常很復(fù)雜,這個(gè)項(xiàng)目也不例外。一方面,我們有大量被標(biāo)記為侵權(quán)或非侵權(quán)的數(shù)據(jù),在這種情況下,很容易能看出這是一個(gè)有監(jiān)督的分類問題。那么,我們考慮試一下神經(jīng)網(wǎng)絡(luò)算法?

另一方面,由于門戶網(wǎng)站的設(shè)計(jì),檢索負(fù)面信息非常耗時(shí)(它不存儲(chǔ)圖像,只是一個(gè)鏈接),因此我們只有一個(gè)有限的數(shù)據(jù)集。此外,企業(yè)的徽標(biāo)經(jīng)常與其他企業(yè)的徽標(biāo)一起出現(xiàn)在圖像中(侵犯版權(quán)通常是很微妙的),并且足夠深的神經(jīng)網(wǎng)絡(luò)很有可能會(huì)識(shí)別出類似商標(biāo)的存在而不是單獨(dú)某個(gè)公司的標(biāo)志(就像神經(jīng)網(wǎng)絡(luò)通常會(huì)識(shí)別所有犬種而不僅僅是德國牧羊犬一樣)。在這種情況下,關(guān)鍵是訓(xùn)練一個(gè)更淺的卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行目標(biāo)檢測(cè)而不是分類。這阻止了網(wǎng)絡(luò)學(xué)習(xí) logo-general 特征并迫使它學(xué)習(xí) logo-specific 特征。(這兩個(gè)單詞顯然用英文來表述會(huì)更加準(zhǔn)確,因此我們不給出翻譯)

CNN(卷積神經(jīng)網(wǎng)絡(luò))的算法本身是成熟的,那么這個(gè)項(xiàng)目的關(guān)鍵就在于生成訓(xùn)練集以供訓(xùn)練目標(biāo)檢測(cè)。它需要由來自原始訓(xùn)練集的大量不同角度和排列的圖像組成,具有各種傾斜和對(duì)齊方式,每個(gè)圖像都有一個(gè)包圍框圍繞著我們想要檢測(cè)的對(duì)象(徽標(biāo))。在花費(fèi)了相當(dāng)大的精力完成訓(xùn)練集的工作后,這個(gè)項(xiàng)目的后續(xù)工作也順利完成。

02、預(yù)測(cè)零售店是否會(huì)被盜

這個(gè)項(xiàng)目來源于與我們合作的一家企業(yè),這是一家跨國零售連鎖企業(yè)(同樣是基于保密協(xié)議,這里不能給出企業(yè)名稱)。由于這家企業(yè)的分支店鋪遍布全球,包括一些不太安全的地區(qū)。因此需要構(gòu)建一個(gè)算法,根據(jù)入室盜竊的歷史實(shí)例生成入室盜竊的風(fēng)險(xiǎn)評(píng)分。 

由于業(yè)務(wù)的性質(zhì),企業(yè)認(rèn)為盜竊的風(fēng)險(xiǎn)隨著周邊地區(qū)的犯罪而增加,而不是由于商店的任何特定特征(易碎的窗戶等)而增加。

該算法工具的目的不是直接防止盜竊,而是評(píng)估如何對(duì)整個(gè)商店組合分配固定預(yù)算,以減少盜竊損失。因此,算法輸出的必須是更新每個(gè)安全設(shè)施的好處,或者說是推薦更新哪些安全設(shè)施,有點(diǎn)像推薦引擎。

與我們上一個(gè)示例類似,找出解決問題的關(guān)鍵是最大的挑戰(zhàn)之一。分析團(tuán)隊(duì)首先嘗試了生存分析,定制了 Cox Proportional Hazards 模型以接受多個(gè)事件。雖然它在洞察各種安全設(shè)施的防護(hù)性方面做得很好,但它對(duì)于地理因素的識(shí)別效果非常差,而地理區(qū)域因素正是客戶想要識(shí)別的一個(gè)重要因素。

最后,分析團(tuán)隊(duì)決定為客戶想要識(shí)別的每個(gè)因素構(gòu)建單獨(dú)的分類器(使用XGBoost),為每個(gè)時(shí)期設(shè)置固定的訓(xùn)練集日期范圍,以解決較長時(shí)期的預(yù)測(cè)更有可能高估長期風(fēng)險(xiǎn)的問題。接下來,將這些因素導(dǎo)入回歸模型來計(jì)算每個(gè)零售商店的預(yù)估損失,并使用該度量(結(jié)合地理度量)來生成具體的推薦。

03、向1.5億位訪問者推薦內(nèi)容

Infinite Scroll,一般稱為無限滾動(dòng)模式,對(duì)于有很多相似條目需要展示的頁面,可以用無限下拉的方式來避免用戶通過點(diǎn)擊下一頁來獲取更多內(nèi)容。比如今日頭條網(wǎng)站,打開后,可以一直向下滾動(dòng),當(dāng)滾動(dòng)到頁面底部后,就會(huì)加載更多新聞條目。 

之前,一個(gè)和我們美國部門有長期合作的網(wǎng)站轉(zhuǎn)向了無限滾動(dòng)模式,但對(duì)拉到底后接下來要顯示哪篇文章發(fā)了愁。一開始,他們的分析團(tuán)隊(duì)提出的方法與強(qiáng)化學(xué)習(xí)非常相似——從10篇最受歡迎的文章中選擇一篇或隨機(jī)選擇。

不幸的是,這個(gè)想法并沒有給他們帶來他們所希望的轉(zhuǎn)化率,而無限滾動(dòng)條也大大降低了他們的廣告點(diǎn)擊量(盡管這對(duì)用戶來說是一種更好的體驗(yàn))。

后來,分析團(tuán)隊(duì)使用詞嵌入和用戶嵌入,構(gòu)建了一個(gè)協(xié)同過濾推薦引擎,為用戶提供符合他們興趣的文章,而不僅僅是最流行的。

這個(gè)項(xiàng)目最大的挑戰(zhàn)不是選擇哪個(gè)算法的問題,而是海量數(shù)據(jù)的處理問題:必須確保系統(tǒng)非常快速地返回推薦——這是無限滾動(dòng)體驗(yàn)的本質(zhì)。

另一個(gè)挑戰(zhàn)是數(shù)據(jù)埋點(diǎn)和備份,因?yàn)橛脩舻拿總€(gè)行為都有非常多個(gè)特征可以提取,因此需要找到一種方法來存儲(chǔ)這些信息,且存儲(chǔ)成本不會(huì)呈指數(shù)級(jí)增長。

分析團(tuán)隊(duì)決定按站點(diǎn)、類別和用戶信息拆分模型,以減少嵌入矩陣的大小。同時(shí)還部署了各種降維技術(shù)以使其更易于管理,并密切監(jiān)視系統(tǒng)以確定備份的理想截止日期。

總結(jié)

通過上述三個(gè)項(xiàng)目同學(xué)們可以發(fā)現(xiàn),很多時(shí)候,算法選擇和參數(shù)調(diào)參并不是企業(yè)中一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目最重要的階段。而客戶需求、數(shù)據(jù)類型、計(jì)算速度、預(yù)測(cè)用法,甚至數(shù)據(jù)庫優(yōu)化都會(huì)影響到一個(gè)項(xiàng)目的成功。

 

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2023-08-22 17:59:23

數(shù)據(jù)分析

2017-03-23 09:05:40

語音識(shí)別商業(yè)化場(chǎng)景

2022-10-13 14:15:35

商業(yè)智能大數(shù)據(jù)工具

2009-01-14 10:35:40

商務(wù)智能BI報(bào)表

2010-01-05 10:02:55

商業(yè)智能軟件

2020-06-10 07:46:39

機(jī)器學(xué)習(xí)預(yù)測(cè)性維護(hù)工業(yè)物聯(lián)網(wǎng)

2024-04-08 07:00:00

機(jī)器學(xué)習(xí)

2020-05-21 21:14:38

機(jī)器學(xué)習(xí)ML數(shù)據(jù)

2024-01-22 10:05:13

人工智能

2016-12-28 17:58:15

機(jī)器學(xué)習(xí)

2020-02-20 09:00:00

網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)技術(shù)

2022-04-20 10:28:12

機(jī)器學(xué)習(xí)深度學(xué)習(xí)人工智能

2021-03-03 23:20:51

機(jī)器學(xué)習(xí)保險(xiǎn)人工智能

2024-03-19 15:09:07

2016-02-18 10:32:39

谷歌TensorFlow 機(jī)器學(xué)習(xí)

2017-02-07 09:50:54

2013-07-01 10:29:53

平板電腦

2021-08-23 10:18:24

機(jī)器學(xué)習(xí)商業(yè)通信人工智能

2023-05-29 15:58:25

機(jī)器學(xué)習(xí)人工智能

2021-10-28 09:00:00

深度學(xué)習(xí)人工智能技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美国产精品一区二区 | 日本a在线 | 麻豆精品一区二区三区在线观看 | 国产精品99久久久久久www | 欧美亚洲视频在线观看 | 激情黄色在线观看 | 欧美综合在线观看 | 高清人人天天夜夜曰狠狠狠狠 | 国产精品一卡二卡三卡 | 久草a√| 精品国产精品国产偷麻豆 | 国产精品美女久久久久久久网站 | 欧美精品在欧美一区二区少妇 | 精品亚洲一区二区三区 | www.中文字幕.com | 国产免费视频在线 | 91麻豆产精品久久久久久夏晴子 | 99国产视频 | 成人影视网 | 国产精品久久久久久久粉嫩 | 一区二区av在线 | 嫩草研究影院 | 91在线精品一区二区 | 国产在线观看 | 久久久入口 | 一区二区三区久久 | 色综合久久天天综合网 | 依人成人 | 羞羞网站在线观看 | 97日韩精品 | 国产精品综合一区二区 | 久久久一二三 | 亚洲精品国产电影 | 国产一级片久久久 | 免费观看的av | 亚洲啊v| 欧美中文字幕一区二区三区亚洲 | 亚洲性人人天天夜夜摸 | 91精品久久久久 | 中文字幕在线一区 | 精品国产第一区二区三区 |