成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面向程序員的數據挖掘指南 : 第一章 介紹

開發 前端
想象一下150年前的美國小鎮生活。人們之間互相非常了解和熟悉,當一箱布料被送到某個商店,商店的店員注意到這種特別的布匹圖案會是Mrs. Clancey的最愛,因為他知道Mrs. Clancey喜歡明亮的花卉圖案,因此他將記住下次當她來逛商店的時候把這種布料推薦給她。
  1. Finding stuff
  2. The format of the book
  3. What will you be able to do when you finish this book?
  4. Why does data mining matter? — What is in it for me?
  5. What’s with the Ancient Art of the Numerati in the title?

想象一下150年前的美國小鎮生活。人們之間互相非常了解和熟悉,當一箱布料被送到某個商店,商店的店員注意到這種特別的布匹圖案會是Mrs. Clancey的最愛,因為他知道Mrs. Clancey喜歡明亮的花卉圖案,因此他將記住下次當她來逛商店的時候把這種布料推薦給她。Chow Winkler跟酒吧老板Mr. Wilson聊到他打算賣掉他的備用雷明頓步槍,而Mr. Wilson知道Bud Barclay正在尋找一部優質步槍,因此他打算在下次Bud Barclay到來酒吧的時候告訴他這個消息。警長和他的副手們知道他們需要留意那個身強體壯、脾氣暴躁、嗜酒如命的Lee Pye。100多年前的小鎮生活充滿了各種各樣的聯系。

150年前的小鎮

大家知道你喜歡什么不喜歡什么,知道你的健康、你的婚姻狀況。無論好與壞,這些都是個性化的體驗。這種高度個性化的社區生活在世界上大多數國家是真實存在的。

讓我們轉到二十世紀六十年代。個性化的互動變得貌似不太可能,但是他們仍然存在。當某位常客來到當地一家書店可能會聽到店員跟他打招呼 說:“James Michener的新書到了”,因為店員知道他喜歡James Michener的書,同時店員可能會給他推薦Barry Goldwater的《保守派的良知》,因為店員知道他是一個堅定的保守主義者。一家飯店的常客走進飯店時,總能聽到服務員問他:“還是老樣子?”。

即便是在遍布個性化的當今社會。當我去Mesilla當地的一家咖啡店,咖啡師會問: “超大杯拿鐵外帶?”,因為他已經記住了我每天的購買習慣。我把我的貴婦犬帶到美容師那兒,她都不需要再問我喜歡做什么類型的修剪,因為她知道我喜歡沒有 多余裝飾運動型,并且喜歡德國風格的耳朵。

然而從100年前的小鎮開始,一切都在發生轉變。大型的雜貨商店和超市取代了鄰里的小賣部等傳統的商業。在轉變之初,可供的選擇是非常有限的。 Henry Ford曾經說過:“任何顧客都可以選擇任何他所中意的汽車顏色,只要它是黑色的。”。 CD店只銷售種類有限的CD;書店只銷售種類有限的書本。如果你想吃冰淇淋,口味只有是香草味、巧克力味、或者草莓味。在1950年,想買一臺洗衣機?當 地的Sears百貨只有兩款供選擇: $55的標準版和$95的豪華版。

歡迎來到21世紀

在21世紀的今天,那些有限的選擇已然成為歷史。如今,想買音樂?iTunes有1100萬首歌可供選擇。1100萬!截止到2011年10月,銷售量達到160億之多。如果我還需要更多的選擇,Spotify上有超過1500萬的歌曲。

如果我想買本書,Amazon上有超過200萬的書籍可供選擇。

enter image description here

如果我想看視頻,這里有很多選擇:

enter image description here

如果想買筆記本電腦?在Amazon上搜索"筆記本電腦", 你會得到3811個結果;當搜索"電飯鍋",你會得到超過1000的搜索結果。

enter image description here

在不久的將來,你的選擇會越來越多:上百億的在線歌曲,各種各樣的視頻,已經通過3D打印技術得到的個性化商品。

#p#

發現與自己相關的東西

以上所有的問題在于尋找相關的東西。iTunes上所有的1100萬首歌曲中,可能有相當數量的歌曲是我真正喜歡的,但我怎么把它們找出來。今晚我 想在Netflix上看一部電影,我應該看哪一部。我想通過P2P下載一部電影,可是我應該下載哪一部。問題還會變得更糟糕,因為每分鐘都有TB級別的內 容(歌曲、視頻等)被上傳到網上。每分鐘都有100個新的文件在新聞組上發布。每分鐘都有時長24小時的視頻上傳到YouTube。每小時有180本新書 出版。在現實世界里,每天有越來越多的東西可以選擇購買。這使得在這些海量的可供選擇的東西中找出相關聯的東西變得越來越困難。

如果你是一個媒體制造商——比如說Malaysia的Zee Avi(馬拉西亞的爵士才女),危險不在于有人非法下載你的音樂,而是你的音樂因為信息過載變得無人問津。

enter image description here

如何找到與自己相關的東西?

在很多年前的那個小鎮上,我們的朋友會幫我們找到相關的東西:如那批新進的布料很對我的胃口;書店剛到的小說、唱片店新到的33 1/3 LP很適合我的偏好。直到今天,我們依然依靠朋友的幫助來找到與我相關的東西。

同時,專家會幫助我們找到與我們相關的東西。在過去,"消費者報告"能評估所有在售的那20款洗衣機,以及10 款電飯鍋,并作出推薦。如今亞馬遜提供了上幾百種電飯鍋,單個專家幾乎不可能對所有的這些電飯鍋進行評價。在過去,Roger Ebert(美國影評人、劇本作家,普利策獎獲得者)會評論幾乎所有的電影。而現如今全世界每年將出產大約25,000部電影。加上我們現在從各種渠道獲 得的視頻資源。Roger Ebert,或者任何一個專家,是不可能對我們所能看的所有的電影加以評論。

我們也可以用東西本身來幫助我們尋找相關的東西。例如,30年以來,我一直在使用一臺Sears洗衣機,我可能會打算再買一臺新款的Sears洗衣機。我喜歡披頭士樂隊的某張專輯——如果機會合適的話我還會再買一張他的專輯。

這些尋找相關東西的方法——朋友,專家,東西本身——在今天仍然適用,但是我們需要借助一些計算的方法來將這些方法遷移到擁有數以十億計的物品的二 十一世紀。在這本書里,我們將探索聚集用戶偏好、購買歷史以及其他數據的模型和方法,利用社交網絡(好友)的力量來幫助我們挖掘相關聯的東西。同時我們還 將運用事物本身的屬性。例如,我喜歡Phoenix樂隊,推薦系統可能知道Phoenix樂隊的屬性——使用電子搖滾樂器、有朋克影響力、巧妙的運用和 聲,系統因此會給我推薦具有類似屬性的樂隊,例如:The Strokes樂隊。

enter image description here

不僅僅只是東西

數據挖掘不僅僅是推薦東西給我們,或者幫助商人出售更多商品。請參考下面這些例子:

100多年前的那個小鎮鎮長熟知鎮上每一個人,當他再次參加競選的時候,他知道如何根據每個人的具體情況去說服他們為自己投票:

——Martha,我知道你喜歡上學,我會盡我的一切力量去為我們鎮再找一個老師。

——John,你的面包店最近怎么樣?我承諾你所在的城區將獲得更多的停車位

enter image description here

我的父親屬于United Auto Workers' Union。在競選期間,我記得工會代表來到我們的家里提醒我父親把票投給某個候選人:

——你好,Syl,你的妻子和孩子還好吧?... 現在我來告訴你為什么應該把票投給社會主義黨的市長候選人Frank Zeidler...

隨著電視的崛起,這種個性化的政治信息轉變成了類似的廣告,但每個人得到了幾乎相同的信息。有一個很好的例子是著名的支持Lyndon Johnson的菊花電視廣告(一個年輕的小女孩正在掰著菊花花瓣,背景是一顆原子彈爆炸)。如今,競選被小的利益和日益增長的數據挖掘決定,個性化已經 回歸。你對婦女權利很感興趣嗎?你很有可能收到關于這個話題的機器人電話。

那個小鎮的警長對鎮上的搗蛋者非常清楚。如今,威脅被隱藏起來了,恐怖分子可能出現在任何地方。2001年10月11日,美國政府通過了USA Patriot Act(Uniting and Strengthening America by Providing Appropriate Tools Required to Intercept and Obstruct Terrorism的簡稱)。該法案使得調查者能夠獲得各種來源的記錄,包括圖書館(我們讀了什么書?)、酒店(誰待在哪兒?待了多長時間?)、信用卡公 司、公路費用登記記錄著我們曾經經過哪些地方。在很大程度上,政府利用私有公司來保存那些與我們有關的數據。像Seisint公司就有幾乎我們所有人的數 據:我們的照片、我們的住址、我們的車,我們的收入,我們的消費行為,我們的朋友。Seisint采用超級計算機來進行數據挖掘,用以對人們進行預測。因 此他們的產品叫做... The Matrix

enter image description here

#p#

數據挖掘擴展我們的能力

Stephen Baker在他的新書The Numerati是這樣開頭的:

想象一下你坐在正在某個咖啡廳,或許還有點吵。在你右邊的桌子,一位年輕的女士正在筆記本電腦上敲打著。你轉過頭看了下她的屏幕。她正在上網, 你就這么看著。 幾個小時過去了,她正在看一篇在線文章。你注意到她看了三篇關于中國的文章。她尋找了周五晚上準備看的電影,并且看了功夫熊貓的預告片。她點擊了一個廣 告,廣告上承諾可以聯系到她的高中同學。你坐在那兒記著筆記。隨著每一分鐘過去,你都進一步地了解這位女士。現在想象你可以同時關注1.5億人上網。

數據挖掘(Data Mining)關注于尋找數據中的模式。在小規模數據上,我們是構建心理模型并發現模式的專家。例如,我想和我妻子今晚一起看一部電影,我對她的喜好有一 個心理模型,我知道她不喜歡暴力影片(因為她不喜歡那一季的《第九街區》);她喜歡Charlie Kaufman的電影。我可以使用這個電影偏好相關的心理模型來預測她可能喜歡或者不喜歡的電影。

enter image description here

一個從歐洲遠道而來的朋友來訪。我知道她是一個素食主義者,利用這一信息,我可以預測她不會喜歡當地的排骨。人們很擅長構建模型和作出預測。數據挖 掘擴大了這個能力并且使我們能夠處理大量的信息——比如上面書中引用的1.5億人。數據挖掘技術使得Pandora可以根據個人的音樂偏好來構建個性化的 音樂電臺,也使得Netflix能為你提供個性化的電影推薦。

TB級的數據挖掘不是那些來自星級爭霸II的東西

20世紀末,100萬字的數據集被認為是很大。20世紀90年代,當我還是個研究生的時候(是的,我很老。),我作為一個程序員在《Greek New Testament》研究了一年,它僅僅只有20w個詞,但是數據分析時發現,這數據還是太大以至于不能直接載入內存,因此不得不將結果拆解到可以在后臺 處理的磁帶上。

如今,對TB級的信息量進行數據挖掘已經非常常見了。谷歌就有超過5PB(5000TB)的網頁數據。2006年,谷歌在研究社區發布了一個基于億 萬字數的數據集。國家安全局(NSA)有億萬個通話記錄。Acxiom是一家收集美國2億成年人信息(信用卡消費、通話記錄、醫療記錄、汽車注冊等)的公 司,他收集了超過1PB的數據。

enter image description here

Robert O'Harrow, Jr. ——《No Place to Hide》的作者,他試圖幫助我們理解多少信息是1PB,他說1PB就相當于堆放了50000英里的King James Bible。我經常開車從New Mexico到Virginia,那是2000英里。當我試著想象一路上堆滿的圣經,看起來像一個無法想象的數據。

enter image description here

國會的圖書館有大約20TB的文本。你可以將整個國會圖書館的文本存放在一個幾千美元就可以買到的硬盤上!作為對比,Walmart有超過570TB的數據,所有的這些數據并非僅僅存在哪里——它被不停地挖掘,構建新的關聯關系,挖掘新的模式。這就是TB級的數據挖掘。

在這邊書中,我們將處理一些小的數據集,這是一件很幸福的事。我們不想讓我們的算法跑上一個星期以后,卻發現我們的算法出現邏輯錯誤。我們用到的最大的數據集在100MB以下,最小的也就幾十行數據。

 

原文鏈接:http://www.ituring.com.cn/article/56258

責任編輯:陳四芳 來源: 圖靈社區
相關推薦

2013-10-15 15:17:47

程序員數據挖掘

2015-12-30 09:25:47

編程故事printf

2014-01-13 11:22:28

storm

2011-07-19 17:25:14

jQuery MobiAndroid

2012-02-09 10:39:37

AndroidWeb App官方文檔

2023-08-03 13:56:53

配置文件容器

2023-05-24 16:13:31

ChatGPT神經網絡

2011-07-20 10:27:18

jQuery Mobi手機新聞瀏覽器

2018-04-23 11:00:06

程序員養生健康

2014-08-01 10:18:16

.Netdump

2020-08-06 13:05:10

程序員網頁數據

2015-07-28 17:58:22

程序員指南

2013-07-04 13:50:14

2009-06-22 09:06:57

程序員技術升級

2010-12-07 10:40:27

軟考系統架構設計師

2012-02-01 09:30:54

HTML 5

2022-02-16 18:21:33

程序員跳槽架構

2011-08-12 11:32:32

2011-08-12 11:32:32

2014-12-11 17:55:05

程序員
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩一区不卡 | 九九久久国产 | 欧美日韩亚洲国产综合 | 欧美日韩在线一区二区 | 成人免费视频 | 99久久婷婷 | 精品美女在线观看视频在线观看 | av在线视 | 亚洲一区二区三区在线 | 欧美在线一区二区三区 | 国产激情网站 | 一级毛片色一级 | 91免费在线| 狠狠骚 | 欧美精品片 | 成人自拍视频 | 国外成人在线视频网站 | 国内精品视频在线观看 | 综合九九 | 97高清国语自产拍 | 91在线观看 | 午夜爽爽男女免费观看hd | 亚洲区视频 | 黄色一级免费观看 | 色久电影| 日本高清视频在线播放 | 国产精品美女一区二区 | 欧美久久久网站 | 最新日韩欧美 | 一区二区三区欧美在线 | 国产精品日韩欧美一区二区三区 | 九九热热九九 | 亚洲一区二区av在线 | 国产传媒毛片精品视频第一次 | 国产草草视频 | 天天看逼 | 日韩在线观看中文字幕 | 亚洲精品一区二区三区在线观看 | 欧美日韩久久 | 国产精品一级 | 成人妇女免费播放久久久 |