成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“網絡爬蟲+相似矩陣”技術運作流程

大數據
本文嘗試從技術層面分析今日頭條的傳播機制和相關原理。

今日頭條

今日頭條這類資訊聚合平臺是基于數據挖掘技術,篩選和推薦新聞:“它為用戶推薦有價值的、個性化的信息,提供連接人與信息的新型服務,是國內移動互聯網領域成長最快的產品服務之一”。自從2012年3月創建以來,今日頭條至今已經累計激活用戶3.1億,日活躍用戶超過3000萬。

本文嘗試從技術層面分析今日頭條的傳播機制和相關原理。

網絡爬蟲:抓取新聞的基本技術

今日頭條是一個典型的數據新聞平臺,其新聞來源除了合作媒體之外,很大一部分來自于搜索引擎的網絡爬蟲。

網絡爬蟲是什么?

STEP 1:從互聯網各個角落收集信息;

STEP 2:將其中的新聞類信息進行匯總;

STEP 3:匯總的信息經過基于機器學習的分類和排序,劃分出每一個時刻的熱點新聞。

今日頭條作為數據新聞平臺,與一般數據新聞的區別,在于提供一個媒介平臺,展示匯總的信息,而不是一條信息。

網絡爬蟲的工作機制是什么?

網絡爬蟲的工作機制依賴于會聯網互聯網上的超鏈接網絡。

在互聯網上多數網頁,都有超鏈接存在。這些超鏈接將各個網頁鏈接起來構成了一個龐大的網絡,也就是超鏈接網絡。爬蟲作為一種網絡程序從一些網頁出發,保存網頁的內容,尋找網頁當中的超鏈接,然后訪問這些超鏈接,并重復以上過程,這個過程可以不斷進行下去。如圖所示:

爬蟲

“今日頭條”怎么計算:“網絡爬蟲+相似矩陣”技術運作流程

STEP 1:爬蟲從一個種子節點0開始爬取網頁內容,

STEP 2:抓取的同時發現兩個超鏈接,并爬取第一級節點,

STEP 3:從第一級節點開始又發現第二級節點,這個過程不斷進行下去。

這個過程當中有兩種策略:

1、只有窮盡一個層級的所有頁面才爬取下一個層級,這種策略叫做“廣度優先”;

2、發現一個超鏈接后,立刻就開始爬取這個網頁,并持續深入下去,這種過程叫做“深度優先”。

補充說明:

上圖是一個樹狀網絡,現實的網絡不是這么簡單的,里面充滿了“回路”,即新發現的網頁里的超鏈接指向的是已經爬取的老節點。這個時候就需要甄別那些網頁已經被成功抓取。

舉個栗子——

以今日頭條為例說明一下網絡爬蟲在新聞抓取中的工作流程:

STEP 1:工作人員先要在后臺設置新聞來源的字典,比如“網易新聞”、“新浪新聞”、“鳳凰新聞”、“浙江新聞”等等,

STEP 2:通過這些字典,網絡爬蟲將會鎖定到這些網站的超鏈接,從中抓取新聞。

補充說明:

如果這條新聞是在這些新聞平臺相關的博客當中的內容,而不是新聞平臺本身的新聞,網絡爬蟲就抓不到了。

聚合媒體的概念并非如此簡單,除了匯聚來自不同媒體的內容之外,聚合媒體更重要的特征是對不同信息進行分類并排序,得到一個信息匯總界面(aggregator),這種信息匯總往往表現為某種排行榜。這種排行榜在傳播機制上滿足網絡科學中所說的“優先鏈接機制”,即用戶的注意力更傾向于投向那些排名靠前的信息,這個過程可以被經典的傳播學發現:“樂隊花車效應”。這個發現起源于美國的選舉過程。候選人會站在樂隊花車上拉選票,贊同者會站到他的車上。研究發現,人們傾向于登上那些站滿了人的花車,而非那些只有很少人的花車。

推薦系統:個性化定制新聞的技術邏輯

個性化推薦在今日頭條當中發揮著重要作用。

今日頭條的用戶登錄非常人性化。作為一個后起之秀,今日頭條非常具有策略性地允許用戶使用微博、QQ等社交賬號登錄。這個過程實際上授權今日頭條挖掘個人社交網絡的基本信息。因而,便于獲取用戶的個性化信息,比如用戶的興趣、用戶屬性。越用越懂用戶,從而進行精準的閱讀內容推薦。

個性化推薦的基礎是構建推薦系統

推薦系統廣泛地應用于用戶沒有明確需求的場景。推薦系統就算法而言,可以分為:

社會化推薦(Social recommendation, 比如向朋友咨詢);

基于內容的推薦(content-based filtering, 例如根據用戶觀看過的電影推薦其他與之相似的電影);

基于協同過濾的推薦(collaborative filtering,例如查看排行榜,或者找到和自己興趣相似的用戶,看看他們最近看什么電影)。

所以,可以用于構建推薦系統的信息也分為三類:好友、歷史興趣、注冊信息。

推薦系統就是可以關聯用戶和物品的一種自動化工具。除了這些信息之外,時間、地點等信息均可加入到推薦系統的構建中來?,F在,推薦系統已經廣泛地應用于新聞推薦、圖書推薦、音樂推薦、電影推薦、朋友推薦等領域,作為人工智能的一種形式,極大地方便了人們的生活和交往。

推薦系統算法的基礎就是要構造相似性矩陣

這種相似性矩陣可以是物與物的相似性,例如書籍之間的相似性、音樂之間的相似性。以下以基于物品的協同過濾算法(item-based collaborative filtering, ItemCF)為例?;谖锲返膮f同過濾算法可以利用用戶的歷史行為,因而可以使得推薦結果具有很強解釋性。比如,可以給喜歡讀足球新聞的用戶推薦其它相似的新聞?;谖锲返膮f同過濾算法主要分為兩步:

STEP 1:計算物品之間的相似度。

STEP 2: 根據用戶的歷史行為生成用戶的推薦列表。

假設有四個用戶:

用戶1在今日頭條的瀏覽記錄是[a、b、d],

用戶2的瀏覽記錄是[b、c],

用戶3的瀏覽記錄是[c、d],

用戶4的瀏覽記錄是[b、c、d];

可將這四個人的瀏覽行為表達為以下四個物品矩陣:

今日頭條

將個體用戶的物品矩陣相加,可以匯總為所有的新聞矩陣M,M[i][j]表示新聞i和新聞j被多個人同時閱讀的次數。如下所示:

今日頭條

矩陣邏輯

如果兩個新聞被多個人同時瀏覽,那么可以說它們之間的相似度更高。

將以上矩陣歸一化就可以對矩陣進行操作并計算新聞之間的相似度,比如相關相似度或者余弦相似度。

基于物品間的相似性度,如果有一個新用戶進入系統,并且他閱讀了新聞c,那么ItemCF算法可以很快給出與新聞c相似度最高的新聞(b和d),并推薦給這個新用戶。

在推薦過程中,推薦系統可以根據用戶的行為不斷優化相似矩陣,使得推薦越來越準確。

或者,如果用戶可以手動對每個新聞的興趣(如喜歡或討厭)標出,就可以使得推薦更準確。

本質上來說,上面兩個圖是熱點新聞、以及個人定制新聞的基礎原理。它分為兩步完成:

STEP 1:先找出新聞之間的熱點與相似度

STEP 2:將熱點與相似度高的新聞推送給用戶。

舉個栗子——

假設在抗戰勝利70周年當天,有4個人同時瀏覽今日頭條的新聞,

A是女讀者,她點擊了秋季糖水制作方法、育兒應注意的五個事項、閱兵式、新型武器等新聞,

B是中年上班族,他點擊了閱兵式、中國最新兵器譜等新聞,

C是一位年長者,他點擊了養生、閱兵式、新型武器等新聞,

D是一位剛畢業的男大學生,他點擊了英雄聯盟攻略、好萊塢旅行攻略、閱兵式、新型武器等新聞。

熱點和相似度的產生過程:

STEP 1:這四個人同時點擊閱兵式和新型武器,系統算法就會通過點擊和停留的時間計算出閱兵式和新型武器是當天的熱點。

STEP 2:閱兵式和新型武器同時被多人點擊,代表他們之間具有相似性。

STEP 3:當新進用戶點擊新聞時,今日頭條會以最快速度分析他點擊的內容,并在已經排查出的熱點新聞當中尋找他所感興趣的相關內容匹配給他,引導他閱讀熱點。

這一系列的行為都由計算機自動完成。

機制的缺陷

上面的例子說明了定制新聞以泛熱點新聞為基礎數據來完成的事實,這就出現一個問題,即當一個人關注的新聞不是熱點時,系統得不到相關的熱點,就會在該新聞當中尋找其他信息進行再匹配,這樣匹配出的新聞在現有信息的基礎上最大程度吻合了用戶的興趣,但未必會推送當天最熱點的新聞。要想達到這種長尾理論所設想的定制服務,關鍵是對新聞的細分。只有將不同主題細分成各種子主題,再細分下設內容,才能達到真正的私人定制。要做到這一點,實際已經脫離了機械,而在于人對于事物性質的認知與把握。正如法國社會學家??略凇吨R考古學》當中的觀點,分類,是一事物區別于其他事物的根本。而分類,歸根結底是人的主觀能動性的體現;當系統中累計的用戶行為越 多,這種分類越準確,自動化的私人定制也會越貼近用戶需求。

聚合媒體:一種國際新聞界的潮流

聚合媒體在國外的應用也非常廣闊。信息在聚合媒體的數據新聞平臺上的展現,可以是傳統的搜索引擎的平面化展現,也可以是可視化展現。后者如日本的新聞地圖網站(http://newsmap.jp)。日本的新聞地圖項目是基于谷歌新聞做的,它采用不同的顏色將新聞類別區分開來,如紅色代表“World”,黃色代表“National”,用戶可以通過勾選頁面底部的分類欄進行篩選,在頁面頂部可以按照國家和地區進行篩選。網站后臺算法依據相關新聞信息的數量、重要性、點擊量自動調整每個新聞所占面積的大小。

一個非常有意思的聚合新聞網站是GDELT。 GDELT項目(The GDELT Project,http://gdeltproject.org/)監測全球100多種語言實時的廣播、印刷和網絡新聞,識別新聞中的人、地、組織、數量、主題、來源、情緒、時間?;诖?,GDELT推出了全球新聞情緒地圖,數據每一個小時更新一次。其中綠色表示快樂,黃色表示悲傷。數據密度反映了新聞的規模,見下圖:

今日頭條

另外一個很好的例子是社交新聞網站,主要以Digg、Reddit等。這種類型的網站允許用戶注冊、相互關注、提交新聞并對新聞進行打分。其中,得分高的新聞就會進入到流行新聞的頁面。在這個過程當中,各個用戶充當了新聞的把關人,而這種信息把關的方式被稱之為群體把關。

但是,群體把關的意義主要在于將新聞推到流行頁面(webpage ofpopular news),也就是公眾面前。這個階段之后流行信息擴散更像是傳統媒體的新聞擴散方式。其實,這種基于用戶過濾的新聞聚合(news aggregation)存在非常普遍,例如新浪微博上的“熱門話題”、推特上的“趨勢性話題”(trend)等。根據筆者對Digg上新聞擴散的分析,這種新聞聚合對于信息擴散的影響更大,對于那些傳播廣泛的Digg新聞,70%以上的信息接觸是通過熱門新聞被Digg用戶看到的。

主流新聞觀與人工智能

從媒體把關到群體把關是一個進步,從群體把關到計算機或算法把關則隱藏著危險。

過去由編輯所承擔的內容揀選的工作,現在交給了計算機來處理。其信息把關機制發生了根本的變化。在這個過程當中,受到最大影響的是傳統的新聞生產邏輯。傳統的新聞觀重視公眾利益,報道具有長遠影響的事件并提供見解。將這些工作交給機器和算法將帶來前所未有的挑戰:

首先,算法根據使用者所表現出來的“興趣”進行分類和推薦信息,往往容易給用戶推薦一些低質量但用戶短期內喜歡的信息。

其次,不斷地接觸低質量的信息使得個體的新聞素養降低。過于依賴機器幫助我們進行信息把關,容易導致視角越來越局限,不再關注社會整體利益,容易走向犬儒主義。

再次,主流的新聞操作手法保障了新聞從業者面對政治、軍事和社會力量時的獨立和從容。而推薦算法從信息和用戶出發,對于國家和社會整體的關注不夠,這種新聞推送機制的偏向容易帶來攻訐。

未來新聞業走向人機結合時代

從未來新聞的視角來思考新聞行業的轉型更加使得我們意識到回歸新聞本質的重要性。

未來的新聞行業不僅僅是提供有限的案例訪談,而是系統地獲取、積累并分析數據,并挖掘隱含其中的信息。在注意力經濟的時代,向用戶提供這種專業化的信息、專 業化的評論才是媒體的責任。目前迅速崛起的數據新聞正在走向這個方向,只不過在現階段更注重可視化表達。聚合媒體將信息過濾自動化,體現了未來新聞的特 點?;趥€性化的推薦,聚合媒體將人工智能的新聞整合功能進一步帶進我們的生活,提供了很多便利。但是,不應該忽略的是,要警惕太依賴機器和算法所潛藏的 危險:算法或計算機把關有損新聞價值取向。

未來的新聞業,走向人機結合的時代。

責任編輯:李英杰 來源: 傳媒評論
相關推薦

2023-06-01 13:15:23

2022-09-20 07:02:20

網絡爬蟲反爬蟲

2017-06-29 09:15:36

推薦算法策略

2017-05-16 15:33:42

Python網絡爬蟲核心技術框架

2022-11-24 10:24:32

2019-02-26 08:51:34

網絡安全惡意軟件網絡攻擊

2019-10-18 08:52:41

程序員爬蟲Java

2023-05-26 00:51:52

2018-02-23 14:30:13

2022-09-14 23:06:45

2017-04-26 13:30:24

爬蟲數據采集數據存儲

2013-01-22 17:33:30

2010-08-02 16:08:39

ibmdwJava搜索引擎

2018-05-14 15:27:06

Python網絡爬蟲爬蟲架構

2013-09-09 15:06:03

2012-02-23 14:45:45

Linkedin運作原理

2019-06-06 15:00:10

2012-08-13 09:39:57

虛擬化

2024-11-27 06:31:02

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天操天天射综合 | 精品av | 国产精品jizz在线观看老狼 | 九九热视频这里只有精品 | 黄色免费av| 久久久久久国产精品mv | 日本一二三区电影 | 亚洲成网站 | 毛片.com| 欧美日韩一区二区电影 | 91人人看 | 久久亚洲一区二区三区四区 | 国产日韩欧美二区 | 一级黄色毛片a | 亚洲国产一区二区三区 | 午夜电影福利 | 国产乱码久久久久久一区二区 | 亚洲成人自拍 | 国产精品久久久久无码av | 亚洲在线视频 | 99日韩 | 成人网av| 欧美黄色录像 | 密色视频 | 欧美精品一区二区三区蜜桃视频 | 97精品一区二区 | 欧美在线国产精品 | 欧洲一区二区三区 | 欧美成人免费在线视频 | 精品91久久 | 91日韩| 久久久久久久久久久久久九 | 青青操av | 一级美国黄色片 | 精品av| 国产精品久久二区 | 久久99视频这里只有精品 | 欧美99| 久久看精品 | 极品销魂美女一区二区 | 亚洲激情一区二区 |