AI眼中的歷史:用人工智能挖掘舊報紙里的英國現代史
編譯|Sophie 劉曉莉
試問,哪位歷史學家有時間閱讀跨越一個多世紀英國歷史的數千萬份報紙?沒人可以。所以,計算機科學家和歷史學家一起,教會了計算機做這件事——分析新聞報道中的數十億個詞,讓我們重新認識19世紀到20世紀初的英國歷史。
這項研究發表在PNAS上(http://www.pnas.org/content/early/2017/01/03/1606380114),是對“文化組學”這一新興學科的實踐。
(注:文化組學culturomics,指通過數字化文本的定量分析研究人類行為和文化趨勢的計算詞匯學)
計算機分析了1800年至1950年間的3500萬份英國地區新聞報道中的286億詞匯,約占該時期英國地區報刊總量的14%。
作為對比,一個成年人的平均閱讀速度為大約每分鐘300字。按照這個速度,一個人需要整整180年來完成所有的閱讀。如果算上人類的休息時間,閱讀需要的時間就更長了。而計算機算法用大約8周完成了所有的工作,該項目研究員英國布里斯托大學計算機科學家Nello Cristianini稱。
這項研究的第一步是人工檢查,以確保計算機可以從報紙中提取真實的歷史事件。檢查的內容為計算機是否能準確地找到諸如加冕,已知的疾病流行和戰爭等事件。
有趣的部分發生在下一步:研究計算機算法是否可以找到歷史學家使用傳統方法不能找到的歷史事件。
“我們正在尋找一些不太明顯的歷史進程——例如,技術的興起,”Cristianini說。“我們看到1900年左右,技術發生了變化。我們還能進一步解讀更微妙的信號:我們可以看到電報,電話和廣播被公眾接受的速度有多快。這個速度在不斷加快。現在,人們接受Twitter或Facebook只需要一年。”
人工智能分析不僅僅是簡單的字數統計(這是曾經大量數字化文學研究的做法)。這一次,研究人員使用AI技術,如自然語言處理,以獲得對上下文和文本含義的理解。你可以認為它是終極的快速閱讀。
他們發現了什么?這是AI眼中的英國歷史:
電力什么時候趕超了蒸汽?
1898年。這一年,電在新聞中出現的頻率開始超過蒸汽,電能逐漸取代了蒸汽。
圖:20世紀來臨時,電力取代了蒸汽(來源Nello Cristianini / PNAS)
火車什么時候趕超了馬車?
僅僅四年后的1902年。火車的時代開始于19世紀40年代,那時英國開始發展國家鐵路系統。但就新聞方面而言,火車在半個多世紀后才變得比馬車更重要。
圖:“鐵馬”(來源New York Public Library / Flickr)
人們什么時候開始不再討論奴隸制?
對奴隸制的報道高峰出現于1830-1870年廢奴運動時期和1861-1865年美國南北戰爭期間。1870年后,報紙幾乎不再提及奴隸制。
圖:1830年到1870年,奴隸制出現在新聞中(來源Nello Cristianini / PNAS)
記者什么時候開始報道婦女參政權運動?
1906年。一個戲劇性的報道高峰出現在1913年,在女性參政倡議者Emily Wilding Davison試圖在賽馬會上阻攔英國國王的馬之后。
圖:Emily Davison倒在英國國王的馬前,四天后她死于頭部創傷(來源Hulton Archive)
注:女權運動還有這段歷史!今天的一切來之不易啊!
女性什么時候得到了和男性相同數量的報道?
從來沒有過。20世紀開始,對女性的報道率有上升趨勢,且在二戰時期突然增加。但在整個分析覆蓋的時期,新聞中每提到一個女性大約會提到三個男性。在21世紀,這個數字更接近男女比2:1,但這種轉變并不大。
圖:戰爭時期,女性得到了更多的報道(來源Wikime)
勇氣什么時候最重要?
毫不意外,在第一次和第二次世界大戰期間勇氣被提到最多。維多利亞時代的價值觀,例如毅力,在整個分析覆蓋時期表現出報道頻率的穩步下降。但在戰爭年代,對耐力和勇氣等價值觀的報道出現了明顯的增加。
英國和英國人的概念(Britishness)是何時出現的?
注:英國全稱為大不列顛及北愛爾蘭聯合王國United Kingdom of Great Britain and Northern Ireland。不列顛Britain/British是對英國和英國人的統稱,相較于對英國某部分的特指例如England/English是指英格蘭和英格蘭人,或Scotland/Scottish是指蘇格蘭和蘇格蘭人。
對“不列顛”的報道出現于20世紀早期,1900年左右出現第一個峰值,一戰和二戰期間出現了兩個更大的峰值。這個發現和很多歷史學家的觀點不同——很多歷史學家認為“不列顛”在更早前就已經是一個活躍的概念了。
圖:“不列顛”的概念在20世紀早期開始活躍,而傳統上,歷史學家認為“不列顛”出現得更早(來源Nello Cristianini / PNAS)
經濟什么時候成為了口號?
與“經濟”相比,“政治經濟”一直是更為常用的術語,直到1900年左右,這兩個詞的用法變得更加模糊。20世紀初,這兩個術語在約十年間的使用頻率大致相似,之后,“經濟”開始成為更受歡迎的用語,在幾個劇烈的峰值后使用頻率開始穩步上升。
圖:“政治經濟”的使用被“經濟”取代(來源Nello Cristianini / PNAS)
原文:
http://www.ibtimes.co.uk/here-are-top-moments-modern-british-history-according-artificial-intelligence-1600122
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】