各位球迷 大數(shù)據(jù)預(yù)測世界杯靠譜嗎?
騰訊科技:
目前采用大數(shù)據(jù)技術(shù)預(yù)測世界杯的,既有百度這樣的互聯(lián)網(wǎng)公司,也有德銀這樣的知名投行。
一、預(yù)測確實(shí)使用了大量數(shù)據(jù)
通過采訪百度的相關(guān)人士,我們發(fā)現(xiàn)百度預(yù)測世界杯的主要數(shù)據(jù)來源包括:百度搜索數(shù)據(jù),球隊(duì)基礎(chǔ)數(shù)據(jù),球員基礎(chǔ)數(shù)據(jù),賠率市場數(shù)據(jù)。百度大數(shù)據(jù)通過分析過去5年987支球隊(duì)的3.7萬場比賽數(shù)據(jù),共涉及29610名球員,112,285,543條相關(guān)數(shù)據(jù),構(gòu)建了足球賽事預(yù)測模型。
為了驗(yàn)證模型是否準(zhǔn)確,百度用2010年南非世界杯的淘汰賽數(shù)據(jù)進(jìn)行了準(zhǔn)確性驗(yàn)證,具體方法是為預(yù)測模型輸入2010年世界杯期間的比賽、球隊(duì)、球員等相關(guān)數(shù)據(jù),由預(yù)測模型計(jì)算出淘汰賽比賽結(jié)果,與當(dāng)時的比賽結(jié)果進(jìn)行對比,結(jié)果顯示16場淘汰賽算準(zhǔn)了12場,準(zhǔn)確率為75%。
德銀則是根據(jù)各個球隊(duì)的FIFA排名、歷史戰(zhàn)績、球員構(gòu)成和賭球賠率等因素,建立了量化分析模型,并根據(jù)復(fù)雜計(jì)算得到一份奪冠概率表格。其中巴西名列第一,緊隨其后的是德國、西班牙、法國。然后再根據(jù)某些假設(shè),得出最終的冠軍得主。
二、推算邏輯并不完美
德銀推算出的最終的冠軍得主是在概率表的基礎(chǔ)上得出的。具體來說,德銀從奪冠概率表格中挑選出了前10強(qiáng),這10強(qiáng)依據(jù)奪冠的概率排名分別是巴西、德國、西班牙、法國、阿根廷、意大利、荷蘭、葡萄牙、烏拉圭和英格蘭。德銀認(rèn)為最終的冠軍只能從這十家選出。
在篩選的過程中,德銀提出了“輪流轉(zhuǎn)周期”概念,德銀認(rèn)為過去19屆世界杯當(dāng)中,有3次是連續(xù)四屆世界杯由不同的四支球隊(duì)奪冠,還有2次是連續(xù)兩屆世界杯由不同的兩只球隊(duì)奪冠,剩下的3屆即從2002-2010年的三屆世界杯構(gòu)成了德銀心中又一個四屆不同得主的輪流轉(zhuǎn)周期的前3/4,德銀由此排除了2014年巴西、意大利和西班牙奪冠的可能性,因?yàn)樗鼈兪沁^去三屆世界杯的冠軍得主。
這樣就剩德國、法國、阿根廷、荷蘭、葡萄牙、烏拉圭和英格蘭七只隊(duì)伍,然后德銀根據(jù)另一個假設(shè):強(qiáng)隊(duì)會回來,即奪取過世界杯的強(qiáng)隊(duì),未來必然還會奪取世界杯或至少打入一次決賽。而英格蘭就在1966年奪過一次冠,此后至今從未進(jìn)過決賽,德銀據(jù)此認(rèn)為英格蘭奪冠可能性大增。
最后,本屆英格蘭隊(duì)有6名隊(duì)員來自利物浦,而正是在利物浦的球員最多的1966年,英格蘭獲得了歷史上唯一一次世界杯冠軍。同時德銀報告的主筆人承認(rèn)自己是利物浦隊(duì)的鐵桿球迷,因此,最后確定英格蘭將獲得世界杯的冠軍。
不難發(fā)現(xiàn)其中的邏輯非常牽強(qiáng)。德銀似乎只為了得出一個想要的結(jié)果而設(shè)置了某個模型或假設(shè),而非根據(jù)確定的科學(xué)模型來推測最終的結(jié)果。有“本末倒置”之嫌。
百度相對來說更加科學(xué)一些,起碼推測的因果順序沒有顛倒。但是百度的推測顯然也有漏洞,百度的模型經(jīng)過自己的驗(yàn)證之后,準(zhǔn)確率也只有75%。而且這個驗(yàn)證是輸入過去的數(shù)字來推測,但是過去準(zhǔn)確的未來并不一定準(zhǔn)確。
三、“醉翁之意”不在預(yù)測本身
用大數(shù)據(jù)來預(yù)測世界杯比用章魚保羅更加可信(起碼從表面上來看是這樣)。不過這種預(yù)測活動更像是利用世界杯而進(jìn)行的營銷活動,目的并不是為了得出某個確定的結(jié)論,而是為了吸引網(wǎng)友的參與。
百度的世界杯預(yù)測還跟足彩投注活動結(jié)合,通過預(yù)測出奪冠率這一數(shù)字,為用戶購買足球彩票提供參考,更像一場商業(yè)活動。
不過,在世界杯到來的前夕,網(wǎng)友們通過企業(yè)所做的預(yù)測得知哪支球隊(duì)可以奪冠也是一種娛樂。對于預(yù)測結(jié)果到底有多大的可信度不必太過認(rèn)真。