為什么我們的數據還不夠開放?
6,000英里的馬路,600英里的地鐵,400英里的自行車道和0.5英里的電車軌道——這是羅斯福島上測量到的數據。
上述基礎設施數據,來自市政機構的發布,比如:交通部會告訴你未來將有多少通向國外的公路,大紐約交通運輸管理局會自信滿滿告訴你一條地鐵軌道延伸的長度,同樣,大多數市政機構會給出類似的數據。
以下是來自出租車管理委員會的報告:紐約市范圍內大概有13,500輛出租車。
這些數據是不是很有趣?但是你有想過這些數據來自何處嗎?
擁有這些數據固然很好,政府機構里總有人也許會說:或許我們的市民對這個或者那個數字感興趣呢。所以他們就重新將原始數據撿拾起來,做些加加減減的運算,成了我們剛才看到的數字。
那么問題來了——我們怎么整理這些數字呢?
事實上,我們對這個城市有著太多的好奇和疑問,以至于這些機構無法回答詳盡,如此以來,這些數據并沒有發揮出應有的作用。
我們的政策制定者并沒有忽視這個問題,早在2012年,Bloomberg市長就簽署了一個數據開放的法案,該法律強制要求城市機構把他們得到的所有數據公開到線上且可搜索,在我們看來,這已經是全國范圍內最全面和最有雄心的數據開放法案了。在簽署法案的這兩年以來,開放數據門戶上已經公布了一千來條的數據,這真的很酷。
所以你不必只是單純地去計算出租車的數量,而是應進一步的問一些問題,比如:紐約的交通高峰是在什么時刻?交通擁堵的確很令人頭疼呀。
我們將出租車數量只看成數字,而GPS記錄儀則記錄走街串巷的每一次路程——根據這些數據,我做了一個紐約出租車全天時速均值的圖表:從午夜時分到早上5點18分,車速一直在增加,隨后一切都在變慢,直到早上8點35分,平均車速達到了11.5英里每小時并一直保持著這個車速,一直到下午六點半——這意味著,出租車全天都在以這個速度行駛,所以,紐約市沒有交通高峰“時刻”,紐約“全天”都處于高峰狀態。
這是不是很有道理的樣子?這些都是數據的功勞。
如果你是交通規劃師,你會很有興趣了解這個情況;如果你想要快點去到某個地方,只需要把鬧鐘定在早上4點45分,那可就萬事大吉了。
剛才我所說的“紐約全天高峰”這個結論并不是自然而來的,而是要歸功于我們的信息自由法。
在出租車委員會的網站上,你想要獲得你想要的數據的話,有一張表格要填,然后就坐等他們聯系你吧——有一個叫做Chris Wong的人真的就這么做了。Chris來了之后,他們要求他帶一個全新的硬盤,全新的哦,5個小時之后,數據就都拷貝下來了。像Chirs這樣的人希望數據能夠公開,于是把他拿到的數據掛在網上供下載,這就是剛才“紐約全天高峰”的原始數據的來源。
這個結論不得不讓我們大吃一驚,當然GPS記錄儀也十分給力。
市民們需要大老遠拿一個移動硬盤取得這些數據,才得以讓政府部門數據公開——這樣的“公開”真的夠“公開”了嗎?這充其量只是“公共數據”,還算不得我們期待的“數據公開”呢。
我們希望市民可以足不出戶就可以去分析政府的公開數據,而不是填寫申請表長途跋涉帶著硬盤漫長等待……
我還根據自行車事故數量,做了一個紐約市最危險的十字路口的地圖。地圖上紅色部分最為危險。
由圖可知,Manheim以東,尤其是它的低洼路段,是自行車事故高發路段,這可以理解,因為很多自行車從橋上下來;但是像Williamsburg和皇后大道(Avenue Queens)為什么也是危險地區,這是值得城市規劃者考慮的。
這才是我們需要的數據,這才是我們一直在尋找的數據,這些數據并不是憑空得來的,它們經過了有心人對原始數據的再挖掘。
我們在呼吁開放數據的時候,遇到了另一個問題:PDF文件格式。
或許有人曾經嘗試過從PDF上拷貝數據,這顯然是吃力不討好的活計。而你們需要的自行車事故數據,來自紐約警署,并且是成百上千頁的PDF文件——要知道,光是復制粘貼這些數據,可能就要花上一兩百個小時呢。
有一個叫做John Kraus的人,他沒有選擇復制粘貼,而是開發了一個“紐約警署數據解碼程序”,然后登陸紐約警署官網,下載了這些人們需要的數據,并進行內容抓取,將結果放在網上,人們才得以做出“紐約市最危險十字路口”的地圖。
從我們獲取的數據來看,每次事故都是茫茫表格中的一列,很難想象:我們需要多少這樣的PDF才能完成這個地圖呢?我們能獲得這些數據的PDF當然已經很好了,畢竟我們有“數據解碼程序”,可是對于想要分析數據的市民來說,PDF格式遠遠不夠,甚至太浪費時間。
我們的城市應該在“數據易得”和“數據易讀”這兩方面更加努力才行呀。
值得肯定的是,最近幾個月,許多職能部門都公開了他們的數據;但是有太多的數據還被禁錮在PDF格式里,觸不可及,比如犯罪數據、城市預算,只提供了PDF版本。試想一下,那些決定城市預算的立法者們,他們也無法對預算進行詳細分析,那他們投票的意義是不是大打折扣了呢。
如此想來,我們的城市也許應該在“數據易讀”上面做得更好。
當然也有很多不是PDF格式的數據,就比如我做的一個地圖,關于紐約最臟的30條水道。
聽起來雖然奇怪,但是我依據的是水中糞便大腸菌的含量。圖上圓圈越大,水質越差,圈圈小的水比較干凈。這個數據來自過去五年里,對內陸水道的水質監測數據。內陸的水道的圓圈都比較大,普遍都比較臟。
從中,我們可以有所收獲的是:***,千萬不要在排入小溪或運河的水域游泳,第二,通過這個方法,我得知紐約最臟的下水道在哪里。因為五年來,94%的水質樣本數據都顯示某地的下水道糞便大腸菌含量過高,觸犯了“讓人們無法游泳”的法律。
這些數據你可沒辦法在城市報告上看到,當然也不會出現在城市官網的首頁上,盡管我們能達到這個原始數據就已經值得高興了;由于這些數據還不是公布在開放數據門戶網站上,所以獲取這個原始數據也并不是那么簡單。
要是你去開放數據門戶上面逛一逛,你就會發現,我們能看到的是一連串的年份和月份;剛才那些數據是來自環保部門的網站,每個鏈接打開都是一個Excel表格,每個Excel表格又是如此不同,連標題都不同。你只能復制、粘貼、重新排版……
當然,依據這些數據作出“水質地圖”是挺不錯的。