成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新技術(shù)對傳統(tǒng)學科的顛覆:系譜網(wǎng)使用大數(shù)據(jù)尋親問祖

云計算
Ancestry.com服務幕后的人已經(jīng)意識到了這一點。現(xiàn)在,他們正在最大限度的利用其4PB的數(shù)據(jù)庫(包括官方的個人記錄,用戶提交的信息和其它有新特征的數(shù)據(jù)),為用戶提供由計算機生成但是可編輯的祖先信息摘要。

家譜網(wǎng)愛好者可能認為在Ancestry網(wǎng)上通過人口普查記錄、出生證明和其他文件來尋找親屬的信息這件事很有趣。當向朋友和親屬來炫耀自己的個人記錄時,就顯得不那么有說服力了,而且講述一個祖先的社會檔案并不簡單。

Ancestry.com服務幕后的人已經(jīng)意識到了這一點。現(xiàn)在,他們正在最大限度的利用其4PB的數(shù)據(jù)庫(包括官方的個人記錄,用戶提交的信息和其它有新特征的數(shù)據(jù)),為用戶提供由計算機生成但是可編輯的祖先信息摘要。

Ancestry網(wǎng)推出的這項服務名為Story View,本季度早些時候只針對一小部分客戶,現(xiàn)在10%的客戶都可以享受這一服務了。該公司的產(chǎn)品執(zhí)行副總裁Eric Shoup在最近一次采訪中表示,他們計劃在正式發(fā)布Story View功能前,將對比Stroy View功能使用前后的情況,以進一步完善Story View。通過允許用戶圍繞一個單頁的文檔圖像以及編輯文件中的文本部分,Ancestry已經(jīng)增強了這項功能的互動性。

它是如何工作的

Story View功能基于一個比較成熟的工具,該工具可以對親屬數(shù)據(jù)包括一些手寫的記錄進行數(shù)據(jù)挖掘。但是有時只有關(guān)鍵字段,如姓名和居住地。客戶可以訪問手寫記錄,定位到一個親屬被描述的位置,查看未被處理的數(shù)據(jù),比如那個人的職業(yè)。

通過逐步指導"keyers"解析手寫記錄,并將記錄轉(zhuǎn)換為可搜索的文本,Ancestry正在試圖通過手寫記錄獲取更多信息。街道地址已經(jīng)通過這種方式添加進去,其它的字段以后也會添加。同時,由于Ancestry在不斷擴充其資料庫,社會檔案也會有更多的來源。

 

 

為了從多個文檔中提取信息生成一個段落總結(jié),Ancestry求助于Narrative Science,該公司成立于2010年,專注于使用機器生成可讀的拷貝(傳說中會讓我們小編都失業(yè)的技術(shù))。早期應用于體育賽事的報道和上市公司的收益報告,現(xiàn)在Narrative Science技術(shù)被更多的用于個人信息處理。

Ancestry敘事(narrative)和內(nèi)容(context)服務團隊的首席開發(fā)人員Reed McGrew說,當Ancestry第一次采用Narrative Science技術(shù)時,只能分批地產(chǎn)生數(shù)據(jù)。它們會生成大量的財務報告,這并不是我們試圖提供的,因為這種批處理確實很慢。

幾個月內(nèi),Narrative Science開發(fā)了一個新的API,這個API可以在更精細的水平上工作。McGrew說:“它們基于單個用戶生成社會檔案”。

Ancestry精于處理家譜信息,該公司的編輯提供編輯的標準,或“規(guī)則”,規(guī)定了narratives收發(fā)數(shù)據(jù)的格式。McGrew解釋了Ancestry標準:“比如遇到孩子只比母親小10歲的記錄,這更像是輸入錯誤,雖然現(xiàn)實情況中也會發(fā)生,但多數(shù)情況下不會,所以我們會把這條記錄當成錯誤的來處理”。

 

 

包含Shoup某個親屬信息的記錄

在Story View中,一個祖先的圖片和生活摘要下面是一個縮放的文檔圖片,而不是結(jié)構(gòu)化文本的離散字段。圖片的旁邊,Ancestry會提供從文檔信息中生成的導語。一旦Ancestry發(fā)現(xiàn)所有的記錄都和一個人有關(guān),就會根據(jù)Ancestry的編輯規(guī)則選擇出特定的事實組裝成完整的句子。一旦基于文檔的導語顯示在瀏覽器中,用戶就可以在共享前編輯和保存它們。

很難共享

Ancestry的CIO Scott Sorenson說,我們面臨的挑戰(zhàn)并不在于創(chuàng)建和存儲用戶的新數(shù)據(jù)和網(wǎng)頁。存儲會變得越來越便宜,精確的手寫記錄處理也不是問題。通常keyers都在中國找,中國的字符集比我們的字母表要大很多,他們很擅長鍵入這些記錄。

真正困難的部分是確保服務的高可用性,數(shù)以百萬的用戶提供正確的文檔和文本,并確保網(wǎng)站流量高峰時不致崩潰,但是Story View的目標之一是讓更多的人瀏覽網(wǎng)站內(nèi)容并最終注冊。

責任編輯:王程程 來源: GigaOM
相關(guān)推薦

2014-03-12 10:31:32

大數(shù)據(jù)

2011-11-09 13:06:48

OpenFlow

2022-11-21 14:33:53

大數(shù)據(jù)數(shù)據(jù)存儲機器學習

2015-09-02 09:37:48

2015-08-19 10:10:39

CIO時代網(wǎng)

2018-04-25 11:40:51

ODCC

2013-09-17 09:21:51

2015-10-16 09:14:36

數(shù)據(jù)中心傳統(tǒng)數(shù)據(jù)中心

2013-09-18 13:57:00

大數(shù)據(jù)時代

2014-06-19 09:49:26

大數(shù)據(jù)

2015-10-26 17:40:05

AWS QuickSi大數(shù)據(jù)創(chuàng)新技術(shù)

2020-01-13 07:36:30

機器人技術(shù)傳統(tǒng)行業(yè)

2012-12-12 13:06:00

2015-09-24 10:04:44

物聯(lián)網(wǎng)醫(yī)療行業(yè)

2012-12-14 10:02:29

2014-06-03 18:57:12

浪潮HCM

2014-03-11 10:19:16

ThoughtWork

2011-07-05 11:33:27

2013-07-12 10:30:34

2015-10-30 10:27:27

物聯(lián)網(wǎng)教育
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产在线小视频 | 欧美日韩理论 | 日韩福利 | 久久久精品网 | 亚洲国产中文字幕 | 天天拍天天操 | 日韩视频在线免费观看 | 免费在线观看一区二区 | 亚洲成人一区二区三区 | 请别相信他免费喜剧电影在线观看 | 青青草av网站 | 日韩电影一区二区三区 | 亚州精品天堂中文字幕 | 性天堂网 | 视频一区在线播放 | 在线观看中文字幕dvd播放 | 亚洲成人免费视频 | 成人性生交a做片 | 久草在线影| 日韩午夜影院 | 久久久久久久久精 | 亚洲人成人一区二区在线观看 | 天堂综合| 在线视频一区二区三区 | 色综合一区二区 | 国产精品一区二区久久 | 一区二区三区网站 | 日韩精品| 亚洲精品中文字幕 | 国产精品一区二区欧美黑人喷潮水 | 亚洲一区免费在线 | av国产精品毛片一区二区小说 | 男女污污动态图 | 久一久| 免费一级欧美在线观看视频 | 国产剧情一区 | 国产黄色在线观看 | 天天射网站 | 91一区二区在线观看 | 中文字幕国产视频 | 日韩av免费看 |