成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

關(guān)于百度中文分詞

開(kāi)發(fā) 前端
中文分詞指的是將一個(gè)漢語(yǔ)句子切分成一個(gè)一個(gè)單獨(dú)的詞,按照一定的規(guī)則重新組合成詞序列的過(guò)程。本文主要介紹百度中文分詞,希望對(duì)你有幫助,一起來(lái)看。

了解搜索引擎分詞技術(shù)對(duì)于我們的SEO工作有著重大的意義,不管是我們的關(guān)鍵詞布局還是鏈接架構(gòu),都跟分詞有莫大的關(guān)聯(lián)。這里蕭涵給大家談下一百度的中文分詞(當(dāng)然也不局限于百度,其他搜索引擎也是差不多的)。本文分兩個(gè)部分,首先是摘取已有的關(guān)于分詞的解釋?zhuān)硗庠偌尤胛易约簩?duì)分詞的擴(kuò)展思路。

什么是中文分詞?我們都知道,英文句子都是由一個(gè)一個(gè)單詞按空格分開(kāi)組成,所以在分詞方面就方便多了,但我們中文是一個(gè)一個(gè)漢字連接而成,所以相對(duì)來(lái)說(shuō)是比較復(fù)雜的。中文分詞指的是將一個(gè)漢語(yǔ)句子切分成一個(gè)一個(gè)單獨(dú)的詞,按照一定的規(guī)則重新組合成詞序列的過(guò)程。這個(gè)也稱做“中文切詞”。

分詞對(duì)于搜索引擎有著很大的作用,是文本挖掘的基礎(chǔ),可以幫助程序自動(dòng)識(shí)別語(yǔ)句的含義,以達(dá)到搜索結(jié)果的高度匹配,分詞的質(zhì)量直接影響了搜索結(jié)果的精確度。目前搜索引擎分詞的方法主要通過(guò)字典匹配和統(tǒng)計(jì)學(xué)兩種方法。

一、基于字典匹配的分詞方法

這種方法首先得有一個(gè)超大的字典,也就是分詞索引庫(kù),然后按照一定的規(guī)則將待分詞的字符串與分詞庫(kù)中的詞進(jìn)行匹配,若找到某個(gè)詞語(yǔ),則匹配成功,這種匹配有分以下四種方式:

1、正向最大匹配法(由左到右的方向); 

2、逆向最大匹配法(由右到左的方向);

3、最少切分(使每一句中切出的詞數(shù)最小);

4、雙向最大匹配法(進(jìn)行由左到右、由右到左兩次掃描)

通常,搜索引擎會(huì)采用多種方式組合使用。但這種方式也同樣給搜索引擎帶來(lái)了難道,比如對(duì)于歧義的處理(關(guān)鍵是我們漢語(yǔ)的博大精深啊),為了提高匹配的準(zhǔn)確率,搜索引擎還會(huì)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞語(yǔ)的效果。基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象。

通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來(lái)對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過(guò)程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息,當(dāng)然我們的搜索引擎也在不斷進(jìn)步。

二、基于統(tǒng)計(jì)的分詞方法

雖然分詞字典解決了很多問(wèn)題,但還是遠(yuǎn)遠(yuǎn)不夠的,搜索引擎還要具備不斷的發(fā)現(xiàn)新的詞語(yǔ)的能力,通過(guò)計(jì)算詞語(yǔ)相鄰出現(xiàn)的概率來(lái)確定是否是一個(gè)單獨(dú)的詞語(yǔ)。所以,掌握的上下文越多,對(duì)句子的理解就越準(zhǔn)確,分詞也越精確。

舉個(gè)例子說(shuō),“搜索引擎優(yōu)化”,在字典中匹配出來(lái)可能是:搜索/引擎/優(yōu)化、搜/索引/擎/優(yōu)化,但經(jīng)過(guò)后期的概率計(jì)算,發(fā)現(xiàn)“搜索引擎優(yōu)化”在上下文相鄰出現(xiàn)的次數(shù)非常多,那么基于統(tǒng)計(jì)就會(huì)將這個(gè)詞語(yǔ)也加入進(jìn)分詞索引庫(kù)。關(guān)于這點(diǎn)我在《關(guān)于電商與圈的分詞測(cè)試》就是同樣的一個(gè)例子。

中文分詞的應(yīng)用分詞準(zhǔn)確性對(duì)搜索引擎來(lái)說(shuō)十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來(lái)說(shuō)也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁(yè),如果分詞耗用的時(shí)間過(guò)長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來(lái)說(shuō),分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。

對(duì)于我們SEO從業(yè)者來(lái)說(shuō),分詞的原理和方法是必須要掌握的,這樣才能夠?qū)⑽覀兊木W(wǎng)站設(shè)計(jì)得讓搜索引擎容易確定它的主題相關(guān)性。比如我們的網(wǎng)站是關(guān)于SEO培訓(xùn)的,當(dāng)用戶在搜索這個(gè)詞語(yǔ)的時(shí)候,搜索引擎首先會(huì)對(duì)其進(jìn)行分詞,比如分為“SEO”和“培訓(xùn)”,然后在索引庫(kù)中進(jìn)行分別匹配。

這里還涉及到一點(diǎn),也是我自己的總結(jié),每個(gè)詞語(yǔ)分詞后有一個(gè)主詞和副詞,通常是優(yōu)先匹配主詞,然后再匹配副詞,比如這里顯然SEO是主詞,所以優(yōu)先去匹配這個(gè)詞語(yǔ),然后是培訓(xùn)這個(gè)副詞。那么, 我們的網(wǎng)站應(yīng)該如何去布局和架構(gòu),留給大家去思考。

原文地址:http://www.xiaohan86.com/2011061149.html

【編輯推薦】

  1. 網(wǎng)站從建站到盈利之整套SEO工作流程
  2. 做SEO我們不能忽視的人 競(jìng)爭(zhēng)對(duì)手的力量
  3. SEO菜鳥(niǎo)需要掌握哪些基本SEO技巧?
  4. 親身實(shí)踐講述SEO賺錢(qián)門(mén)路
  5. 五十個(gè)你必須知道的SEO概念
責(zé)任編輯:于鐵 來(lái)源: 蕭涵SEO
相關(guān)推薦

2011-06-30 18:33:09

分詞

2014-07-25 17:12:39

數(shù)據(jù)庫(kù)WOT2014MongoDB

2013-08-22 17:08:50

2012-05-28 22:51:53

百度

2018-09-06 18:37:45

百度云

2011-10-21 09:28:25

百度地圖API

2014-09-04 02:25:24

百度世界大會(huì)2014直達(dá)號(hào)BaiduEye

2012-10-19 09:47:30

百度云百度音樂(lè)云計(jì)算

2013-06-27 10:23:30

百度云百度開(kāi)放云

2016-03-25 11:18:23

中華網(wǎng)

2020-12-03 06:13:46

iOS

2011-06-01 17:40:29

百度收錄

2022-03-02 11:04:45

百度業(yè)務(wù)盈利

2015-10-28 13:40:28

高仿百度糯米源碼

2011-12-08 15:31:24

百度開(kāi)放平臺(tái)

2020-09-16 13:57:27

百度世界2020百度大腦

2015-04-16 10:22:35

2011-10-28 16:19:21

百度搜索

2012-03-23 11:30:07

百度
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品三级久久久久久电影 | 精品欧美乱码久久久久久1区2区 | 亚洲天堂一区 | 中日韩av| 久久99精品久久久久蜜桃tv | 中文字幕不卡在线观看 | 99热激情 | 午夜影院在线观看免费 | 欧美一区二区三区在线播放 | 中文字幕一区二区三区在线观看 | 中文字幕在线不卡 | 欧美精品网站 | www.黄色网 | 欧美性猛交一区二区三区精品 | 国内精品99| 毛色毛片免费看 | 九九九久久国产免费 | 久久久视频在线 | 丁香五月网久久综合 | 91国产精品在线 | 日韩1区 | 91短视频网址 | 日韩精品一区二区三区中文字幕 | 激情欧美一区二区三区中文字幕 | 欧美二区在线 | 午夜精品久久久久久久久久久久久 | 精品www| 午夜影院在线播放 | www.日韩| 欧美一区二不卡视频 | 午夜视频导航 | 免费观看一级特黄欧美大片 | 日韩中文在线 | 91精品久久久久久久久 | 国产精品美女久久久久久免费 | 91精品国产综合久久久密闭 | 性做久久久久久免费观看欧美 | 一级特黄色毛片 | 欧美日韩视频在线播放 | 剑来高清在线观看 | 国产一区二区三区四区五区加勒比 |