學(xué)習(xí)人工智能,這項(xiàng)核心技術(shù)你必須知道!
自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。涉及的領(lǐng)域較多,主要包括機(jī)器翻譯、機(jī)器閱讀理解和問(wèn)答系統(tǒng)等。
從語(yǔ)音識(shí)別到智能家居,從人機(jī)大戰(zhàn)到無(wú)人駕駛,人工智能的“演化”給我們社會(huì)上的一些生活細(xì)節(jié),帶來(lái)了一次又一次的驚喜。同時(shí),人工智能也掌握著多種核心技術(shù)。
自然語(yǔ)言處理:利用計(jì)算機(jī)為工具,對(duì)書(shū)面實(shí)行或者口頭形式進(jìn)行各種各樣的處理和加工的技術(shù),是研究人與人交際中以及人與計(jì)算機(jī)交際中的語(yǔ)言問(wèn)題的一門(mén)學(xué)科,是人工智能的主要內(nèi)容。
自然語(yǔ)言處理是研究語(yǔ)言能力和語(yǔ)言應(yīng)用的模型,建立計(jì)算機(jī)(算法)框架來(lái)實(shí)現(xiàn)這樣的語(yǔ)言模型,并完善、評(píng)測(cè)、最終用于設(shè)計(jì)各種實(shí)用系統(tǒng)。
🔻
信息檢索
信息檢索起源于圖書(shū)館資料查詢(xún)檢索,引入計(jì)算機(jī)技術(shù)后,從單純的文本查詢(xún)擴(kuò)展到包含圖片,音視頻等多媒體信息檢索,檢索對(duì)象由數(shù)據(jù)庫(kù)擴(kuò)展到互聯(lián)網(wǎng)。
常見(jiàn)模型:布爾模型,向量空間模型,概率模型
常用技術(shù):倒排索引,隱語(yǔ)義分析(LDA等)
機(jī)器翻譯
機(jī)器翻譯技術(shù)是指利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)從一種自然語(yǔ)言到另外一種自然語(yǔ)言的翻譯過(guò)程。基于統(tǒng)計(jì)的機(jī)器翻譯方法突破了之前基于規(guī)則和實(shí)例翻譯方法的局限性,翻譯性取得了巨大提升。
文檔分類(lèi)
文檔分類(lèi):其目的就是利用計(jì)算機(jī)系統(tǒng)對(duì)大量的文檔按照一定的分類(lèi)標(biāo)準(zhǔn)實(shí)現(xiàn)自動(dòng)歸類(lèi)。
文檔分類(lèi)的方法有基于機(jī)器學(xué)習(xí)的方法(如svm,decision tree)和基于深度學(xué)習(xí)(如cnn,rnn)的方法。
流程:樣本處理 — 特征選擇 — 分類(lèi)。
應(yīng)用:圖書(shū)管理、內(nèi)容管理、情感分析等
問(wèn)答系統(tǒng)
問(wèn)答系統(tǒng)分為開(kāi)放領(lǐng)域的對(duì)話系統(tǒng)和特定領(lǐng)域的問(wèn)答系統(tǒng)。問(wèn)答系統(tǒng)技術(shù)是指讓計(jì)算機(jī)像人類(lèi)一樣用自然語(yǔ)言與人交流的技術(shù)。人們可以向問(wèn)答系統(tǒng)提交用自然語(yǔ)言表達(dá)的問(wèn)題,系統(tǒng)會(huì)返回關(guān)聯(lián)性較高的答案。
語(yǔ)音識(shí)別
語(yǔ)音識(shí)別(Speech Recognition):將輸入計(jì)算機(jī)的語(yǔ)音信號(hào)轉(zhuǎn)換成書(shū)面語(yǔ)表示。
應(yīng)用:文字錄入、人機(jī)通訊、語(yǔ)音翻譯等
語(yǔ)義理解
語(yǔ)義理解技術(shù)是指利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)文本篇章的理解,并且回答與篇章相關(guān)問(wèn)題的過(guò)程。語(yǔ)義理解更注重于對(duì)上下文的理解以及對(duì)答案精準(zhǔn)程度的把控。語(yǔ)義理解技術(shù)目前在智能客服、產(chǎn)品自動(dòng)問(wèn)答等相關(guān)領(lǐng)域發(fā)揮著重要的作用。
文本挖掘
主要包括對(duì)文本進(jìn)行聚類(lèi)、分類(lèi)、抽取摘要、情感分析等。同時(shí),要對(duì)挖掘的信息和知識(shí)的進(jìn)行可視化,形成交互式的表達(dá)界面。
信息抽取
信息抽取 即從自然語(yǔ)言文本中抽取出特定的事件或事實(shí)信息,幫助我們將海量?jī)?nèi)容自動(dòng)分類(lèi)、提取和重構(gòu)。
這些信息通常包括實(shí)體、事件、關(guān)系。
例如從新聞中抽取時(shí)間、地點(diǎn)、關(guān)鍵人物,或是從技術(shù)文檔中抽取產(chǎn)品名稱(chēng)、開(kāi)發(fā)時(shí)間、性能指標(biāo)等。
與自動(dòng)摘要相比,信息抽取更有目的性,并能將找到的信息以一定的框架展示。
信息抽取被廣泛應(yīng)用在:信息檢索、問(wèn)答系統(tǒng)、情感分析、文本挖掘
社交媒體分析
社交媒體的應(yīng)用,如Twitter和Facebook,都有標(biāo)簽和趨勢(shì),并使用自然語(yǔ)言處理來(lái)跟蹤和監(jiān)控這些標(biāo)簽和趨勢(shì),以了解世界各地正在交談的話題。此外,自然語(yǔ)言通過(guò)過(guò)濾負(fù)面的、攻擊性的和不恰當(dāng)?shù)脑u(píng)論和帖子來(lái)幫助優(yōu)化過(guò)程。
情感分析
這也被稱(chēng)為情感的人工智能,它是從書(shū)面和口頭語(yǔ)料庫(kù)中識(shí)別、提取和量化情感和情感狀態(tài)的過(guò)程。情感分析工具用于處理諸如客戶(hù)評(píng)論和社交媒體帖子之類(lèi)的事情,以理解對(duì)特定事物的情緒反應(yīng)和意見(jiàn),比如新餐廳的菜品質(zhì)量。
其實(shí)自然語(yǔ)言處理所涉獵的范圍不局限于上述幾點(diǎn),自然語(yǔ)言處理的終極目標(biāo)是用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,使人們可以用自己最習(xí)慣的語(yǔ)言來(lái)使用計(jì)算機(jī),而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言。這樣看來(lái),自然語(yǔ)言處理是真的很牛!