自然語言處理NLP開發有哪些值得關注的開源工具?
智能語音助理、聊天機器人是時下人工智能的熱點和突破口,但是并非每家公司都具備谷歌、Facebook、亞馬遜、蘋果等公司的經濟和技術實力來開發NLP應用,尤其是難度最大的會話型NLP應用。
所幸,目前NLP的開源技術已經足夠強大,您可以輕松地“在巨人的肩膀上”,只需一個小型的專業團隊,借助合適的平臺方法就能開發出令人驚嘆的,行之有效的NLP應用程序。
下表概述了當下一些值得研究的開源工具:
其次,即使有如此豐盛的精品技術資源觸手可及,開發一個前端NLP(一個“會話”,這是大多數人在想到人工智能時所想到的)仍然需要遠見和堅持。因為在您看到一些高級功能的回報之前,它往往需要大量的前期投資。
后端NLP更容易,并提供更直接的投資回報率
基于NLP的業務改進不一定需要具有會話前端。后端驅動或語言分析項目通常是在短期內使用NLP見效最快,成本效益最好,最高回報的方式。此類項目的開發往往只需要兩到三人的團隊,在幾個月內完成。
Cloudera機器學習總經理Hilary Mason在最近的Strata會議的主題演講中展示了后端NLP的一個很好的例子。Mason解釋了Cloudera如何使用NLP降低其呼叫中心成本并提高客戶滿意度。他們從呼叫中心采集了記錄呼叫的統計樣本,并將其轉錄為文本。他們對該語料庫進行了文本分析,尋求與特定問題和問題解決步驟相關的語音模式。然后,他們將基于此分析結果的預測模型部署到其呼叫中心系統中。當客戶打電話時,基礎算法識別出語音模式,并在客戶與客戶交談時主動向客戶服務代表推薦可能的解決方案。
會話型NLP成本更高,需要戰略情懷和長線投入
如果你致力于會話式NLP(或AI),希望機器與人類的交互能夠達到人類之間的那種流暢和模糊性,這在技術上具有極大的挑戰性,成本也很高。我們不是在聊聊天機器人,聊天機器人其實是一個非常簡單的程序,可以跟蹤特定任務的相對結構化的對話,并處于某些預定義的環境,如Facebook Messenger。而會話AI是完全不同的,與Alexa類似,它們無處不在(它們隨處可見),可以處理多個應用程序(也稱為意圖),并且可以處理各種響應。他們還可以迅速切換場景 – 比如從提供有關今天天氣的信息到預訂餐廳。
目前已經存在多個開源平臺(上圖),允許您的團隊在合理的時間范圍內構建功能性(可能算不上完善)的AI,并且成本可以提供正回報。像蘋果,谷歌,微軟和亞馬遜這樣的公司每年都投入了數億美元,并將地球上一些最聰明的博士投入到先進的NLP接口中。而這些開源庫使普通公司和團隊也能憑借3-4人的團隊,用大約一年時間開發出簡單會話AI的基礎平臺,總計投入約為500,000美元。這些早期平臺具有一些簡單的場景對話能力,但不會預先分析用戶(這需要具備安全系統的接口),并且沒有先前用戶會話的記憶。以此平臺為起點,每開發一個新的,簡單的場景對話的成本約1萬美元。
企業應當將會話型NLP的基礎平臺作為一種長線投資,每一個新增的會話功能都會攤薄整體平臺的成本。例如,允許人們對丟失/遺忘的密碼或其他簡單的IT問題進行自助服務可以節省每年至少一個IT運維人員的成本。通過在Excel中使用IRR功能的一些快速計算,并假設該角色每年花費100,000美元,快速計算該“復雜”應用程序的單年ROI約為260%,這顯然值得做。成本只是我們用于確定會話功能開發優先級的一個因素,對于一些重要戰略意義的會話功能,有時我們甚至應當在沒有明確的,或極高的投資回報率的情況下進行投資。