成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="y2kqe"><dl id="y2kqe"></dl></li>

<li id="y2kqe"><tbody id="y2kqe"></tbody></li>

<rt id="y2kqe"><delect id="y2kqe"></delect></rt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

難倒吳恩達(dá)的LLM評(píng)估，有解嗎？

發(fā)布于 2024-7-5 09:05

瀏覽

0收藏

吳恩達(dá)提出LLM-as-a-Judge的幾點(diǎn)困境

吳恩達(dá)老師提出了大語(yǔ)言模型評(píng)估的兩種主要類型

是非性評(píng)估（具備明確的非對(duì)即錯(cuò)的響應(yīng)）
質(zhì)量性評(píng)估（結(jié)果只存在好壞程度的標(biāo)準(zhǔn)）

基于以上兩類的評(píng)估類型，吳恩達(dá)提出了使用如下幾點(diǎn)困境。

創(chuàng)建用于測(cè)量LLM的有標(biāo)記的測(cè)試集成本高昂

在評(píng)估LLM性能時(shí)，創(chuàng)建一個(gè)有標(biāo)記的測(cè)試集是非常必要的。然而，手動(dòng)標(biāo)記數(shù)據(jù)集不僅耗時(shí)，而且成本高昂。這對(duì)資源有限的團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。

難倒吳恩達(dá)的LLM評(píng)估，有解嗎？-AI.x社區(qū)

人類專家來(lái)評(píng)估改進(jìn)不切實(shí)際，高級(jí)的LLM評(píng)估改進(jìn)可靠性不夠

雖然人類專家可以提供高質(zhì)量的評(píng)估，但在實(shí)際操作中，這種方法并不可行。主要原因是專家資源稀缺且昂貴。另一方面，使用高級(jí)的LLM進(jìn)行評(píng)估雖然可以降低成本，但其評(píng)估結(jié)果存在噪聲，導(dǎo)致其可靠性仍然存在問(wèn)題。

實(shí)施評(píng)估產(chǎn)生的額外token成本及時(shí)間成本

每次評(píng)估都需要額外消耗大量的計(jì)算資源，特別是在處理大規(guī)模數(shù)據(jù)時(shí)。這不僅增加了時(shí)間成本，還帶來(lái)了額外的token成本。這對(duì)需要頻繁評(píng)估的團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)不小的負(fù)擔(dān)。

LangSmith的工程化解法

LangSmith以few-shot和持續(xù)于人類對(duì)齊作為其理論根基提出了一個(gè)新穎的工程化解決方案。即將人類對(duì) LLM-as-a-Judge 輸出的糾正存儲(chǔ)為 few-shot 示例，然后在未來(lái)的迭代中將其反饋到提示中。

其實(shí)現(xiàn)的的具體邏輯如下：

基于few-shot提升評(píng)估正確率

首先，LangSmith提出了一種基于few-shot學(xué)習(xí)的方法來(lái)提升LLM評(píng)估的正確率。通過(guò)將少量示例作為輸入，模型可以更好地理解評(píng)估標(biāo)準(zhǔn)，從而提高評(píng)估的準(zhǔn)確性。

難倒吳恩達(dá)的LLM評(píng)估，有解嗎？-AI.x社區(qū)

Aligning LLM-as-a-Judge with Human Preferences

使用反饋收集作為一種程序化地將LLM評(píng)估與人類偏好對(duì)齊

其次，LangSmith還引入了反饋收集機(jī)制，通過(guò)程序化地將LLM評(píng)估與人類偏好對(duì)齊。具體來(lái)說(shuō)，用戶可以對(duì)LLM的評(píng)估進(jìn)行修正，這些修正將作為示例反饋給模型，以便在未來(lái)的評(píng)估中參考。

LangSmith自動(dòng)化反饋收集流程，并自動(dòng)化實(shí)現(xiàn)持續(xù)改進(jìn)

為了簡(jiǎn)化操作，LangSmith實(shí)現(xiàn)了自動(dòng)化反饋收集流程。用戶在應(yīng)用中對(duì)評(píng)估結(jié)果進(jìn)行修正后，這些修正將自動(dòng)存儲(chǔ)并用于未來(lái)的評(píng)估。這種持續(xù)改進(jìn)的機(jī)制使得評(píng)估過(guò)程更加高效和準(zhǔn)確。

OpenAI的前沿研究-CriticGPT

OpenAI也一直在探索LLM評(píng)估的新方法。他們開(kāi)發(fā)了一種名為CriticGPT的模型，旨在讓AI成為更嚴(yán)苛的評(píng)判者，其思路是訓(xùn)練一個(gè)專門挑錯(cuò)的模型：

訓(xùn)練模型識(shí)別錯(cuò)誤

OpenAI讓人類標(biāo)注員在ChatGPT生成的代碼里故意植入一些微妙的bug。
標(biāo)注員扮演代碼審查員的角色，寫下他們對(duì)這些bug的評(píng)論。
用這些數(shù)據(jù)來(lái)訓(xùn)練CriticGPT，讓它學(xué)會(huì)如何發(fā)現(xiàn)和指出代碼中的問(wèn)題。

難倒吳恩達(dá)的LLM評(píng)估，有解嗎？-AI.x社區(qū)

對(duì)抗訓(xùn)練提升模型能力

在訓(xùn)練過(guò)程中，標(biāo)注員會(huì)插入一些隱蔽的bug，并驗(yàn)證這些bug是否能夠騙過(guò)當(dāng)前版本的CriticGPT。通過(guò)這種方法，CriticGPT被迫不斷進(jìn)化，以便發(fā)現(xiàn)越來(lái)越隱蔽的問(wèn)題。

強(qiáng)制采樣束搜索（FSBS）

CriticGPT使用了一種稱為強(qiáng)制采樣束搜索（FSBS）的技術(shù)，這種技術(shù)可以在生成評(píng)論時(shí)保持全面性，同時(shí)減少“幻覺(jué)”和“雞蛋里挑骨頭”現(xiàn)象。這使得CriticGPT能夠生成更為準(zhǔn)確和有用的評(píng)論。

具體來(lái)說(shuō)，F(xiàn)SBS會(huì)強(qiáng)制模型生成多個(gè)不同的評(píng)論片段，用獎(jiǎng)勵(lì)模型對(duì)這些片段進(jìn)行評(píng)分，最后根據(jù)評(píng)分和一個(gè)長(zhǎng)度修正因子來(lái)選擇最佳的評(píng)論組合。

通過(guò)調(diào)整長(zhǎng)度修正因子，可以在評(píng)論的全面性和準(zhǔn)確性之間找到最佳平衡點(diǎn)，既不會(huì)錯(cuò)過(guò)重要問(wèn)題，又不會(huì)過(guò)度挑剔。

結(jié)論

評(píng)估大規(guī)模語(yǔ)言模型的輸出質(zhì)量是一個(gè)復(fù)雜且重要的任務(wù)。LLM-as-a-Judge概念雖然有其困境，但通過(guò)LangSmith和OpenAI的前沿研究，我們看到了有效解決這些問(wèn)題的希望。

LangSmith通過(guò)few-shot學(xué)習(xí)和自動(dòng)化反饋收集機(jī)制，顯著提升了評(píng)估的準(zhǔn)確性和效率。
OpenAI的CriticGPT則通過(guò)不斷進(jìn)化和創(chuàng)新技術(shù)，幫助人類標(biāo)注員更好地識(shí)別和糾正錯(cuò)誤。

這些進(jìn)展不僅推動(dòng)了AI評(píng)估技術(shù)的發(fā)展，也為未來(lái)的AI應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。

本文轉(zhuǎn)載自??AI小智??，作者： AI小智 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

吳恩達(dá)親授智能體四大設(shè)計(jì)模式

duhorse ? 4456瀏覽 ? 0回復(fù)
吳恩達(dá)深度剖析：AI Agent 工作流的演進(jìn)與前景

wsp_ping ? 8393瀏覽 ? 0回復(fù)
吳恩達(dá)：四個(gè)步驟，讓大模型變得更好

輕薄滴假象 ? 2627瀏覽 ? 0回復(fù)
LLM 評(píng)估匯總：真的吊打 LLaMA-3，媲美 GPT-4 嗎？

amei2000go ? 7051瀏覽 ? 0回復(fù)
無(wú)限的場(chǎng)景窗口會(huì)扼殺LLM微調(diào)和RAG嗎？

51CTO內(nèi)容精選 ? 3406瀏覽 ? 0回復(fù)
LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 3127瀏覽 ? 0回復(fù)
應(yīng)用程序任務(wù)驅(qū)動(dòng)：詳細(xì)解析LLM的評(píng)估指標(biāo)

51CTO內(nèi)容精選 ? 3924瀏覽 ? 0回復(fù)
吳恩達(dá)揭秘：編程Agent如何革新軟件開(kāi)發(fā)行業(yè)

ermulong ? 3569瀏覽 ? 0回復(fù)
吳恩達(dá)揭秘：編程Agent如何革新軟件開(kāi)發(fā)行業(yè)

ermulong ? 2854瀏覽 ? 0回復(fù)
MMLU-Pro：新的 LLM 評(píng)估基準(zhǔn)

amei2000go ? 1.2w瀏覽 ? 0回復(fù)
NL2SQL：基于LLM的解決方案是最好的嗎？

大語(yǔ)言模型論文跟蹤 ? 6332瀏覽 ? 0回復(fù)
AI大神吳恩達(dá)教你如何寫出完美的prompt提示詞

AI博物院 ? 3783瀏覽 ? 0回復(fù)
吳恩達(dá)大佬關(guān)于智能體趨勢(shì)的最新觀點(diǎn)！

zhishan15 ? 2111瀏覽 ? 0回復(fù)
4 個(gè)關(guān)鍵的 AI 趨勢(shì) | 吳恩達(dá)在 Snowflake Build 2024 上的演講大綱

AI取經(jīng)路 ? 2320瀏覽 ? 0回復(fù)
吳恩達(dá)開(kāi)源AISuite，簡(jiǎn)單高效調(diào)用多個(gè)大模型

小虎哦哦 ? 3633瀏覽 ? 0回復(fù)
“大模型+知識(shí)圖譜”雙輪驅(qū)動(dòng)的見(jiàn)解、技術(shù)和評(píng)估 - 英偉達(dá)的GraphRAG

知識(shí)圖譜科技 ? 3197瀏覽 ? 0回復(fù)
你的LLM評(píng)估方法過(guò)時(shí)了嗎？這三個(gè)范式轉(zhuǎn)變不容錯(cuò)過(guò)

Baihai_IDP ? 2343瀏覽 ? 0回復(fù)
吳恩達(dá)團(tuán)隊(duì) VisionAgent 開(kāi)啟視覺(jué)開(kāi)發(fā)新捷徑

穿越時(shí)空111 ? 4273瀏覽 ? 0回復(fù)
LLM Agent 協(xié)作評(píng)估難？這 3 款評(píng)估監(jiān)控工具來(lái)幫忙

Baihai_IDP ? 2650瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AI竟會(huì)敲詐人類？16款主流模型壓力測(cè)試揭露驚人風(fēng)險(xiǎn) 8天前發(fā)布
斯坦福重磅研究：80% 打工人將被 AI 重塑！你的工作在 H 幾級(jí)？ 8天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：全新發(fā)布：LangGraph開(kāi)啟認(rèn)知架構(gòu)新紀(jì)元

下一篇： Agent智能體？我們要的到底是什么

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：午夜欧美一区二区三区在线播放 | 涩涩视频网站在线观看 | 91精品国产一区二区三区 | 成人亚洲综合 | 视频一区在线观看 | 亚洲精品国产成人 | 日韩不卡一区二区三区 | 日本一区二区三区免费观看 | 1区2区3区视频 | 欧美日韩综合 | 涩爱av一区二区三区 | 特级黄一级播放 | 日韩中文在线 | 亚洲高清电影 | 国产一区三区在线 | 日韩美av | 亚洲精品久久久一区二区三区 | 亚洲免费人成在线视频观看 | 亚洲精品国产a久久久久久午夜影院网站 | 精品亚洲二区 | 五月婷婷亚洲 | 国产免费看 | 亚洲欧美久久 | 精品欧美一区二区精品久久久 | 欧美jizzhd精品欧美巨大免费 | 81精品国产乱码久久久久久 | 天天欧美 | 午夜一区二区三区视频 | 亚洲精品99 | 亚洲一区在线日韩在线深爱 | 亚洲国产一区二区三区在线观看 | 一区二区三区观看视频 | 日日干夜夜操 | 精品一区二区三区在线观看国产 | 91直接看| 中文在线一区 | 天天弄 | 中文字幕高清一区 | 暖暖日本在线视频 | 精品三级在线观看 | 成人精品一区二区 |

<li id="i2y42"></li>

<button id="i2y42"></button>

<s id="i2y42"><kbd id="i2y42"></kbd></s>

<code id="i2y42"><delect id="i2y42"></delect></code><nav id="i2y42"><dl id="i2y42"></dl></nav>