成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多智能體在「燃燒」Token!Anthropic公開發(fā)現(xiàn)的一切

人工智能 新聞
最近一段時間,關(guān)于智能體的研究層出不窮。但這也為廣大研究者帶來一些困惑,比如什么任務(wù)需要多智能體?多個 AI 智能體如何協(xié)作?怎么解決上下文和記憶問題……

「Anthropic 發(fā)布了他們?nèi)绾问褂枚鄠€ Claude AI 智能體構(gòu)建多智能體研究系統(tǒng)的精彩解釋。對于任何構(gòu)建多智能體系統(tǒng)的人來說,這是一本必讀的指南?!箘倓?,X 知名博主 Rohan Paul 強力推薦了 Anthropic 一項新研究。

image.png

最近一段時間,關(guān)于智能體的研究層出不窮。但這也為廣大研究者帶來一些困惑,比如什么任務(wù)需要多智能體?多個 AI 智能體如何協(xié)作?怎么解決上下文和記憶問題……

面對這些問題,你不妨讀讀 Anthropic 的這篇文章,或許能找到答案。

image.png

文章地址:https://www.anthropic.com/engineering/built-multi-agent-research-system

多智能體系統(tǒng)的優(yōu)勢

有些研究涉及開放式問題,這類問題往往難以預(yù)先確定所需的步驟。對于復雜問題的探索,人類無法硬性規(guī)定固定路徑,因為這一過程本質(zhì)上是動態(tài)且具有路徑依賴性的。當人們開展研究時,通常會根據(jù)發(fā)現(xiàn)持續(xù)調(diào)整方法,沿著調(diào)查過程中浮現(xiàn)的線索不斷推進。

這種不可預(yù)測性使得 AI 智能體特別適合執(zhí)行研究類任務(wù)。研究工作要求具備靈活性,能夠在調(diào)查過程中根據(jù)發(fā)展情況進行轉(zhuǎn)向或探索相關(guān)聯(lián)的內(nèi)容。模型必須能夠自主進行多輪推理,根據(jù)中間發(fā)現(xiàn)決定進一步的探索方向。線性的一次性流程無法勝任這樣的任務(wù)。

研究的本質(zhì)是壓縮:從龐大的語料中提煉出有價值的見解。子智能體通過并行運行、各自擁有獨立的上下文窗口來輔助這一壓縮過程,它們能同時探索問題的不同方面,然后將最重要的內(nèi)容提煉出來,交給主研究智能體處理。每個子智能體還承擔了關(guān)注點分離的作用 —— 它們使用不同的工具、提示詞和探索路徑,從而減少路徑依賴,確保研究過程更為全面且相互獨立。

一旦智能達到一定門檻,多智能體系統(tǒng)就成為提升性能的關(guān)鍵方式。例如,盡管在過去的十萬年中,個體人類的智力有所提升,但正是由于我們在信息時代的集體智能和協(xié)作能力,人類社會的整體能力才呈指數(shù)級增長。即使是具備通用智能的智能體,作為個體在執(zhí)行任務(wù)時也存在極限;而多個智能體協(xié)作,則能完成更多復雜任務(wù)。

Anthropic 內(nèi)部評估顯示,多智能體研究系統(tǒng)在「廣度優(yōu)先」的查詢?nèi)蝿?wù)中表現(xiàn)尤為出色,這類任務(wù)通常需要同時探索多個相互獨立的方向。他們發(fā)現(xiàn),在以 Claude Opus 4 為主智能體、Claude Sonnet 4 為子智能體組成的多智能體系統(tǒng)中,表現(xiàn)比單一的 Claude Opus 4 智能體高出 90.2%。

多智能體系統(tǒng)的核心優(yōu)勢在于能夠通過充分的 token 消耗來解決問題。分析顯示,在 BrowseComp 評估(該測試衡量瀏覽型智能體定位高難度信息的能力)中,三個因素共同解釋了 95% 的性能差異。研究發(fā)現(xiàn):

  • token 消耗量單獨解釋了 80% 的差異;
  • 工具調(diào)用次數(shù)和模型選擇構(gòu)成是另外兩個關(guān)鍵因素。

這一發(fā)現(xiàn)驗證了 Anthropic 之前所采用的架構(gòu):通過將任務(wù)分發(fā)給擁有各自上下文窗口的不同智能體,從而為并行推理增加容量。最新的 Claude 模型在 token 使用效率上具有強大的乘數(shù)效應(yīng),例如,將 Claude Sonnet 升級至 4 版本所帶來的性能提升,甚至超過了將 Claude Sonnet 3.7 的 token 預(yù)算翻倍所帶來的提升。對于那些超出單一智能體處理極限的任務(wù),多智能體架構(gòu)可以有效擴展 token 使用,從而實現(xiàn)更強的處理能力。

當然,這種架構(gòu)也有一個缺點:在實際應(yīng)用中,它們會非??焖俚叵?tokens。根據(jù) Anthropic 統(tǒng)計,智能體通常會使用大約是普通聊天交互 4 倍 的 tokens,而多智能體系統(tǒng)的 token 消耗甚至是聊天的 15 倍左右。

因此,要實現(xiàn)經(jīng)濟上的可行性,多智能體系統(tǒng)需要用于那些任務(wù)價值足夠高、足以覆蓋其性能提升所帶來的成本的場景。此外,一些領(lǐng)域并不適合當前的多智能體系統(tǒng),比如那些要求所有智能體共享同一上下文,或智能體之間存在大量依賴關(guān)系的任務(wù)。

例如,大多數(shù)編程任務(wù)中真正可并行化的部分相對較少,而且當前的大語言模型智能體在「實時協(xié)調(diào)和分配任務(wù)」方面的能力還不夠強。

因此,多智能體系統(tǒng)最擅長的場景是那些具有以下特點的高價值任務(wù):需要大量并行處理、信息量超出單一上下文窗口、以及需要與大量復雜工具交互的任務(wù)。

架構(gòu)

Anthropic 的研究系統(tǒng)采用多智能體架構(gòu),使用「協(xié)調(diào)者 - 執(zhí)行者(orchestrator-worker)」模式:由一個主導智能體負責整體協(xié)調(diào),同時將任務(wù)分派給多個并行運行的專業(yè)子智能體。 

image.png

多智能體架構(gòu)的實際運作方式:用戶的查詢首先通過主導智能體(lead agent),由它創(chuàng)建多個專業(yè)子智能體,分別并行地搜索查詢的不同方面。

當用戶提交查詢后,主導智能體會對其進行分析,制定策略,并生成子智能體,分別從不同角度同時展開探索。如上圖所示,這些子智能體通過迭代地使用搜索工具來獲取信息(例如在本例中是關(guān)于 2025 年的 AI 智能體公司),并充當「智能過濾器」的角色,最終將公司列表返回給主導智能體,由其整理出最終答案。

傳統(tǒng)的檢索增強生成(RAG)方法采用的是靜態(tài)檢索,即從語料庫中提取與輸入查詢最相似的一些片段,并用這些片段生成回答。相比之下,Anthropic 提出的架構(gòu)使用的是多步驟的動態(tài)搜索流程,能夠根據(jù)中間結(jié)果不斷調(diào)整方向、尋找相關(guān)信息,并進行深入分析,從而生成高質(zhì)量的答案。

image.png

上圖的工作流程是這樣的。當用戶提交一個查詢時,系統(tǒng)會創(chuàng)建一個名為 LeadResearcher 的主導研究智能體,它會進入一個迭代式的研究過程。LeadResearcher 首先會思考研究方法,并將其計劃保存到 Memory(記憶模塊)中,以便持久化上下文信息 —— 因為一旦上下文窗口超過 200,000 個 token,內(nèi)容就會被截斷,而保留研究計劃對于后續(xù)推理至關(guān)重要。

隨后,LeadResearcher 會創(chuàng)建多個專業(yè)子智能體(Subagents)(圖中展示了兩個,實際上可以是任意數(shù)量),并為每個子智能體分配具體的研究任務(wù)。每個 Subagent 會獨立地進行網(wǎng)頁搜索,使用交替式思維方式評估工具返回的結(jié)果,并將研究發(fā)現(xiàn)反饋給 LeadResearcher。

LeadResearcher 對這些結(jié)果進行綜合分析,并判斷是否還需要進一步研究 —— 如果需要,它可以創(chuàng)建更多的子智能體,或優(yōu)化已有的研究策略。

一旦收集到足夠的信息,系統(tǒng)就會退出研究循環(huán),并將所有研究發(fā)現(xiàn)交給 CitationAgent(引用標注智能體),由它處理所有文檔和研究報告,識別出每條論述所對應(yīng)的具體引用位置,從而確保所有觀點都有明確的來源支撐。

最終,包含完整引用信息的研究成果將被返回給用戶。

研究型智能體的提示詞工程與評估方法

多智能體系統(tǒng)與單智能體系統(tǒng)之間存在關(guān)鍵差異,其中之一就是協(xié)調(diào)復雜度會迅速上升。在早期階段,智能體常常會出現(xiàn)一些錯誤行為,例如:為簡單的問題生成多達 50 個子智能體、在網(wǎng)絡(luò)上無休止地尋找根本不存在的資源,或者彼此頻繁干擾、發(fā)送過多無關(guān)更新。

由于每個智能體的行為都是由提示詞(prompt)驅(qū)動的,因此提示詞工程成為研究者優(yōu)化這些行為的主要手段。以下是 Anthropic 在為智能體設(shè)計提示詞過程中總結(jié)出的一些原則:

高效的提示詞設(shè)計。要優(yōu)化提示詞(prompt),就必須理解其實際影響。為此,Anthropic 通過控制臺搭建了模擬環(huán)境 —— 完全復現(xiàn)系統(tǒng)中的提示詞和工具配置,逐步驟觀察智能體的工作過程。這種方法立刻暴露出典型失效模式:冗余執(zhí)行,即已獲得充分結(jié)果后仍繼續(xù)操作;低效查詢,即使用冗長模糊的搜索指令;以及工具誤用,錯誤選擇功能模塊。因而, 高效的提示詞設(shè)計依賴于你對智能體行為建立起準確的心理模型,一旦理解深入,最有效的改進方向也會變得一目了然。 

教會協(xié)調(diào)者如何正確分工。在 Anthropic 所采用的系統(tǒng)中,主導智能體負責將用戶的查詢拆解為若干子任務(wù),并將這些任務(wù)分配給子智能體。每個子智能體都需要明確的目標、輸出格式、關(guān)于應(yīng)使用哪些工具和信息來源的指導,以及清晰的任務(wù)邊界。如果任務(wù)描述不夠具體,智能體之間就會出現(xiàn)重復勞動、任務(wù)空缺,或者無法找到所需的信息。

Anthropic 曾經(jīng)歷過一個深刻的教訓:他們早期采用「研究芯片短缺」這類籠統(tǒng)指令時, 發(fā)現(xiàn)這類指令往往過于模糊,導致子智能體誤解任務(wù),或者執(zhí)行與其他智能體完全相同的搜索。比如三個子智能體不約而同地鎖定 2025 年供應(yīng)鏈數(shù)據(jù),其中一個偏離到 2021 年汽車芯片危機卻未覆蓋制造端瓶頸,最終報告重復率高達 60% 且缺失晶圓廠產(chǎn)能分析。

根據(jù)查詢復雜度調(diào)整投入力度。由于智能體在判斷不同任務(wù)所需的適當投入時存在困難,因此 Anthropic 在提示詞中嵌入了分級投入規(guī)則。簡單的事實查找只需要 1 個智能體調(diào)用 3-10 次工具;直接對比類任務(wù)可能需要 2-4 個子智能體,每個調(diào)用 10-15 次工具;而復雜的研究任務(wù)則可能使用超過 10 個子智能體,并且明確劃分各自的職責。

這些明確的指導原則幫助主導智能體更有效地分配資源,避免在簡單查詢上投入過多。

工具的設(shè)計與選擇至關(guān)重要。智能體與工具之間的接口就像人與計算機的交互界面一樣重要。使用合適的工具可以顯著提高效率 —— 在很多情況下,這不僅是優(yōu)化手段,更是必要條件。例如,如果一個智能體試圖通過網(wǎng)頁搜索來獲取只存在于 Slack 中的上下文信息,那么從一開始它就注定無法成功。

隨著 MCP 服務(wù)器讓模型能夠訪問外部工具,這一問題變得更加復雜 —— 智能體可能會遇到從未使用過的工具,而這些工具的描述質(zhì)量又參差不齊。

因此,Anthropic 為智能體設(shè)計了明確的啟發(fā)式規(guī)則,比如:先查看所有可用工具、將工具的用途與用戶意圖進行匹配、使用網(wǎng)頁搜索進行廣泛的信息探索、優(yōu)先選擇專用工具而非通用工具等。

糟糕的工具描述會導致智能體完全走上錯誤的路徑,因此每個工具都必須具備明確的用途和清晰的描述。

讓智能體自我改進。Anthropic 發(fā)現(xiàn) Claude 4 系列模型在提示詞工程方面表現(xiàn)非常出色。當提供一個提示詞和相應(yīng)的失敗模式時,它能夠診斷出智能體失敗的原因,并提出改進建議。

Anthropic 甚至構(gòu)建了一個工具測試智能體:當它接收到一個存在問題的 MCP 工具時,會嘗試使用該工具,并隨后重寫其工具描述,以避免類似的失敗發(fā)生。通過對該工具進行數(shù)十次測試,這個智能體能發(fā)現(xiàn)關(guān)鍵的使用細節(jié)和潛在的 bug。

這種優(yōu)化工具交互體驗的流程,使后續(xù)智能體在使用新描述時的任務(wù)完成時間縮短了 40%,因為它們能夠避開大多數(shù)常見錯誤。

先廣后窄,循序漸進。搜索策略應(yīng)當模仿人類專家的研究方式:先全面探索,再深入細化。然而,智能體往往傾向于一開始就使用冗長、具體的查詢詞,結(jié)果返回的內(nèi)容卻非常有限。

為了解決這一問題,Anthropic 在提示詞中引導智能體從簡短、寬泛的查詢開始,先評估可用信息,然后再逐步聚焦和深化研究方向。

引導思維過程?!笖U展思維模式」(Extended Thinking Mode)會讓 Claude 在輸出中展示出可見的思考過程,這相當于一個可控的「草稿本」。主導智能體會利用這種思維過程來規(guī)劃整體策略,包括評估哪些工具適合當前任務(wù)、判斷查詢的復雜度和需要的子智能體數(shù)量,并明確每個子智能體的職責。

測試表明,擴展思維能夠顯著提升智能體的指令遵循能力、推理能力和執(zhí)行效率。

子智能體同樣會先制定計劃,然后在工具調(diào)用之后使用交替思維(Interleaved Thinking)來評估結(jié)果質(zhì)量、發(fā)現(xiàn)信息缺口,并改進下一步的查詢。這使得子智能體在面對不同任務(wù)時具備更強的適應(yīng)能力。

并行調(diào)用工具徹底改變了研究任務(wù)的速度與性能。復雜的研究任務(wù)天然需要查閱大量信息來源。Anthropic 早期的智能體采用的是串行搜索,執(zhí)行效率極低。

為了解決這一問題,他們引入了兩種并行機制:

  • 主導智能體同時創(chuàng)建 3-5 個子智能體,而不是依次生成;
  • 每個子智能體同時使用 3 個以上的工具,而不是逐個調(diào)用。

這些改進將復雜查詢的研究時間最多縮短了 90%,讓研究系統(tǒng)能在幾分鐘內(nèi)完成原本需要幾小時的工作,同時覆蓋的信息范圍也遠超其他系統(tǒng)。

有效評估方法

良好的評估機制對于構(gòu)建可靠的 AI 應(yīng)用至關(guān)重要,智能體系統(tǒng)也不例外。然而,評估多智能體系統(tǒng)面臨獨特的挑戰(zhàn)。

傳統(tǒng)評估通常假設(shè) AI 每次都會遵循相同的步驟:給定輸入 X,系統(tǒng)應(yīng)按路徑 Y 執(zhí)行,并輸出結(jié)果 Z。但多智能體系統(tǒng)的工作方式并非如此。即使起點相同,智能體可能會走上完全不同但同樣有效的路徑來實現(xiàn)目標。有的智能體可能只查閱 3 個信息源,有的可能會查 10 個;它們也可能使用不同的工具來得出相同的答案。

由于我們并不總是知道哪一套操作步驟才是正確的,所以通常無法只靠檢查是否遵循了預(yù)設(shè)流程來評估智能體表現(xiàn)。相反,我們需要更靈活的評估方法,既要判斷智能體是否達成了正確的結(jié)果,也要衡量其執(zhí)行過程是否合理。

從小樣本評估開始。在智能體開發(fā)的早期階段,任何改動往往都會帶來顯著影響。例如,僅僅調(diào)整一下提示詞,成功率就可能從 30% 提升到 80%。在這種影響幅度很大的階段,只需少量測試用例就能看出變化的效果。

Anthropic 最初使用了一組大約 20 個查詢,這些查詢代表了真實的使用模式。測試這些查詢通常就足以清晰判斷某項更改的效果。

人們經(jīng)常聽到 AI 開發(fā)團隊說他們推遲創(chuàng)建評估機制,是因為他們認為只有包含數(shù)百個測試用例的大規(guī)模評估才有價值。但實際上,最好的做法是立即從小規(guī)模測試開始,用幾個示例立刻著手評估,而不是等到構(gòu)建出完整評估系統(tǒng)之后再行動。

如果使用得當,「由大語言模型擔任評審官」(LLM-as-judge)的評估方式也是不錯的選擇。

研究類的輸出很難通過程序化手段進行評估,因為它們通常是自由格式的文本,且很少存在唯一正確的答案。而 LLM 天然適合擔任這類輸出的評分者。

Anthropic 使用了一位「LLM 評審官」,根據(jù)一套評分標準(rubric)來評估每個輸出,具體包括以下幾個維度:

  • 事實準確性:陳述是否與引用來源相符?
  • 引用準確性:引用內(nèi)容是否確實支持了對應(yīng)的陳述?
  • 完整性:是否覆蓋了所有被要求回答的內(nèi)容?
  • 信息源質(zhì)量:是否優(yōu)先使用了高質(zhì)量的一手來源,而非較低質(zhì)量的二手資料?
  • 工具使用效率:是否合理選擇并適當使用了相關(guān)工具?

Anthropic 嘗試過使用多個 LLM 來分別評估每一個維度,但最終發(fā)現(xiàn):只使用一次 LLM 調(diào)用,通過單個提示詞讓模型輸出 0.0–1.0 的評分以及「通過 / 未通過」的判斷,是最穩(wěn)定、最符合人類評審標準的方法。

這種方法在測試用例本身有明確答案時尤其有效,比如:「是否準確列出了研發(fā)投入最高的三家制藥公司?」 這種題目可以直接判斷答案是否正確。

借助 LLM 擔任評審官,能夠高效地擴展到對數(shù)百個輸出結(jié)果進行評估,大幅提升了評估系統(tǒng)的可擴展性與實用性。

人工評估能發(fā)現(xiàn)自動化評估遺漏的問題。實際測試智能體的人會發(fā)現(xiàn)一些評估系統(tǒng)無法捕捉的邊緣案例,比如在不尋常查詢中產(chǎn)生的幻覺答案、系統(tǒng)故障,或是細微的來源選擇偏差。即使在自動化評估盛行的今天,人工測試依然不可或缺。

生產(chǎn)可靠性與工程挑戰(zhàn)

在傳統(tǒng)軟件中,程序缺陷可能導致功能失效、性能下降或系統(tǒng)宕機。而在智能體系統(tǒng)中,細微的變化可能引發(fā)巨大的行為變動,這使得為需要在長時間運行過程中維護狀態(tài)的復雜智能體編寫代碼異常困難。

智能體是有狀態(tài)的,錯誤會累積。智能體可能運行很長時間,在多次調(diào)用工具過程中保持狀態(tài)。這意味著我們需要持久地執(zhí)行代碼并在過程中處理錯誤。如果沒有有效的緩解措施,輕微的系統(tǒng)故障對智能體來說可能是災(zāi)難性的。當發(fā)生錯誤時,我們不能簡單地從頭重啟:重啟成本高且令用戶沮喪。相反,Anthropic 構(gòu)建了能夠從智能體發(fā)生錯誤時的狀態(tài)繼續(xù)執(zhí)行的系統(tǒng)。

調(diào)試。智能體在運行時會做出動態(tài)決策,即使使用相同的提示,結(jié)果也具有非確定性,這使得調(diào)試變得更加困難。通過添加完整的生產(chǎn)追蹤,Anthropic 能夠系統(tǒng)地診斷智能體失敗的原因并修復問題。

部署需要謹慎協(xié)調(diào)。智能體系統(tǒng)是高度有狀態(tài)的提示、工具和執(zhí)行邏輯的網(wǎng)絡(luò),幾乎持續(xù)運行。這意味著每當我們部署更新時,智能體可能處于執(zhí)行過程中的任何階段。雖然不能同時將所有智能體更新到新版本。但 Anthropic 采用彩虹部署,通過逐步將流量從舊版本轉(zhuǎn)移到新版本,同時保持兩者并行運行,從而避免對正在運行的智能體造成干擾。

同步執(zhí)行會造成瓶頸。目前,Anthropic 的主控智能體采用同步方式執(zhí)行子智能體任務(wù),會等待每批子智能體完成后才繼續(xù)下一步。這簡化了協(xié)調(diào)過程,但也在智能體之間的信息流動中形成了瓶頸。例如,主智能體無法實時引導子智能體,子智能體之間也無法協(xié)同,而整個系統(tǒng)可能會因為等待某個子智能體完成搜索而被阻塞。

異步執(zhí)行則能帶來更多的并行性:智能體可以同時工作,并在需要時創(chuàng)建新的子智能體。但這種異步性也帶來了結(jié)果協(xié)調(diào)、狀態(tài)一致性以及錯誤傳播等方面的挑戰(zhàn)。隨著模型能夠處理更長更復雜的研究任務(wù),Anthropic 預(yù)計性能提升將足以抵消這些復雜性的增加。 

總結(jié)

在構(gòu)建 AI 智能體時,最后一公里往往占據(jù)了整個旅程的大部分。從開發(fā)者機器上能運行的代碼庫,到變成可靠的生產(chǎn)系統(tǒng),需要大量的工程投入。智能體系統(tǒng)中錯誤的復合特性意味著,傳統(tǒng)軟件中的小問題可能會徹底擾亂智能體的運行。某一步驟失敗,可能導致智能體探索完全不同的路徑,從而產(chǎn)生不可預(yù)測的結(jié)果。基于本文所述的各種原因,原型與生產(chǎn)環(huán)境之間的差距通常比預(yù)期更大。

盡管面臨這些挑戰(zhàn),多智能體系統(tǒng)在開放式研究任務(wù)中已經(jīng)展現(xiàn)出巨大價值。只要經(jīng)過細致的工程設(shè)計、全面的測試、注重細節(jié)的提示詞和工具設(shè)計、健全的運維實踐,以及研究、產(chǎn)品與工程團隊之間緊密合作且對當前智能體能力有深刻理解,多智能體研究系統(tǒng)就能在大規(guī)模場景中穩(wěn)定運行。我們已經(jīng)看到這些系統(tǒng)正在改變?nèi)藗兘鉀Q復雜問題的方式。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-06-17 06:28:08

2023-12-29 10:17:44

2023-07-10 10:36:17

人工智能AI

2012-12-31 11:22:58

開源開放

2020-09-11 10:55:10

useState組件前端

2023-10-12 07:06:32

2023-10-12 09:42:44

2013-01-09 10:00:23

智能家居手機

2021-02-28 09:47:54

軟件架構(gòu)軟件開發(fā)軟件設(shè)計

2020-12-22 11:04:05

人工智能AI機器學習

2023-12-29 09:50:51

智能機器人人工智能

2018-11-23 11:17:24

負載均衡分布式系統(tǒng)架構(gòu)

2021-02-19 23:08:27

軟件測試軟件開發(fā)

2023-12-28 16:33:57

2013-02-19 10:35:13

摩托羅拉移動數(shù)據(jù)終端

2016-08-31 17:24:05

大數(shù)據(jù)分析

2022-03-10 06:23:06

邊緣人工智能人工智能

2022-04-08 10:03:28

邊緣計算邊緣人工智能

2020-10-14 08:04:28

JavaScrip

2021-05-28 07:12:59

Python閉包函數(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线欧美亚洲 | 日韩在线精品视频 | 99re在线| 国产精品一区在线观看 | 一区二区三区不卡视频 | 9999精品视频 | 精品九九 | 中文字幕在线观看一区二区 | 欧美久久久久久久久 | 成人不卡在线 | 成人黄色av网址 | 国产精品日韩在线观看一区二区 | 91精品国产91久久久久久 | 一区二区三区日韩精品 | 成人福利网 | 国产成人短视频在线观看 | 91精品www| 色综合久久久 | 久久久久久国产精品三区 | 国产免费福利在线 | 成人一区二区三区在线观看 | 亚洲精品日韩在线 | 免费人成激情视频在线观看冫 | 国产一区欧美一区 | 成人一级视频在线观看 | av黄色片| 国产精品久久av | 国产在线精品一区二区 | 日韩在线欧美 | 欧美中文字幕一区二区 | 国产一区二区三区四区三区四 | 成年人免费网站 | av一二三区| 毛片片| 亚洲精品66| 大学生a级毛片免费视频 | 成在线人视频免费视频 | 亚洲综合一区二区三区 | 午夜电影一区 | 亚洲男人网 | 黑人巨大精品 |