成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

多智能體在「燃燒」Token！Anthropic公開發(fā)現(xiàn)的一切

2025-06-16 08:39:00

人工智能新聞

最近一段時間，關(guān)于智能體的研究層出不窮。但這也為廣大研究者帶來一些困惑，比如什么任務(wù)需要多智能體？多個 AI 智能體如何協(xié)作？怎么解決上下文和記憶問題……

「Anthropic 發(fā)布了他們?nèi)绾问褂枚鄠€ Claude AI 智能體構(gòu)建多智能體研究系統(tǒng)的精彩解釋。對于任何構(gòu)建多智能體系統(tǒng)的人來說，這是一本必讀的指南?！箘倓?，X 知名博主 Rohan Paul 強力推薦了 Anthropic 一項新研究。

最近一段時間，關(guān)于智能體的研究層出不窮。但這也為廣大研究者帶來一些困惑，比如什么任務(wù)需要多智能體？多個 AI 智能體如何協(xié)作？怎么解決上下文和記憶問題……

面對這些問題，你不妨讀讀 Anthropic 的這篇文章，或許能找到答案。

文章地址：https://www.anthropic.com/engineering/built-multi-agent-research-system

多智能體系統(tǒng)的優(yōu)勢

有些研究涉及開放式問題，這類問題往往難以預(yù)先確定所需的步驟。對于復雜問題的探索，人類無法硬性規(guī)定固定路徑，因為這一過程本質(zhì)上是動態(tài)且具有路徑依賴性的。當人們開展研究時，通常會根據(jù)發(fā)現(xiàn)持續(xù)調(diào)整方法，沿著調(diào)查過程中浮現(xiàn)的線索不斷推進。

這種不可預(yù)測性使得 AI 智能體特別適合執(zhí)行研究類任務(wù)。研究工作要求具備靈活性，能夠在調(diào)查過程中根據(jù)發(fā)展情況進行轉(zhuǎn)向或探索相關(guān)聯(lián)的內(nèi)容。模型必須能夠自主進行多輪推理，根據(jù)中間發(fā)現(xiàn)決定進一步的探索方向。線性的一次性流程無法勝任這樣的任務(wù)。

研究的本質(zhì)是壓縮：從龐大的語料中提煉出有價值的見解。子智能體通過并行運行、各自擁有獨立的上下文窗口來輔助這一壓縮過程，它們能同時探索問題的不同方面，然后將最重要的內(nèi)容提煉出來，交給主研究智能體處理。每個子智能體還承擔了關(guān)注點分離的作用 —— 它們使用不同的工具、提示詞和探索路徑，從而減少路徑依賴，確保研究過程更為全面且相互獨立。

一旦智能達到一定門檻，多智能體系統(tǒng)就成為提升性能的關(guān)鍵方式。例如，盡管在過去的十萬年中，個體人類的智力有所提升，但正是由于我們在信息時代的集體智能和協(xié)作能力，人類社會的整體能力才呈指數(shù)級增長。即使是具備通用智能的智能體，作為個體在執(zhí)行任務(wù)時也存在極限；而多個智能體協(xié)作，則能完成更多復雜任務(wù)。

Anthropic 內(nèi)部評估顯示，多智能體研究系統(tǒng)在「廣度優(yōu)先」的查詢?nèi)蝿?wù)中表現(xiàn)尤為出色，這類任務(wù)通常需要同時探索多個相互獨立的方向。他們發(fā)現(xiàn)，在以 Claude Opus 4 為主智能體、Claude Sonnet 4 為子智能體組成的多智能體系統(tǒng)中，表現(xiàn)比單一的 Claude Opus 4 智能體高出 90.2%。

多智能體系統(tǒng)的核心優(yōu)勢在于能夠通過充分的 token 消耗來解決問題。分析顯示，在 BrowseComp 評估（該測試衡量瀏覽型智能體定位高難度信息的能力）中，三個因素共同解釋了 95% 的性能差異。研究發(fā)現(xiàn)：

token 消耗量單獨解釋了 80% 的差異；
工具調(diào)用次數(shù)和模型選擇構(gòu)成是另外兩個關(guān)鍵因素。

這一發(fā)現(xiàn)驗證了 Anthropic 之前所采用的架構(gòu)：通過將任務(wù)分發(fā)給擁有各自上下文窗口的不同智能體，從而為并行推理增加容量。最新的 Claude 模型在 token 使用效率上具有強大的乘數(shù)效應(yīng)，例如，將 Claude Sonnet 升級至 4 版本所帶來的性能提升，甚至超過了將 Claude Sonnet 3.7 的 token 預(yù)算翻倍所帶來的提升。對于那些超出單一智能體處理極限的任務(wù)，多智能體架構(gòu)可以有效擴展 token 使用，從而實現(xiàn)更強的處理能力。

當然，這種架構(gòu)也有一個缺點：在實際應(yīng)用中，它們會非?？焖俚叵?tokens。根據(jù) Anthropic 統(tǒng)計，智能體通常會使用大約是普通聊天交互 4 倍的 tokens，而多智能體系統(tǒng)的 token 消耗甚至是聊天的 15 倍左右。

因此，要實現(xiàn)經(jīng)濟上的可行性，多智能體系統(tǒng)需要用于那些任務(wù)價值足夠高、足以覆蓋其性能提升所帶來的成本的場景。此外，一些領(lǐng)域并不適合當前的多智能體系統(tǒng)，比如那些要求所有智能體共享同一上下文，或智能體之間存在大量依賴關(guān)系的任務(wù)。

例如，大多數(shù)編程任務(wù)中真正可并行化的部分相對較少，而且當前的大語言模型智能體在「實時協(xié)調(diào)和分配任務(wù)」方面的能力還不夠強。

因此，多智能體系統(tǒng)最擅長的場景是那些具有以下特點的高價值任務(wù)：需要大量并行處理、信息量超出單一上下文窗口、以及需要與大量復雜工具交互的任務(wù)。

架構(gòu)

Anthropic 的研究系統(tǒng)采用多智能體架構(gòu)，使用「協(xié)調(diào)者 - 執(zhí)行者（orchestrator-worker）」模式：由一個主導智能體負責整體協(xié)調(diào)，同時將任務(wù)分派給多個并行運行的專業(yè)子智能體。

多智能體架構(gòu)的實際運作方式：用戶的查詢首先通過主導智能體（lead agent），由它創(chuàng)建多個專業(yè)子智能體，分別并行地搜索查詢的不同方面。

當用戶提交查詢后，主導智能體會對其進行分析，制定策略，并生成子智能體，分別從不同角度同時展開探索。如上圖所示，這些子智能體通過迭代地使用搜索工具來獲取信息（例如在本例中是關(guān)于 2025 年的 AI 智能體公司），并充當「智能過濾器」的角色，最終將公司列表返回給主導智能體，由其整理出最終答案。

傳統(tǒng)的檢索增強生成（RAG）方法采用的是靜態(tài)檢索，即從語料庫中提取與輸入查詢最相似的一些片段，并用這些片段生成回答。相比之下，Anthropic 提出的架構(gòu)使用的是多步驟的動態(tài)搜索流程，能夠根據(jù)中間結(jié)果不斷調(diào)整方向、尋找相關(guān)信息，并進行深入分析，從而生成高質(zhì)量的答案。

上圖的工作流程是這樣的。當用戶提交一個查詢時，系統(tǒng)會創(chuàng)建一個名為 LeadResearcher 的主導研究智能體，它會進入一個迭代式的研究過程。LeadResearcher 首先會思考研究方法，并將其計劃保存到 Memory（記憶模塊）中，以便持久化上下文信息 —— 因為一旦上下文窗口超過 200,000 個 token，內(nèi)容就會被截斷，而保留研究計劃對于后續(xù)推理至關(guān)重要。

隨后，LeadResearcher 會創(chuàng)建多個專業(yè)子智能體（Subagents）（圖中展示了兩個，實際上可以是任意數(shù)量），并為每個子智能體分配具體的研究任務(wù)。每個 Subagent 會獨立地進行網(wǎng)頁搜索，使用交替式思維方式評估工具返回的結(jié)果，并將研究發(fā)現(xiàn)反饋給 LeadResearcher。

LeadResearcher 對這些結(jié)果進行綜合分析，并判斷是否還需要進一步研究 —— 如果需要，它可以創(chuàng)建更多的子智能體，或優(yōu)化已有的研究策略。

一旦收集到足夠的信息，系統(tǒng)就會退出研究循環(huán)，并將所有研究發(fā)現(xiàn)交給 CitationAgent（引用標注智能體），由它處理所有文檔和研究報告，識別出每條論述所對應(yīng)的具體引用位置，從而確保所有觀點都有明確的來源支撐。

最終，包含完整引用信息的研究成果將被返回給用戶。

研究型智能體的提示詞工程與評估方法

多智能體系統(tǒng)與單智能體系統(tǒng)之間存在關(guān)鍵差異，其中之一就是協(xié)調(diào)復雜度會迅速上升。在早期階段，智能體常常會出現(xiàn)一些錯誤行為，例如：為簡單的問題生成多達 50 個子智能體、在網(wǎng)絡(luò)上無休止地尋找根本不存在的資源，或者彼此頻繁干擾、發(fā)送過多無關(guān)更新。

由于每個智能體的行為都是由提示詞（prompt）驅(qū)動的，因此提示詞工程成為研究者優(yōu)化這些行為的主要手段。以下是 Anthropic 在為智能體設(shè)計提示詞過程中總結(jié)出的一些原則：

高效的提示詞設(shè)計。要優(yōu)化提示詞（prompt），就必須理解其實際影響。為此，Anthropic 通過控制臺搭建了模擬環(huán)境 —— 完全復現(xiàn)系統(tǒng)中的提示詞和工具配置，逐步驟觀察智能體的工作過程。這種方法立刻暴露出典型失效模式：冗余執(zhí)行，即已獲得充分結(jié)果后仍繼續(xù)操作；低效查詢，即使用冗長模糊的搜索指令；以及工具誤用，錯誤選擇功能模塊。因而，高效的提示詞設(shè)計依賴于你對智能體行為建立起準確的心理模型，一旦理解深入，最有效的改進方向也會變得一目了然。

教會協(xié)調(diào)者如何正確分工。在 Anthropic 所采用的系統(tǒng)中，主導智能體負責將用戶的查詢拆解為若干子任務(wù)，并將這些任務(wù)分配給子智能體。每個子智能體都需要明確的目標、輸出格式、關(guān)于應(yīng)使用哪些工具和信息來源的指導，以及清晰的任務(wù)邊界。如果任務(wù)描述不夠具體，智能體之間就會出現(xiàn)重復勞動、任務(wù)空缺，或者無法找到所需的信息。

Anthropic 曾經(jīng)歷過一個深刻的教訓：他們早期采用「研究芯片短缺」這類籠統(tǒng)指令時，發(fā)現(xiàn)這類指令往往過于模糊，導致子智能體誤解任務(wù)，或者執(zhí)行與其他智能體完全相同的搜索。比如三個子智能體不約而同地鎖定 2025 年供應(yīng)鏈數(shù)據(jù)，其中一個偏離到 2021 年汽車芯片危機卻未覆蓋制造端瓶頸，最終報告重復率高達 60% 且缺失晶圓廠產(chǎn)能分析。

根據(jù)查詢復雜度調(diào)整投入力度。由于智能體在判斷不同任務(wù)所需的適當投入時存在困難，因此 Anthropic 在提示詞中嵌入了分級投入規(guī)則。簡單的事實查找只需要 1 個智能體調(diào)用 3-10 次工具；直接對比類任務(wù)可能需要 2-4 個子智能體，每個調(diào)用 10-15 次工具；而復雜的研究任務(wù)則可能使用超過 10 個子智能體，并且明確劃分各自的職責。

這些明確的指導原則幫助主導智能體更有效地分配資源，避免在簡單查詢上投入過多。

工具的設(shè)計與選擇至關(guān)重要。智能體與工具之間的接口就像人與計算機的交互界面一樣重要。使用合適的工具可以顯著提高效率 —— 在很多情況下，這不僅是優(yōu)化手段，更是必要條件。例如，如果一個智能體試圖通過網(wǎng)頁搜索來獲取只存在于 Slack 中的上下文信息，那么從一開始它就注定無法成功。

隨著 MCP 服務(wù)器讓模型能夠訪問外部工具，這一問題變得更加復雜 —— 智能體可能會遇到從未使用過的工具，而這些工具的描述質(zhì)量又參差不齊。

因此，Anthropic 為智能體設(shè)計了明確的啟發(fā)式規(guī)則，比如：先查看所有可用工具、將工具的用途與用戶意圖進行匹配、使用網(wǎng)頁搜索進行廣泛的信息探索、優(yōu)先選擇專用工具而非通用工具等。

糟糕的工具描述會導致智能體完全走上錯誤的路徑，因此每個工具都必須具備明確的用途和清晰的描述。

讓智能體自我改進。Anthropic 發(fā)現(xiàn) Claude 4 系列模型在提示詞工程方面表現(xiàn)非常出色。當提供一個提示詞和相應(yīng)的失敗模式時，它能夠診斷出智能體失敗的原因，并提出改進建議。

Anthropic 甚至構(gòu)建了一個工具測試智能體：當它接收到一個存在問題的 MCP 工具時，會嘗試使用該工具，并隨后重寫其工具描述，以避免類似的失敗發(fā)生。通過對該工具進行數(shù)十次測試，這個智能體能發(fā)現(xiàn)關(guān)鍵的使用細節(jié)和潛在的 bug。

這種優(yōu)化工具交互體驗的流程，使后續(xù)智能體在使用新描述時的任務(wù)完成時間縮短了 40%，因為它們能夠避開大多數(shù)常見錯誤。

先廣后窄，循序漸進。搜索策略應(yīng)當模仿人類專家的研究方式：先全面探索，再深入細化。然而，智能體往往傾向于一開始就使用冗長、具體的查詢詞，結(jié)果返回的內(nèi)容卻非常有限。

為了解決這一問題，Anthropic 在提示詞中引導智能體從簡短、寬泛的查詢開始，先評估可用信息，然后再逐步聚焦和深化研究方向。

引導思維過程?！笖U展思維模式」（Extended Thinking Mode）會讓 Claude 在輸出中展示出可見的思考過程，這相當于一個可控的「草稿本」。主導智能體會利用這種思維過程來規(guī)劃整體策略，包括評估哪些工具適合當前任務(wù)、判斷查詢的復雜度和需要的子智能體數(shù)量，并明確每個子智能體的職責。

測試表明，擴展思維能夠顯著提升智能體的指令遵循能力、推理能力和執(zhí)行效率。

子智能體同樣會先制定計劃，然后在工具調(diào)用之后使用交替思維（Interleaved Thinking）來評估結(jié)果質(zhì)量、發(fā)現(xiàn)信息缺口，并改進下一步的查詢。這使得子智能體在面對不同任務(wù)時具備更強的適應(yīng)能力。

并行調(diào)用工具徹底改變了研究任務(wù)的速度與性能。復雜的研究任務(wù)天然需要查閱大量信息來源。Anthropic 早期的智能體采用的是串行搜索，執(zhí)行效率極低。

為了解決這一問題，他們引入了兩種并行機制：

主導智能體同時創(chuàng)建 3-5 個子智能體，而不是依次生成；
每個子智能體同時使用 3 個以上的工具，而不是逐個調(diào)用。

這些改進將復雜查詢的研究時間最多縮短了 90%，讓研究系統(tǒng)能在幾分鐘內(nèi)完成原本需要幾小時的工作，同時覆蓋的信息范圍也遠超其他系統(tǒng)。

有效評估方法

良好的評估機制對于構(gòu)建可靠的 AI 應(yīng)用至關(guān)重要，智能體系統(tǒng)也不例外。然而，評估多智能體系統(tǒng)面臨獨特的挑戰(zhàn)。

傳統(tǒng)評估通常假設(shè) AI 每次都會遵循相同的步驟：給定輸入 X，系統(tǒng)應(yīng)按路徑 Y 執(zhí)行，并輸出結(jié)果 Z。但多智能體系統(tǒng)的工作方式并非如此。即使起點相同，智能體可能會走上完全不同但同樣有效的路徑來實現(xiàn)目標。有的智能體可能只查閱 3 個信息源，有的可能會查 10 個；它們也可能使用不同的工具來得出相同的答案。

由于我們并不總是知道哪一套操作步驟才是正確的，所以通常無法只靠檢查是否遵循了預(yù)設(shè)流程來評估智能體表現(xiàn)。相反，我們需要更靈活的評估方法，既要判斷智能體是否達成了正確的結(jié)果，也要衡量其執(zhí)行過程是否合理。

從小樣本評估開始。在智能體開發(fā)的早期階段，任何改動往往都會帶來顯著影響。例如，僅僅調(diào)整一下提示詞，成功率就可能從 30% 提升到 80%。在這種影響幅度很大的階段，只需少量測試用例就能看出變化的效果。

Anthropic 最初使用了一組大約 20 個查詢，這些查詢代表了真實的使用模式。測試這些查詢通常就足以清晰判斷某項更改的效果。

人們經(jīng)常聽到 AI 開發(fā)團隊說他們推遲創(chuàng)建評估機制，是因為他們認為只有包含數(shù)百個測試用例的大規(guī)模評估才有價值。但實際上，最好的做法是立即從小規(guī)模測試開始，用幾個示例立刻著手評估，而不是等到構(gòu)建出完整評估系統(tǒng)之后再行動。

如果使用得當，「由大語言模型擔任評審官」（LLM-as-judge）的評估方式也是不錯的選擇。

研究類的輸出很難通過程序化手段進行評估，因為它們通常是自由格式的文本，且很少存在唯一正確的答案。而 LLM 天然適合擔任這類輸出的評分者。

Anthropic 使用了一位「LLM 評審官」，根據(jù)一套評分標準（rubric）來評估每個輸出，具體包括以下幾個維度：

事實準確性：陳述是否與引用來源相符？
引用準確性：引用內(nèi)容是否確實支持了對應(yīng)的陳述？
完整性：是否覆蓋了所有被要求回答的內(nèi)容？
信息源質(zhì)量：是否優(yōu)先使用了高質(zhì)量的一手來源，而非較低質(zhì)量的二手資料？
工具使用效率：是否合理選擇并適當使用了相關(guān)工具？

Anthropic 嘗試過使用多個 LLM 來分別評估每一個維度，但最終發(fā)現(xiàn)：只使用一次 LLM 調(diào)用，通過單個提示詞讓模型輸出 0.0–1.0 的評分以及「通過 / 未通過」的判斷，是最穩(wěn)定、最符合人類評審標準的方法。

這種方法在測試用例本身有明確答案時尤其有效，比如：「是否準確列出了研發(fā)投入最高的三家制藥公司？」這種題目可以直接判斷答案是否正確。

借助 LLM 擔任評審官，能夠高效地擴展到對數(shù)百個輸出結(jié)果進行評估，大幅提升了評估系統(tǒng)的可擴展性與實用性。

人工評估能發(fā)現(xiàn)自動化評估遺漏的問題。實際測試智能體的人會發(fā)現(xiàn)一些評估系統(tǒng)無法捕捉的邊緣案例，比如在不尋常查詢中產(chǎn)生的幻覺答案、系統(tǒng)故障，或是細微的來源選擇偏差。即使在自動化評估盛行的今天，人工測試依然不可或缺。

生產(chǎn)可靠性與工程挑戰(zhàn)

在傳統(tǒng)軟件中，程序缺陷可能導致功能失效、性能下降或系統(tǒng)宕機。而在智能體系統(tǒng)中，細微的變化可能引發(fā)巨大的行為變動，這使得為需要在長時間運行過程中維護狀態(tài)的復雜智能體編寫代碼異常困難。

智能體是有狀態(tài)的，錯誤會累積。智能體可能運行很長時間，在多次調(diào)用工具過程中保持狀態(tài)。這意味著我們需要持久地執(zhí)行代碼并在過程中處理錯誤。如果沒有有效的緩解措施，輕微的系統(tǒng)故障對智能體來說可能是災(zāi)難性的。當發(fā)生錯誤時，我們不能簡單地從頭重啟：重啟成本高且令用戶沮喪。相反，Anthropic 構(gòu)建了能夠從智能體發(fā)生錯誤時的狀態(tài)繼續(xù)執(zhí)行的系統(tǒng)。

調(diào)試。智能體在運行時會做出動態(tài)決策，即使使用相同的提示，結(jié)果也具有非確定性，這使得調(diào)試變得更加困難。通過添加完整的生產(chǎn)追蹤，Anthropic 能夠系統(tǒng)地診斷智能體失敗的原因并修復問題。

部署需要謹慎協(xié)調(diào)。智能體系統(tǒng)是高度有狀態(tài)的提示、工具和執(zhí)行邏輯的網(wǎng)絡(luò)，幾乎持續(xù)運行。這意味著每當我們部署更新時，智能體可能處于執(zhí)行過程中的任何階段。雖然不能同時將所有智能體更新到新版本。但 Anthropic 采用彩虹部署，通過逐步將流量從舊版本轉(zhuǎn)移到新版本，同時保持兩者并行運行，從而避免對正在運行的智能體造成干擾。

同步執(zhí)行會造成瓶頸。目前，Anthropic 的主控智能體采用同步方式執(zhí)行子智能體任務(wù)，會等待每批子智能體完成后才繼續(xù)下一步。這簡化了協(xié)調(diào)過程，但也在智能體之間的信息流動中形成了瓶頸。例如，主智能體無法實時引導子智能體，子智能體之間也無法協(xié)同，而整個系統(tǒng)可能會因為等待某個子智能體完成搜索而被阻塞。

異步執(zhí)行則能帶來更多的并行性：智能體可以同時工作，并在需要時創(chuàng)建新的子智能體。但這種異步性也帶來了結(jié)果協(xié)調(diào)、狀態(tài)一致性以及錯誤傳播等方面的挑戰(zhàn)。隨著模型能夠處理更長更復雜的研究任務(wù)，Anthropic 預(yù)計性能提升將足以抵消這些復雜性的增加。

總結(jié)

在構(gòu)建 AI 智能體時，最后一公里往往占據(jù)了整個旅程的大部分。從開發(fā)者機器上能運行的代碼庫，到變成可靠的生產(chǎn)系統(tǒng)，需要大量的工程投入。智能體系統(tǒng)中錯誤的復合特性意味著，傳統(tǒng)軟件中的小問題可能會徹底擾亂智能體的運行。某一步驟失敗，可能導致智能體探索完全不同的路徑，從而產(chǎn)生不可預(yù)測的結(jié)果。基于本文所述的各種原因，原型與生產(chǎn)環(huán)境之間的差距通常比預(yù)期更大。

盡管面臨這些挑戰(zhàn)，多智能體系統(tǒng)在開放式研究任務(wù)中已經(jīng)展現(xiàn)出巨大價值。只要經(jīng)過細致的工程設(shè)計、全面的測試、注重細節(jié)的提示詞和工具設(shè)計、健全的運維實踐，以及研究、產(chǎn)品與工程團隊之間緊密合作且對當前智能體能力有深刻理解，多智能體研究系統(tǒng)就能在大規(guī)模場景中穩(wěn)定運行。我們已經(jīng)看到這些系統(tǒng)正在改變?nèi)藗兘鉀Q復雜問題的方式。

責任編輯：張燕妮來源：機器之心

智能體 AI 系統(tǒng)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：在线欧美亚洲 | 日韩在线精品视频 | 99re在线| 国产精品一区在线观看 | 一区二区三区不卡视频 | 9999精品视频 | 精品九九 | 中文字幕在线观看一区二区 | 欧美久久久久久久久 | 成人不卡在线 | 成人黄色av网址 | 国产精品日韩在线观看一区二区 | 91精品国产91久久久久久 | 一区二区三区日韩精品 | 成人福利网 | 国产成人短视频在线观看 | 91精品www| 色综合久久久 | 久久久久久国产精品三区 | 国产免费福利在线 | 成人一区二区三区在线观看 | 亚洲精品日韩在线 | 免费人成激情视频在线观看冫 | 国产一区欧美一区 | 成人一级视频在线观看 | av黄色片| 国产精品久久av | 国产在线精品一区二区 | 日韩在线欧美 | 欧美中文字幕一区二区 | 国产一区二区三区四区三区四 | 成年人免费网站 | av一二三区| 毛片片| 亚洲精品66| 大学生a级毛片免费视频 | 成在线人视频免费视频 | 亚洲综合一区二区三区 | 午夜电影一区 | 亚洲男人网 | 黑人巨大精品 |