Manus AI聯(lián)手Ollama：打造真正能“動(dòng)手”的智能助手

作者：dev 2025-03-17 00:00:00

Manus的名字來自拉丁語“Mens et Manus”，意即“頭腦與雙手”。顧名思義，它不再局限于傳統(tǒng)AI僅提供建議或信息，而是真正實(shí)現(xiàn)了思考與行動(dòng)的無縫連接。

第一次聽到Manus AI，我的內(nèi)心泛起一絲好奇——這款A(yù)I助手居然聲稱比DeepSeek和ChatGPT還強(qiáng)？帶著疑問，探索了它的獨(dú)特之處，而結(jié)果著實(shí)讓我吃驚。

Manus的名字來自拉丁語“Mens et Manus”，意即“頭腦與雙手”。顧名思義，它不再局限于傳統(tǒng)AI僅提供建議或信息，而是真正實(shí)現(xiàn)了思考與行動(dòng)的無縫連接。相比過去流行的AI工具如DeepSeek和ChatGPT，Manus AI的最大特色，就是能夠直接從思考轉(zhuǎn)化為實(shí)際行動(dòng)。

Manus AI的特別之處

與傳統(tǒng)AI相比，Manus的突出優(yōu)勢主要體現(xiàn)在：

自主執(zhí)行能力：Manus不僅僅回答問題，它還能獨(dú)立規(guī)劃并執(zhí)行具體任務(wù)，讓你輕松獲得想要的結(jié)果，而不只是停留在建議層面。
多Agent架構(gòu)：Manus基于多智能體協(xié)作系統(tǒng)構(gòu)建，內(nèi)置多類執(zhí)行代理，可高效分工與合作。
類型豐富的執(zhí)行工具集成：從網(wǎng)頁交互到數(shù)據(jù)處理，各種功能模塊自由組合。
實(shí)時(shí)反饋機(jī)制：可視化實(shí)時(shí)展現(xiàn)AI內(nèi)部的推理鏈路，隨時(shí)掌控任務(wù)進(jìn)程。
性能突出：在GAIA基準(zhǔn)測試中，Manus取得了當(dāng)前最佳（SOTA）成績，充分證明其技術(shù)實(shí)力。

正是憑借這些特性，Manus AI在實(shí)際工作效率上顯著提升，真正實(shí)現(xiàn)了智能到行動(dòng)的跨越。

OpenManus實(shí)例解析

為了更直觀地理解Manus，我們將以其開源變種OpenManus進(jìn)行了一次實(shí)際操作演示。

假設(shè)你要制定一次旅行計(jì)劃，只需向OpenManus輸入簡單明確的出行日期、預(yù)算、停留時(shí)間、出發(fā)地點(diǎn)等信息，它就能立刻進(jìn)入狀態(tài)。

OpenManus會(huì)先將這些旅行需求自動(dòng)轉(zhuǎn)化為一份清晰的待辦列表（To-Do List），然后主動(dòng)訪問各類旅游網(wǎng)站，自動(dòng)瀏覽、滾動(dòng)頁面并點(diǎn)擊鏈接獲取詳細(xì)資料。在獲取信息的同時(shí)，它還會(huì)不斷總結(jié)梳理，逐步完善任務(wù)清單，最終形成一份完整的HTML格式的旅行攻略。

另一個(gè)令人印象深刻的場景是股票分析。以分析過去三年三只股票（例如英偉達(dá)、Marvell和AMD）的相關(guān)性為例，Manus表現(xiàn)得就像一個(gè)經(jīng)驗(yàn)豐富的股票分析師。

它通過API訪問Yahoo Finance等平臺(tái)，獲取真實(shí)歷史數(shù)據(jù)，并進(jìn)行多渠道交叉驗(yàn)證。隨后，它會(huì)生成詳細(xì)的數(shù)據(jù)圖表與報(bào)告，以清晰展現(xiàn)三支股票的相關(guān)性及可能的因果關(guān)系，這種專業(yè)的分析方式，與真實(shí)的金融分析員不相上下。

以下為根據(jù)原文結(jié)構(gòu)嚴(yán)格補(bǔ)充優(yōu)化后的「Manus AI的工作原理」部分的詳細(xì)內(nèi)容：

Manus AI 的運(yùn)行機(jī)制與技術(shù)原理

為了實(shí)現(xiàn)“從思考到行動(dòng)”的無縫銜接，Manus AI 設(shè)計(jì)了一套獨(dú)特的多智能體協(xié)同架構(gòu)。這種架構(gòu)區(qū)別于傳統(tǒng)單體AI模型，更類似于一個(gè)高效協(xié)作的團(tuán)隊(duì)，每個(gè)智能體（Agent）都負(fù)責(zé)特定類型的任務(wù)。

具體來說，Manus AI在一個(gè)基于Linux的虛擬機(jī)環(huán)境中運(yùn)行，其中安裝了Chrome瀏覽器與Python等基礎(chǔ)工具，以支持多種復(fù)雜任務(wù)的順利執(zhí)行。

此外，Manus 通過以下幾個(gè)核心組件實(shí)現(xiàn)任務(wù)的有效推進(jìn)：

任務(wù)規(guī)劃器（Task Planner）
當(dāng)用戶提出一個(gè)具體任務(wù)時(shí)，任務(wù)規(guī)劃器會(huì)首先介入，將模糊的用戶需求轉(zhuǎn)化為明確的執(zhí)行計(jì)劃，并生成清晰的任務(wù)清單（To-Do List）。這一過程類似于項(xiàng)目經(jīng)理拆分任務(wù)的過程，有效確保后續(xù)執(zhí)行步驟明確清晰。
任務(wù)調(diào)度器（Task Execution Scheduler）
在任務(wù)執(zhí)行過程中，Manus 借助任務(wù)執(zhí)行調(diào)度器來實(shí)時(shí)協(xié)調(diào)任務(wù)進(jìn)度。調(diào)度器通過特定協(xié)議（例如MCP模型通信協(xié)議）與其他智能體保持緊密聯(lián)動(dòng)，實(shí)時(shí)監(jiān)控進(jìn)展并靈活調(diào)整執(zhí)行策略，以應(yīng)對(duì)任務(wù)過程中的不確定因素。
多類型執(zhí)行代理（Execution Agents）
Manus AI內(nèi)部擁有多種專門化的執(zhí)行代理，例如網(wǎng)頁交互代理、數(shù)據(jù)分析代理、文件處理代理等。每個(gè)代理擁有特定的技能，并根據(jù)任務(wù)清單分別處理相應(yīng)的具體子任務(wù)。這種方式確保各個(gè)環(huán)節(jié)高效銜接，避免任務(wù)停滯或重復(fù)執(zhí)行。
上下文感知的類型檢查與反饋機(jī)制
Manus還內(nèi)置了智能的類型與狀態(tài)檢查機(jī)制，能夠在執(zhí)行過程中實(shí)時(shí)檢驗(yàn)數(shù)據(jù)和操作的有效性。此外，Manus在任務(wù)推進(jìn)過程中會(huì)不斷提供直觀的反饋，將AI內(nèi)部的思考和決策過程以可視化的方式呈現(xiàn)給用戶，用戶可隨時(shí)查看并調(diào)整任務(wù)狀態(tài)。
任務(wù)總結(jié)與成果交付系統(tǒng)（Summary Generator）
當(dāng)所有子任務(wù)完成后，最終一個(gè)負(fù)責(zé)總結(jié)的智能體會(huì)整合各個(gè)環(huán)節(jié)產(chǎn)生的中間數(shù)據(jù)，形成完整、易于理解的最終輸出。通常這一階段可能調(diào)用更高級(jí)的文本生成模型（例如Claude 3.5），確保生成的報(bào)告內(nèi)容邏輯清晰、結(jié)構(gòu)嚴(yán)謹(jǐn)且具備專業(yè)水平。

從技術(shù)架構(gòu)的角度看，Manus AI的運(yùn)作環(huán)境被推測為基于Linux系統(tǒng)的虛擬機(jī)，內(nèi)置Python環(huán)境和Chrome瀏覽器。這一架構(gòu)組合，既提供了強(qiáng)大的通用計(jì)算能力，也能高效支持多樣化任務(wù)的快速落地。

OpenManus本地環(huán)境搭建教程

你可能迫不及待地想試試這個(gè)工具了，別急，這里簡單介紹一下如何快速配置OpenManus：

首先安裝基礎(chǔ)環(huán)境并克隆代碼庫：

conda create -n openmanus python=3.10
git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus
pip install -r requirements.txt

接下來，我們配置大模型 API。我們將使用 QwQ-32B 作為 OpenManus 的底層大模型。

首先，復(fù)制一個(gè)配置文件： config/config.toml

cp config/config.example.toml config/config.toml

然后啟動(dòng)大模型服務(wù)

ollama run qwq

配置好config/config.toml文件，添加你的API key及對(duì)應(yīng)模型地址

# Global LLM configuration
[llm]
model = "qwq"
base_url = "http://ollamahost:11434/v1"
api_key = "sk-..."
max_tokens = 4096
temperature = 0.0

# Optional configuration for specific LLM models
[llm.vision]
model = "minicpm-v"
base_url = "http://ollamahost:11434/vi"
api_key = "sk-..."

就可以一行命令啟動(dòng)OpenManus：

python main.py

Manus、DeepSeek、ChatGPT對(duì)比：誰更強(qiáng)？

盡管三者都基于強(qiáng)大的大模型開發(fā)，但各有側(cè)重與差異。

DeepSeek 和 ChatGPT 同樣使用經(jīng)典的變換器架構(gòu)（Transformer），更擅長文本理解與生成對(duì)話，分別在交互質(zhì)量和文本創(chuàng)作領(lǐng)域表現(xiàn)出色。
而Manus AI則采用多智能體架構(gòu)與非監(jiān)督強(qiáng)化學(xué)習(xí)，尤其擅長從計(jì)劃到實(shí)際任務(wù)的落地執(zhí)行。它不僅能提出解決方案，更能直接完成任務(wù)交付成果。

簡而言之，如果你更關(guān)注高效完成實(shí)際任務(wù)而不僅是信息獲取，Manus將是更理想的選擇。

從效果看AI之爭

最后，讓我們回到實(shí)際輸出效果的對(duì)比。

在一次實(shí)際測試中，Manus生成的內(nèi)容更為系統(tǒng)化，除基礎(chǔ)的信息羅列外，還提供了詳細(xì)目錄、介紹和完整的分析框架，閱讀體驗(yàn)更接近人工專業(yè)制作的報(bào)告。相比之下，OpenManus則傾向于精煉化，每個(gè)案例都突出三項(xiàng)核心信息，簡潔明了。

因此，選擇哪個(gè)更好取決于具體使用需求：如果你需要完整而詳盡的執(zhí)行報(bào)告，Manus更適合；如果追求高效快速的簡潔輸出，OpenManus則更為合適。

可以預(yù)見的是，隨著像Manus這樣的通用執(zhí)行型智能助手逐漸普及，未來的AI生態(tài)將不再局限于簡單的問答與交談，而是真正實(shí)現(xiàn)從智能思考到高效行動(dòng)的深度融合。

而這，正是AI下一個(gè)時(shí)代的開始。

責(zé)任編輯：姜華來源：大遷世界