嘿,大家好~👋
最近 AI Agent 這個概念非常火,之前的 Manus 在 Deepseek R1 爆火後也佔據了好幾天頭條,各種文章都在吹它多厲害,說它能像人一樣思考、幹活、寫程式,簡直除了打灰無所不能。可惜當時邀請碼非常少,有價無市,效果也是不達預期。最近字節跳動的 Coze 發布了 Beta 版本的 Coze Space,可以看作是字節跳動版的 Manus。當時 Manus 剛出時,我心裡就犯嘀咕了:真有這麼神?🤔這次有機會體驗內測版的 Coze Space,準備上手一測。
光聽別人說沒意思,實踐是檢驗真理的唯一標準!於是,我就拉來了 Coze Space(以下簡稱小 C),給它精心設計了一套 “期末大作業” 級別的極限挑戰!
“考綱” 超硬核!看看小 C 都要挑戰啥?#
鑑於豆包智商的提升,我直接跳過了那些 “小兒科” 的簡單任務。
-
辦公基礎技能考察:
- 報告小能手? 讓它自己查資料寫個研究報告,比如金融行業的市場分析,還得像模像樣!
- PPT 美工上線? 能不能根據報告自動生成 PPT?拒絕辣眼睛排版!
- Excel 數據處理大師? 從亂七八糟的文檔裡提取數據填表,做點簡單的數據分析、畫個圖表啥的。
-
專業知識大考驗:
- 法學知識懂多少? 扔給它一份合同,讓它找找裡面的 “坑”(法律風險點)。
- 計算機老本行? 幫我分析個技術文檔,或者比較下不同數據庫的優劣。
- 金融知識也不能少! 簡單分析個財報,解釋下金融術語。
-
生活小助理模式:
- 旅遊規劃師上線! 這個我超期待!結合高德地圖的 MCP,讓它幫我規劃旅遊路線,找好吃的、好玩的,還要考慮時間和預算!😎
-
終極魔鬼任務:A 股市場分析!
- 這個絕對是重頭戲!我讓小 A 研究新能源汽車和人工智能兩個熱門賽道,找出有潛力的 A 股公司,分析基本面、風險點,最後還要構建一個模擬投資組合並生成一份投資分析報告!是不是聽著就超刺激?!🤯
測試過程 & 我的 “閱卷” 標準#
測試的時候,我就像個嚴格的甲方爸爸(誤),給小 C 下達任務指令,然後就默默觀察它的 “思考過程” 和最終提交的 “作業”。
我可不只是看它最後交沒交東西,我的 “閱卷” 標準是:
- 任務完成度: 做完了嗎?
- 結果質量: 報告專業嗎?PPT 能看嗎?Excel 數據對嗎?旅遊路線靠譜嗎?A 股分析是瞎扯還是真有兩把刷子?
- 聰明程度(自主性): 中途需不需要我這個 “監考老師” 瘋狂提示?能不能自己發現問題、調整策略?
- 效率: 幹活效率怎麼樣?
- 工具使用: 高德地圖等工具用得怎麼樣?返回的數據處理得明白不?
- 抗壓能力: 遇到報錯、模糊指令時,會不會原地崩潰?能不能掙扎一下?
測評結果大公開:“小 C” 是學霸還是學渣?#
經過一番 “慘無人道” 的測試,我對小 C 的表現有了個大概的畫像。總的來說結果嘛… 只能說,有被驚艷到!🤩
高光時刻 (OMG Moments ✨):#
- 辦公自動化 Pro Max:報告 / PPT/Excel 手到擒來
表格一定要會用 excel
比如說要求查詢上證 50 的成分股並輸出 xlsx 文件,手到擒來
展示一定要會用 PPT
讓它製作一個 ppt 的話也是毫不費工夫,效果也很能看得過去,雖然說空話比較多,但如果上下文充足可以有效避免上面的情況。
抓行業報告能力更是讓我嘆為觀止,因為這個完全在我的日常生活與專業領域之外,起碼已經唬住了我這樣一個外行。還可以生成一個網頁進行展示,非常全面。
- 信息搜集小能手:全自動,自搜索
查找資料、搜集新聞、調用高德地圖查個地點信息啥的,速度確實快,比我自己查半天方便多了。爆讚!👍
比如說查詢陕師大附近的陕菜館,和高德地圖的 MCP 配合的相當不錯,查詢也很快速,而且導出了 excel 表格,雖然我不知道為什麼查陕菜館高德地圖會返回一堆不相干的結果,但是這與我們的小 C 毫無關係。
再比如說詢問 “分析 PayPal 在中國大陸運營需要注意的主要數據合規要求(結合《網絡安全法》、《個人信息保護法》等),輸出一份合規要點備忘錄。” 時可以根據思考自動進行查詢,一共進行了兩次思考與 15 次查詢,起碼我本人的查詢效率是沒有這麼高的。
- MCP 調用能手,玩轉旅遊規劃!
高德地圖與飛常準都有接入的 MCP,因此做個旅遊規劃非常輕鬆。雖然它沒去過各個景點,但是可以通過查詢經緯度來進行旅遊規劃,屬於是嘆為觀止。
- 魯棒性不錯,腦子轉的過來
在用戶提供模糊信息時,它可以在思考後向用戶提供額外信息,而不是像傳統 LLM 一樣想當然。
另外寫程式出錯也可以自己根據報錯修改,當然 Trae 與 Cursor 已經很有這樣做的經驗了。
- 直面終極挑戰:A 股分析任務,能唬住外行
我的要求是 “深入研究並分析過去 6 個月 A 股市場中‘新能源汽車產業鏈上游(如鋰礦、正負極材料、隔膜、電解液等)’和‘人工智能應用(如 AI 晶片、計算機視覺、自然語言處理相關的上市公司)’這兩個賽道。基於你的分析,從每個賽道中篩選出 3-5 只具有較高投資潛力的 A 股上市公司。為你篩選出的公司構建一個模擬投資組合。最終生成一份詳細的投資分析報告與一個用於展示的網頁”
這需要它分析 A 股特定賽道、篩選公司、構建模擬組合的,我本來以為小 C 會直接 “躺平”。但沒想到,它居然真的按照複雜的指令,一步步去嘗試了!
最驚喜的是,它首先可以生成一個藍圖,如何能理解並嘗試執行這個多階段的複雜流程:先做行業研究 -> 再篩選公司 -> 然後分析公司 -> 最後構建組合。雖然說這個深度思考非常 dp(doubao 1.5 pro thinking 真是把 dp 學透了)。
它展現出的信息搜集和整合能力是超強的,能夠快速抓取宏觀政策、行業動態、公司公告等多維度信息,在不到 5 分鐘內進行了 27 次查詢。
雖然最終它沒有給出具體的投資配置,查詢的數據也不止六個月,但它駕馭這種複雜任務流程的能力本身,就足夠讓人印象深刻了!這已經超越了簡單的問答和指令執行,向著 “自主解決問題” 邁出了一大步!🤯畢竟這個任務執行了足足 22 分鐘。
呃… 倒也還有提升空間 (Uh-oh Moments 🤔):#
拆解一下大概可以分為兩個方面。
LLM 本身能力限制#
儘管說豆包現在知恥而後勇,深度思考模型有了很大長進,但是比起 SOTA 還是差得太多,比如說儘管獲取了地點的經緯度,但是完全沒有意識到可以把相近的景點放到一天參觀,而是平均分配了,而且絲毫沒有意識到可以查詢網絡抄作業。太老實了。
簡直不敢想如果用上 SOTA,人會變得多麼開朗。
MCP 插件限制#
這裡就是插件提供的信息不夠了,比如說高德地圖沒有提供餐廳評分,飛常準沒有提供機票價格,沒辦法。
總而言之:未來可期!✨
這次聚焦於複雜任務的測評,讓我看到了 AI Agent 驚人的潛力和進化速度!
- 它在 ** 信息整合、結構化輸出、遵循複雜流程、以及調用外部工具(API)** 方面展現出的能力,已經遠超很多人的想像。
- 它處理那些需要多步驟思考、跨領域知識初步應用、整合多種信息來源的任務時,雖然結果不一定完美,但其展現出的 “嘗試解決” 的過程和能力框架,本身就非常了不起!
- 工具調用是亮點,但也依賴工具本身。 能調用高德地圖 MCP 規劃路線很酷,但如果 MCP 返回信息不準或者它理解錯了 MCP 參數,結果也會跑偏。Garbage in, garbage out.
感覺就像看到了個超級學霸的雛形,雖然現在可能在某些難題上還會卡殼,但它的學習速度和潛力是肉眼可見的!
未來已來,AI Agent 真的能成為我們強大的夥伴!真是期待它繼續進化,帶來更多驚喜!
PS. 本來不怎麼待見字節跳動的,結果用字節的產品越來越多
PPS. Coze Space 裡還有兩個專業 agent,歡迎大家體驗。