我給Coze Space搞了個「極限挑戰」！從做PPT到分析A股，它到底行不行？

嘿，大家好～👋

最近 AI Agent 這個概念非常火，之前的 Manus 在 Deepseek R1 爆火後也佔據了好幾天頭條，各種文章都在吹它多厲害，說它能像人一樣思考、幹活、寫程式，簡直除了打灰無所不能。可惜當時邀請碼非常少，有價無市，效果也是不達預期。最近字節跳動的 Coze 發布了 Beta 版本的 Coze Space，可以看作是字節跳動版的 Manus。當時 Manus 剛出時，我心裡就犯嘀咕了：真有這麼神？🤔這次有機會體驗內測版的 Coze Space，準備上手一測。

光聽別人說沒意思，實踐是檢驗真理的唯一標準！於是，我就拉來了 Coze Space（以下簡稱小 C），給它精心設計了一套 “期末大作業” 級別的極限挑戰！

“考綱” 超硬核！看看小 C 都要挑戰啥？#

鑑於豆包智商的提升，我直接跳過了那些 “小兒科” 的簡單任務。

辦公基礎技能考察:
- 報告小能手？ 讓它自己查資料寫個研究報告，比如金融行業的市場分析，還得像模像樣！
- PPT 美工上線？ 能不能根據報告自動生成 PPT？拒絕辣眼睛排版！
- Excel 數據處理大師？ 從亂七八糟的文檔裡提取數據填表，做點簡單的數據分析、畫個圖表啥的。
專業知識大考驗:
- 法學知識懂多少？ 扔給它一份合同，讓它找找裡面的 “坑”（法律風險點）。
- 計算機老本行？ 幫我分析個技術文檔，或者比較下不同數據庫的優劣。
- 金融知識也不能少！ 簡單分析個財報，解釋下金融術語。
生活小助理模式:
- 旅遊規劃師上線！ 這個我超期待！結合高德地圖的 MCP，讓它幫我規劃旅遊路線，找好吃的、好玩的，還要考慮時間和預算！😎
終極魔鬼任務：A 股市場分析！
- 這個絕對是重頭戲！我讓小 A 研究新能源汽車和人工智能兩個熱門賽道，找出有潛力的 A 股公司，分析基本面、風險點，最後還要構建一個模擬投資組合並生成一份投資分析報告！是不是聽著就超刺激？！🤯

測試過程 & 我的 “閱卷” 標準#

測試的時候，我就像個嚴格的甲方爸爸（誤），給小 C 下達任務指令，然後就默默觀察它的 “思考過程” 和最終提交的 “作業”。

我可不只是看它最後交沒交東西，我的 “閱卷” 標準是：

任務完成度： 做完了嗎？
結果質量： 報告專業嗎？PPT 能看嗎？Excel 數據對嗎？旅遊路線靠譜嗎？A 股分析是瞎扯還是真有兩把刷子？
聰明程度（自主性）： 中途需不需要我這個 “監考老師” 瘋狂提示？能不能自己發現問題、調整策略？
效率： 幹活效率怎麼樣？
工具使用： 高德地圖等工具用得怎麼樣？返回的數據處理得明白不？
抗壓能力： 遇到報錯、模糊指令時，會不會原地崩潰？能不能掙扎一下？

測評結果大公開：“小 C” 是學霸還是學渣？#

經過一番 “慘無人道” 的測試，我對小 C 的表現有了個大概的畫像。總的來說結果嘛… 只能說，有被驚艷到！🤩

高光時刻 (OMG Moments ✨):#

辦公自動化 Pro Max：報告 / PPT/Excel 手到擒來

表格一定要會用 excel

比如說要求查詢上證 50 的成分股並輸出 xlsx 文件，手到擒來

展示一定要會用 PPT

讓它製作一個 ppt 的話也是毫不費工夫，效果也很能看得過去，雖然說空話比較多，但如果上下文充足可以有效避免上面的情況。

抓行業報告能力更是讓我嘆為觀止，因為這個完全在我的日常生活與專業領域之外，起碼已經唬住了我這樣一個外行。還可以生成一個網頁進行展示，非常全面。

信息搜集小能手：全自動，自搜索

查找資料、搜集新聞、調用高德地圖查個地點信息啥的，速度確實快，比我自己查半天方便多了。爆讚！👍

比如說查詢陕師大附近的陕菜館，和高德地圖的 MCP 配合的相當不錯，查詢也很快速，而且導出了 excel 表格，雖然我不知道為什麼查陕菜館高德地圖會返回一堆不相干的結果，但是這與我們的小 C 毫無關係。

再比如說詢問 “分析 PayPal 在中國大陸運營需要注意的主要數據合規要求（結合《網絡安全法》、《個人信息保護法》等），輸出一份合規要點備忘錄。” 時可以根據思考自動進行查詢，一共進行了兩次思考與 15 次查詢，起碼我本人的查詢效率是沒有這麼高的。

MCP 調用能手，玩轉旅遊規劃！

高德地圖與飛常準都有接入的 MCP，因此做個旅遊規劃非常輕鬆。雖然它沒去過各個景點，但是可以通過查詢經緯度來進行旅遊規劃，屬於是嘆為觀止。

魯棒性不錯，腦子轉的過來

在用戶提供模糊信息時，它可以在思考後向用戶提供額外信息，而不是像傳統 LLM 一樣想當然。

另外寫程式出錯也可以自己根據報錯修改，當然 Trae 與 Cursor 已經很有這樣做的經驗了。

直面終極挑戰：A 股分析任務，能唬住外行

我的要求是 “深入研究並分析過去 6 個月 A 股市場中‘新能源汽車產業鏈上游（如鋰礦、正負極材料、隔膜、電解液等）’和‘人工智能應用（如 AI 晶片、計算機視覺、自然語言處理相關的上市公司）’這兩個賽道。基於你的分析，從每個賽道中篩選出 3-5 只具有較高投資潛力的 A 股上市公司。為你篩選出的公司構建一個模擬投資組合。最終生成一份詳細的投資分析報告與一個用於展示的網頁”

這需要它分析 A 股特定賽道、篩選公司、構建模擬組合的，我本來以為小 C 會直接 “躺平”。但沒想到，它居然真的按照複雜的指令，一步步去嘗試了！

最驚喜的是，它首先可以生成一個藍圖，如何能理解並嘗試執行這個多階段的複雜流程：先做行業研究 -> 再篩選公司 -> 然後分析公司 -> 最後構建組合。雖然說這個深度思考非常 dp（doubao 1.5 pro thinking 真是把 dp 學透了）。

它展現出的信息搜集和整合能力是超強的，能夠快速抓取宏觀政策、行業動態、公司公告等多維度信息，在不到 5 分鐘內進行了 27 次查詢。

雖然最終它沒有給出具體的投資配置，查詢的數據也不止六個月，但它駕馭這種複雜任務流程的能力本身，就足夠讓人印象深刻了！這已經超越了簡單的問答和指令執行，向著 “自主解決問題” 邁出了一大步！🤯畢竟這個任務執行了足足 22 分鐘。

呃… 倒也還有提升空間 (Uh-oh Moments 🤔):#

拆解一下大概可以分為兩個方面。

LLM 本身能力限制#

儘管說豆包現在知恥而後勇，深度思考模型有了很大長進，但是比起 SOTA 還是差得太多，比如說儘管獲取了地點的經緯度，但是完全沒有意識到可以把相近的景點放到一天參觀，而是平均分配了，而且絲毫沒有意識到可以查詢網絡抄作業。太老實了。

簡直不敢想如果用上 SOTA，人會變得多麼開朗。

MCP 插件限制#

這裡就是插件提供的信息不夠了，比如說高德地圖沒有提供餐廳評分，飛常準沒有提供機票價格，沒辦法。

總而言之：未來可期！✨

這次聚焦於複雜任務的測評，讓我看到了 AI Agent 驚人的潛力和進化速度！

它在 ** 信息整合、結構化輸出、遵循複雜流程、以及調用外部工具（API）** 方面展現出的能力，已經遠超很多人的想像。
它處理那些需要多步驟思考、跨領域知識初步應用、整合多種信息來源的任務時，雖然結果不一定完美，但其展現出的 “嘗試解決” 的過程和能力框架，本身就非常了不起！
工具調用是亮點，但也依賴工具本身。 能調用高德地圖 MCP 規劃路線很酷，但如果 MCP 返回信息不準或者它理解錯了 MCP 參數，結果也會跑偏。Garbage in, garbage out.

感覺就像看到了個超級學霸的雛形，雖然現在可能在某些難題上還會卡殼，但它的學習速度和潛力是肉眼可見的！

未來已來，AI Agent 真的能成為我們強大的夥伴！真是期待它繼續進化，帶來更多驚喜！

PS. 本來不怎麼待見字節跳動的，結果用字節的產品越來越多

PPS. Coze Space 裡還有兩個專業 agent，歡迎大家體驗。