こんにちは、みんな~👋
最近、AI エージェントという概念が非常に注目を集めています。以前の Manus が Deepseek R1 で大ヒットした後も、数日間トップニュースを占め、さまざまな記事がその素晴らしさを称賛し、人間のように考え、働き、コードを書くことができると言われ、まさに灰を除くこと以外は何でもできると言われました。しかし、当時は招待コードが非常に少なく、需要に対して供給が追いつかず、効果も期待外れでした。最近、字節跳動の Coze が Beta 版の Coze Space を発表し、字節跳動版の Manus と見なすことができます。Manus が登場したとき、私は心の中で疑問を抱いていました:本当にそんなにすごいの?🤔今回は内測版の Coze Space を体験する機会があり、さっそく試してみることにしました。
他の人の話を聞くだけでは面白くないので、実践こそが真理を検証する唯一の基準です!そこで、私は Coze Space(以下、小 C)を呼び寄せ、彼に「期末大作業」レベルの極限挑戦を精心設計しました!
「試験範囲」超ハードコア!小 C は何に挑戦するのか?#
豆包の知能が向上したことを考慮し、私は「小児科」の簡単なタスクをすっ飛ばしました。
-
オフィス基礎スキルの評価:
- レポートの達人? 自分で資料を調べて研究レポートを書かせる。例えば、金融業界の市場分析を行い、見栄えも良く仕上げる!
- PPT デザインはできる? レポートに基づいて自動的に PPT を生成できるか?目に痛いレイアウトは拒否!
- Excel データ処理の達人? ごちゃごちゃした文書からデータを抽出して表に記入し、簡単なデータ分析やグラフ作成を行う。
-
専門知識の大試験:
- 法学の知識はどれくらい? 契約書を渡して、その中の「落とし穴」(法律リスクポイント)を見つけさせる。
- コンピュータの専門家? 技術文書を分析させるか、異なるデータベースの利点と欠点を比較させる。
- 金融知識も必要! 簡単に財務報告を分析し、金融用語を説明させる。
-
生活アシスタントモード:
- 旅行プランナー登場! これには超期待!高德地図の MCP を組み合わせて、旅行ルートを計画し、美味しい食べ物や楽しい場所を見つけ、時間と予算も考慮してもらう!😎
-
究極の悪魔のタスク:A 株市場分析!
- これは絶対にメインイベント!私は小 A に新エネルギー車と人工知能という 2 つのホットな分野を研究させ、有望な A 株企業を見つけ、ファンダメンタルズやリスクポイントを分析させ、最後にシミュレーション投資ポートフォリオを構築し、投資分析レポートを生成させる!聞くだけで超刺激的じゃないですか?!🤯
テストプロセス & 私の「採点」基準#
テスト中、私は厳格な甲方パパ(誤)になり、小 C にタスク指令を出し、彼の「思考プロセス」と最終的に提出された「宿題」を静かに観察しました。
私は彼が最終的に何かを提出したかどうかだけを見ているわけではありません。私の「採点」基準は:
- タスクの完了度: 完了しましたか?
- 結果の質: レポートは専門的ですか?PPT は見られますか?Excel データは正しいですか?旅行ルートは信頼できますか?A 株分析は無茶苦茶ですか、それとも本当に実力がありますか?
- 賢さ(自主性): 途中で私という「監督教師」が狂ったようにヒントを出す必要がありますか?自分で問題を発見し、戦略を調整できますか?
- 効率: 作業効率はどうですか?
- ツールの使用: 高德地図などのツールはどう使っていますか?返されたデータは理解できましたか?
- 耐圧能力: エラーや曖昧な指示に遭遇したとき、すぐに崩壊しませんか?少しはもがけますか?
評価結果大公開:「小 C」は学霸か学渣か?#
一通り「過酷な」テストを経て、小 C のパフォーマンスについて大まかなイメージを持ちました。全体的に結果は… 驚かされました!🤩
ハイライト (OMG Moments ✨):#
- オフィス自動化 Pro Max:レポート / PPT/Excel はお手の物
表は必ず Excel を使えるべきです。
例えば、上証 50 の成分株を調べて xlsx ファイルを出力するという要求は、簡単にこなしました。
プレゼンテーションは必ず PPT を使えるべきです。
彼に PPT を作成させるのも全く手間がかからず、結果もかなり見栄えが良いです。もちろん、空白が多いですが、文脈が十分であれば上記のような状況を効果的に回避できます。
業界レポートを作成する能力には本当に驚かされました。これは完全に私の日常生活や専門分野の外にあり、少なくとも私のような素人を唸らせるには十分でした。さらに、ウェブページを生成して表示することもでき、非常に包括的です。
- 情報収集の達人:全自動、自動検索
資料を調べたり、ニュースを集めたり、高德地図を使って場所の情報を調べたりする速度は確かに速く、私が自分で調べるよりもはるかに便利です。素晴らしい!👍
例えば、陕師大の近くの陕菜館を調べると、高德地図の MCP との連携が非常に良く、検索も迅速で、Excel 表に出力されました。なぜ陕菜館を調べると高德地図が無関係な結果を返すのかは分かりませんが、これは小 C には関係ありません。
さらに、「PayPal が中国本土で運営する際に注意すべき主要なデータコンプライアンス要件(『ネットワークセキュリティ法』、『個人情報保護法』などを考慮)を分析し、コンプライアンス要点メモを出力する。」と尋ねると、思考に基づいて自動的に検索を行い、合計で 2 回の思考と 15 回の検索を行いました。少なくとも私自身の検索効率はこれほど高くありません。
- MCP 呼び出しの達人、旅行プランニングを楽しむ!
高德地図と飛常准の両方が接続されている MCP があるため、旅行プランを作成するのは非常に簡単です。彼は各観光地に行ったことがありませんが、緯度と経度を調べることで旅行プランを立てることができ、驚くべきことです。
- ロバスト性が良好で、頭の回転が早い
ユーザーが曖昧な情報を提供した際、彼は考えた後に追加情報を提供でき、従来の LLM のように思い込みで進めることはありません。
また、コードを書く際にエラーが出た場合、自分でエラーに基づいて修正することもできます。もちろん、Trae と Cursor はすでにそのような経験を持っています。
- 究極の挑戦に直面:A 株分析タスク、素人を唸らせる
私の要求は「過去 6 ヶ月の A 株市場における『新エネルギー車産業チェーンの上流(リチウム鉱石、正負極材料、セパレーター、電解液など)』と『人工知能応用(AI チップ、コンピュータビジョン、自然言語処理関連の上場企業)』を深く研究し分析する。あなたの分析に基づいて、各分野から 3-5 社の投資潜力が高い A 株上場企業を選別し、選ばれた企業のためにシミュレーション投資ポートフォリオを構築する。最終的に詳細な投資分析レポートと展示用のウェブページを生成する。」というものでした。
これは彼に A 株の特定分野を分析させ、企業を選別し、シミュレーションポートフォリオを構築させる必要があります。私は小 C が「寝転がる」と思っていましたが、彼は本当に複雑な指示に従って、一歩一歩試みました!
最も驚いたのは、彼がまず青写真を生成でき、この多段階の複雑なプロセスを理解し実行しようとしたことです:まず業界研究を行い -> 次に企業を選別し -> その後企業を分析し -> 最後にポートフォリオを構築する。深い思考が非常に dp(doubao 1.5 pro thinking が本当に dp を学び尽くしました)。
彼が示した情報収集と統合能力は非常に強力で、マクロ政策、業界の動向、企業の公告などの多次元情報を迅速にキャッチし、5 分以内に 27 回の検索を行いました。
最終的に彼は具体的な投資配置を示さなかったものの、検索したデータは 6 ヶ月以上のものでしたが、彼がこの複雑なタスクプロセスを駆使する能力自体は、十分に印象的でした!これは単なる質問応答や指示実行を超え、「自主的に問題を解決する」方向に大きな一歩を踏み出しました!🤯このタスクは 22 分もかかりました。
ええ… まだ改善の余地はある (Uh-oh Moments 🤔):#
大まかに分けると、2 つの側面に分けられます。
LLM 自体の能力制限#
豆包は今や知恥後勇で、深い思考モデルが大きな進歩を遂げましたが、SOTA と比べるとまだまだ差があります。例えば、場所の緯度と経度を取得したにもかかわらず、近くの観光地を 1 日で訪れることができるという意識が全くなく、平均的に分配され、ネットでのコピーを調べることも全く考えませんでした。あまりにも素直です。
SOTA を使ったら、人はどれほど明るくなるか想像もつきません。
MCP プラグインの制限#
ここではプラグインが提供する情報が不足しています。例えば、高德地図はレストランの評価を提供せず、飛常准は航空券の価格を提供しません。どうしようもありません。
総じて:未来は明るい!✨
今回の複雑なタスクに焦点を当てた評価は、AI エージェントの驚くべき潜在能力と進化の速度を見せてくれました!
- 彼は情報統合、構造化出力、複雑なプロセスの遵守、外部ツール(API)の呼び出しにおいて、すでに多くの人の想像を超える能力を示しています。
- 彼が多段階の思考、異分野の知識の初歩的な応用、さまざまな情報源の統合を必要とするタスクを処理する際、結果が必ずしも完璧でなくても、その **「解決を試みる」過程と能力フレームワーク ** 自体が非常に素晴らしいです!
- ツールの呼び出しはハイライトですが、ツール自体にも依存します。 高德地図 MCP を使ってルートを計画できるのは素晴らしいですが、MCP が不正確な情報を返したり、彼が MCP のパラメータを誤解したりすると、結果もずれてしまいます。ゴミが入れば、ゴミが出る。
まるでスーパー学霸の雛形を見ているようで、今はまだいくつかの難題でつまずくこともありますが、彼の学習速度と潜在能力は目に見えて明らかです!
未来はすでに来ており、AI エージェントは本当に私たちの強力なパートナーになれる!彼が進化を続け、さらなる驚きをもたらすことを楽しみにしています!
PS. 本来は字節跳動をあまり好んでいなかったのですが、結果的に字節の製品を使うことが増えました。
PPS. Coze Space には他にも 2 つの専門エージェントがいるので、ぜひ体験してみてください。