Skip to content

国内目前使用的AI智能问答软件,豆包、通义千问、元宝、kimi、deepseek,哪个好用?

本文来自本地知识库收藏,当前先作为 AI 主题站的内容样例。后续可继续拆成观点卡、案例卡和主题包。

基本信息

内容摘录 / 整理

你们平时用大模型,肯定经常干一件事:把各种链接喂给 AI,让它帮你总结,对吧?

但这一直有一个痛点。

很多时候,你把一篇微信公众号的文章链接扔给 Gemini,它就开始胡编乱造。但是你转头扔给豆包,它秒回。

或者你把一篇腾讯文档扔给豆包,它就看不了。但扔给元宝,就又能读了。

总之就是,A 模型能读 B 平台的链接,但读不了 C 平台;D 模型能读 C 平台,却对 B 平台无能为力。

每次遇到这种事,我都得在几个网页对话框之间来回试探,像个无头苍蝇。

说实话,这效率太低了。这简直是对 AI 生产力这五个字的侮辱。

我想,那干脆就做个彻底的测试吧。

一次性把现有的主流大模型拉出来溜溜,看看它们对各种社交媒体、文档链接的兼容度到底怎么样。

这是一个很简单的需求,对吧?

我全网搜了一下,发现目前好像没人做过这种大规模的测试。

行,既然没人做,那我来。我就权当给自己,也给大家探探路。以后你们查资料,直接按图索骥,省得来回开盲盒了。

AI 自动化的破灭

熟悉我的老粉应该知道,以前这种枯燥的横评测试,比如语音识别、OCR 提取测试,我都是自己吭哧吭哧手动干的,感兴趣的话可以翻翻旧文。

但是,现在都 2026 年 3 月了。

有了各种高阶的 Agent 工具,我还需要自己干这些脏活吗?把任务理清楚,交给 AI 自动跑完,这不就是顺理成章的事儿吗?

于是,我选了 12 款主流大模型。

国外 4 家:ChatGPT、Claude、Gemini、Grok。

国内 8 家:智谱 GLM、元宝、DeepSeek、Minimax、Kimi、豆包、千问、文心一言。

然后,我挑了 11 个大家日常又最高频使用的链接平台。普通的网页就算了,没难度。

我选的是:微信公众号、腾讯文档、抖音、小红书、飞书文档、B 站、YouTube、TikTok、X (Twitter)、Google Docs、GitHub。

我的计划是这样的:让 OpenCode 配合 Playwright,模拟浏览器操作。挨个打开这 12 个大模型官网的对话框,依次填入这 11 个链接,然后让它们总结成 100 字左右的内容。

然后,噩梦就开始了。

这么一个简单的测试,从上周四到这周末,我前前后后折腾了六七轮。

第一轮测试跑起来的时候,我就发现不对劲。太慢了。Playwright 模拟人去点点点,那速度,有时候比我自己手动复制粘贴还要慢!

更要命的是,我等它慢吞吞跑完几个,我一看结果。

卧槽,完全对不上啊!

同一个链接,有些模型总结出来的东西,跟原文八竿子打不着!

这里必须点名批评 Gemini!每次给它链接,它从来都不说自己干不了,只要你敢给链接我就敢给你总结,然后洋洋洒洒给你扯一堆和原链接毫不相关的内容。严重幻觉。

答案五花八门,啥都有。这怎么判断它到底能不能读?第一轮宣告失败。

偷懒的 AI 与上下文崩溃

所以第二轮,我调整了策略。

我得先建立一个「事实基准」。我先用确实能读该链接的模型,把这 11 个链接的真实内容总结出来,作为标准答案。后续自动化测试拿到的结果,必须跟这个基准比对。

有了这个基准,我开启了第三轮测试。

这次读取的内容可以成功进行基准内容比对了。

但这轮测试,把我给气笑了。

我一开始的时候用的是 GLM5,上下文窗口只有 200K。跑着跑着,上下文堆到170-180 K 的时候,大模型居然开始自作主张了。

它居然在后台说:哎呀,咱们用的时间已经够长了,要不然加快点速度,挑几个测试一下得了?

当时我刚好把任务一扔,自己睡觉去了。结果第二天一早醒来收菜,发现有一半的测试它根本没跑,直接跳过,然后强行给我捏造了一份测试报告。

你这就算完了?算交差了?

我真的跪了。它觉得累了,它就自己下班了?

行,单次测试 11 个模型、100 多个链接,上下文撑不住。那我就分拆,分成两组,每组 6 个大模型去跑。

结果呢?还是各种报错,动不动就提前终止。Token 在后台疯狂燃烧,我的心在滴血,最后依然拿不到一个完整的可用结果。

无头浏览器的折磨

这速度,这成功率,简直没法忍。

我一怒之下,打开了豆包的视频通话,让它看着我的 OpenCode 直接问它:我这测试卡住了,用 Playwright 跑这个速度正常吗?

豆包倒是老实,跟我说:你用带 UI 的 Playwright 本身就慢,你要真想搞,切无头浏览器 (Headless Browser) 模式啊,能提速快 10 倍。

我一听,有道理。之前在 OpenClaw里用过,但在 OpenCode 里还没试过。为了稳妥起见,在让 OpenCode 写代码前,我又去找 Gemini 聊了七八轮。

我把用无头浏览器的方案详细跟它盘了一遍,让它帮我设计了一套执行逻辑,然后这次把 API 换成了 GPT-Codex。

觉得万无一失了,我把这套完美方案扔给 OpenCode,让它开始干活。

Agent 吭哧吭哧写了两个小时的代码。运行完代码测试全部成功,就在这个时候,它冷不丁冒出来一句:

「运行 Playwright 的无头环境,和你现在已经打开登录的浏览器,不在一个通道上哦。要么你在我新开的无头环境里,把 12 个大模型重新再登录一次,要么,咱们还是退回去用普通 Playwright 吧。」

我艹。。。这不是扯淡吗???你怎么不早说?

这个对话被我不小心删了,没法截图,当时已经是深夜两点多了,算了第二天再说吧。

批处理的坑与最终妥协

实际上,用无头浏览器的这个模式的同时,我还又把模型分拆成四组,每组三个大模型来测。即便这样,测一轮也得一个多小时,而且林林总总全是细节 bug。

就这样又折腾了一天,到了周六早上,我脑子里突然闪过一道光:

我是不是傻?我为什么非要让 Agent 打开对话框,粘 1 个链接,等回复;再开对话框,再粘 1 个链接?

我为什么不能把 11 个链接打包,一次性发给大模型,让它一次性总结 11 个结果?!这样每个大模型我只需要操作一次啊!

实际执行起来效果是这样的:

我马上开始跑批处理测试。别说,这速度真是快到起飞。几轮下来,报告生成了:

我拿着那份自动生成的报告,准备排版。结果仔细一看,倒吸一口凉气。

这数据根本没法用,有致命的 Bug。

比如,在批量链接处理里,微信公众号文章基本上国产模型都能读取,但现在大面积无法读取,再比如,智谱之前单独测试GitHub链接,是可以读取,但现在都判定了失败。

同样的例子,我单独开了一个对话框,又复核了一次,秒成功。

也就是说,批量链接测试和单次测试的结果不一致。。。

卧槽。破案了。

当你把多个复杂链接一次性喂给大模型时,它的注意力机制会严重分散,导致原本能读的链接直接报错。

这意味着,我通过批量测试拿到的数据,全!部!不!可!靠!

那一刻,我都一度想放弃了,我是有多想不开给自己找了这么一个折腾人的活儿。

但这也就是抱怨几句,如果是日常的测试也就算了,我可以换一个题目,但是现在是要发布一篇经得起检验的测试结果,这就可能不对结果负责。

大模型的这种「玄学」幻觉,让人心里太没底了。但是,看着前面砸进去的好几天沉没成本,我这该死的倔脾气又上来了。去他大爷的 AI 自动化!老子今天就纯手工爆肝,我不信我治不了你!

于是整个测试又回到了最初的原点,还得靠人类手动一个个测试。

于是我又花了一整天的时间。纯手动,粘贴、发送、比对基准、记录。12 个大模型,11 个平台,132 次组合,我人工手搓了一遍。

在这期间,由于我是人工仔细核对,我还真的发现了一些极其硬核的隐藏细节,这些是自动化脚本绝对发现不了的。

细节一:视频读取的「半通过」判定

在测试 TikTok 和 B 站链接时,我发现有些模型(比如 Grok 读取 TikTok,豆包读取 B 站)表现得很诡异。

如果你给它一个「知识分享类」视频(有旁白、有字幕),它确实能总结得有理有据。

这是 Grok 读取 TikTok:

这是豆包读取 B 站:

可能到这里,你就会觉得,它们是能看视频的,那就可以判定通过了,单实际上没这么简单。

但如果你给它一个纯舞蹈视频、或者小姐姐纯弹琴的视频,它就直接瞎了,啥也说不出来。

比如这个 Tiktok视频:

Grok 读取是这样的:

再比如这样一个抖音视频:

豆包返回的结果是这样的:

所以,这说明

...

注:此页为节选展示,完整内容保留在本地知识库。

后续可整理方向

  • 提炼核心观点
  • 拆分可复用金句
  • 归入 AI 工具 / AI 效率 / 大模型认知等主题包
  • 改写成公众号或小红书内容

Built with VitePress