国内目前使用的AI智能问答软件，豆包、通义千问、元宝、kimi、deepseek，哪个好用？

本文来自本地知识库收藏，当前先作为 AI 主题站的内容样例。后续可继续拆成观点卡、案例卡和主题包。

基本信息

作者：马小帅
赞同：105
来源：https://www.zhihu.com/question/1922608207504867947/answer/2012808806778820064

内容摘录 / 整理

你们平时用大模型，肯定经常干一件事：把各种链接喂给 AI，让它帮你总结，对吧？

但这一直有一个痛点。

很多时候，你把一篇微信公众号的文章链接扔给 Gemini，它就开始胡编乱造。但是你转头扔给豆包，它秒回。

或者你把一篇腾讯文档扔给豆包，它就看不了。但扔给元宝，就又能读了。

总之就是，A 模型能读 B 平台的链接，但读不了 C 平台；D 模型能读 C 平台，却对 B 平台无能为力。

每次遇到这种事，我都得在几个网页对话框之间来回试探，像个无头苍蝇。

说实话，这效率太低了。这简直是对 AI 生产力这五个字的侮辱。

我想，那干脆就做个彻底的测试吧。

一次性把现有的主流大模型拉出来溜溜，看看它们对各种社交媒体、文档链接的兼容度到底怎么样。

这是一个很简单的需求，对吧？

我全网搜了一下，发现目前好像没人做过这种大规模的测试。

行，既然没人做，那我来。我就权当给自己，也给大家探探路。以后你们查资料，直接按图索骥，省得来回开盲盒了。

AI 自动化的破灭

熟悉我的老粉应该知道，以前这种枯燥的横评测试，比如语音识别、OCR 提取测试，我都是自己吭哧吭哧手动干的，感兴趣的话可以翻翻旧文。

但是，现在都 2026 年 3 月了。

有了各种高阶的 Agent 工具，我还需要自己干这些脏活吗？把任务理清楚，交给 AI 自动跑完，这不就是顺理成章的事儿吗？

于是，我选了 12 款主流大模型。

国外 4 家：ChatGPT、Claude、Gemini、Grok。

国内 8 家：智谱 GLM、元宝、DeepSeek、Minimax、Kimi、豆包、千问、文心一言。

然后，我挑了 11 个大家日常又最高频使用的链接平台。普通的网页就算了，没难度。

我选的是：微信公众号、腾讯文档、抖音、小红书、飞书文档、B 站、YouTube、TikTok、X (Twitter)、Google Docs、GitHub。

我的计划是这样的：让 OpenCode 配合 Playwright，模拟浏览器操作。挨个打开这 12 个大模型官网的对话框，依次填入这 11 个链接，然后让它们总结成 100 字左右的内容。

然后，噩梦就开始了。

这么一个简单的测试，从上周四到这周末，我前前后后折腾了六七轮。

第一轮测试跑起来的时候，我就发现不对劲。太慢了。Playwright 模拟人去点点点，那速度，有时候比我自己手动复制粘贴还要慢！

更要命的是，我等它慢吞吞跑完几个，我一看结果。

卧槽，完全对不上啊！

同一个链接，有些模型总结出来的东西，跟原文八竿子打不着！

这里必须点名批评 Gemini！每次给它链接，它从来都不说自己干不了，只要你敢给链接我就敢给你总结，然后洋洋洒洒给你扯一堆和原链接毫不相关的内容。严重幻觉。

答案五花八门，啥都有。这怎么判断它到底能不能读？第一轮宣告失败。

偷懒的 AI 与上下文崩溃

所以第二轮，我调整了策略。

我得先建立一个「事实基准」。我先用确实能读该链接的模型，把这 11 个链接的真实内容总结出来，作为标准答案。后续自动化测试拿到的结果，必须跟这个基准比对。

有了这个基准，我开启了第三轮测试。

这次读取的内容可以成功进行基准内容比对了。

但这轮测试，把我给气笑了。

我一开始的时候用的是 GLM5，上下文窗口只有 200K。跑着跑着，上下文堆到170-180 K 的时候，大模型居然开始自作主张了。

它居然在后台说：哎呀，咱们用的时间已经够长了，要不然加快点速度，挑几个测试一下得了？

当时我刚好把任务一扔，自己睡觉去了。结果第二天一早醒来收菜，发现有一半的测试它根本没跑，直接跳过，然后强行给我捏造了一份测试报告。

你这就算完了？算交差了？

我真的跪了。它觉得累了，它就自己下班了？

行，单次测试 11 个模型、100 多个链接，上下文撑不住。那我就分拆，分成两组，每组 6 个大模型去跑。

结果呢？还是各种报错，动不动就提前终止。Token 在后台疯狂燃烧，我的心在滴血，最后依然拿不到一个完整的可用结果。

无头浏览器的折磨

这速度，这成功率，简直没法忍。

我一怒之下，打开了豆包的视频通话，让它看着我的 OpenCode 直接问它：我这测试卡住了，用 Playwright 跑这个速度正常吗？

豆包倒是老实，跟我说：你用带 UI 的 Playwright 本身就慢，你要真想搞，切无头浏览器 (Headless Browser) 模式啊，能提速快 10 倍。

我一听，有道理。之前在 OpenClaw里用过，但在 OpenCode 里还没试过。为了稳妥起见，在让 OpenCode 写代码前，我又去找 Gemini 聊了七八轮。

我把用无头浏览器的方案详细跟它盘了一遍，让它帮我设计了一套执行逻辑，然后这次把 API 换成了 GPT-Codex。

觉得万无一失了，我把这套完美方案扔给 OpenCode，让它开始干活。

Agent 吭哧吭哧写了两个小时的代码。运行完代码测试全部成功，就在这个时候，它冷不丁冒出来一句：

「运行 Playwright 的无头环境，和你现在已经打开登录的浏览器，不在一个通道上哦。要么你在我新开的无头环境里，把 12 个大模型重新再登录一次，要么，咱们还是退回去用普通 Playwright 吧。」

我艹。。。这不是扯淡吗？？？你怎么不早说？

这个对话被我不小心删了，没法截图，当时已经是深夜两点多了，算了第二天再说吧。

批处理的坑与最终妥协

实际上，用无头浏览器的这个模式的同时，我还又把模型分拆成四组，每组三个大模型来测。即便这样，测一轮也得一个多小时，而且林林总总全是细节 bug。

就这样又折腾了一天，到了周六早上，我脑子里突然闪过一道光：

我是不是傻？我为什么非要让 Agent 打开对话框，粘 1 个链接，等回复；再开对话框，再粘 1 个链接？

我为什么不能把 11 个链接打包，一次性发给大模型，让它一次性总结 11 个结果？！这样每个大模型我只需要操作一次啊！

实际执行起来效果是这样的：

我马上开始跑批处理测试。别说，这速度真是快到起飞。几轮下来，报告生成了：

我拿着那份自动生成的报告，准备排版。结果仔细一看，倒吸一口凉气。

这数据根本没法用，有致命的 Bug。

比如，在批量链接处理里，微信公众号文章基本上国产模型都能读取，但现在大面积无法读取，再比如，智谱之前单独测试GitHub链接，是可以读取，但现在都判定了失败。

同样的例子，我单独开了一个对话框，又复核了一次，秒成功。

也就是说，批量链接测试和单次测试的结果不一致。。。

卧槽。破案了。

当你把多个复杂链接一次性喂给大模型时，它的注意力机制会严重分散，导致原本能读的链接直接报错。

这意味着，我通过批量测试拿到的数据，全！部！不！可！靠！

那一刻，我都一度想放弃了，我是有多想不开给自己找了这么一个折腾人的活儿。

但这也就是抱怨几句，如果是日常的测试也就算了，我可以换一个题目，但是现在是要发布一篇经得起检验的测试结果，这就可能不对结果负责。

大模型的这种「玄学」幻觉，让人心里太没底了。但是，看着前面砸进去的好几天沉没成本，我这该死的倔脾气又上来了。去他大爷的 AI 自动化！老子今天就纯手工爆肝，我不信我治不了你！

于是整个测试又回到了最初的原点，还得靠人类手动一个个测试。

于是我又花了一整天的时间。纯手动，粘贴、发送、比对基准、记录。12 个大模型，11 个平台，132 次组合，我人工手搓了一遍。

在这期间，由于我是人工仔细核对，我还真的发现了一些极其硬核的隐藏细节，这些是自动化脚本绝对发现不了的。

细节一：视频读取的「半通过」判定

在测试 TikTok 和 B 站链接时，我发现有些模型（比如 Grok 读取 TikTok，豆包读取 B 站）表现得很诡异。

如果你给它一个「知识分享类」视频（有旁白、有字幕），它确实能总结得有理有据。

这是 Grok 读取 TikTok：

这是豆包读取 B 站：

可能到这里，你就会觉得，它们是能看视频的，那就可以判定通过了，单实际上没这么简单。

但如果你给它一个纯舞蹈视频、或者小姐姐纯弹琴的视频，它就直接瞎了，啥也说不出来。

比如这个 Tiktok视频：

Grok 读取是这样的：

再比如这样一个抖音视频：

豆包返回的结果是这样的：

所以，这说明

...

注：此页为节选展示，完整内容保留在本地知识库。

后续可整理方向

提炼核心观点
拆分可复用金句
归入 AI 工具 / AI 效率 / 大模型认知等主题包
改写成公众号或小红书内容

国内目前使用的AI智能问答软件，豆包、通义千问、元宝、kimi、deepseek，哪个好用？ ​

基本信息 ​

内容摘录 / 整理 ​

后续可整理方向 ​

国内目前使用的AI智能问答软件，豆包、通义千问、元宝、kimi、deepseek，哪个好用？

基本信息

内容摘录 / 整理

后续可整理方向