首页实时讯息

11款AI总结新闻全线翻车错误率高达76%

2025-04-17 17:49:00

我们选择了5个近一年发生的新闻事件，向AI提问，测试AI总结准确度。

这是一些核心发现：

1、整体来看，大部分AI回复真假参半，占比76%，豆包和Kimi相对靠谱。

2、所有AI都有错误总结的情况——要么错误概括了信源意思，要么引用了本就有误的信源。

3、面面俱到的“伪百科型”内容，容易影响AI的答案。它们无需来自认证官方账号，也不靠高阅读量，只要结构清晰、语言工整，AI就有可能“信以为真”。

4、打开深度思考后，AI明显更容易胡编乱造了，给社会事件编情节。

深度思考的豆包，给徐闻小米SU 7车祸编了几段故事……例如：“陈某在事故发生后弃车逃逸，利用甘蔗地遮挡身形并换乘三辆摩的躲避追捕”，“两名少年被抛出车体后撞上路基防护桩，全身 90% 以上面积烧伤”……

类似的，深度思考版通义千问说车祸涉事车主“体内检测出微量毒品”，还为事故编造了一组数据：“2023年国内新能源汽车火灾事故，61%与碰撞相关”。（图6）

更多内容请下载21财经APP

11款AI总结新闻全线翻车 错误率高达76%