2025-04-17 17:49:00
我们选择了5个近一年发生的新闻事件,向AI提问,测试AI总结准确度。
这是一些核心发现:
1、整体来看,大部分AI回复真假参半,占比76%,豆包和Kimi相对靠谱。
2、所有AI都有错误总结的情况——要么错误概括了信源意思,要么引用了本就有误的信源。
3、面面俱到的“伪百科型”内容,容易影响AI的答案。它们无需来自认证官方账号,也不靠高阅读量,只要结构清晰、语言工整,AI就有可能“信以为真”。
4、打开深度思考后,AI明显更容易胡编乱造了,给社会事件编情节。
深度思考的豆包,给徐闻小米SU 7车祸编了几段故事……例如:“陈某在事故发生后弃车逃逸,利用甘蔗地遮挡身形并换乘三辆摩的躲避追捕”,“两名少年被抛出车体后撞上路基防护桩,全身 90% 以上面积烧伤”……
类似的,深度思考版通义千问说车祸涉事车主“体内检测出微量毒品”,还为事故编造了一组数据:“2023年国内新能源汽车火灾事故,61%与碰撞相关”。 (图6)
更多内容请下载21财经APP