一项由22家全球公共广播媒体联合开展的最新调查揭示,诸如ChatGPT和Copilot等AI聊天工具常常对新闻信息进行不当处理,而且在辨别事实与意见方面表现欠佳。
这项由包括德国之声(DW)在内的多家公共媒体发起的深入分析表明,四大主流AI助手在45%的回应中存在内容失真问题,无论涉及何种语言或地域均如此。
参与评估的机构涵盖英国广播公司(BBC)和美国全国公共广播电台(NPR)等,针对ChatGPT、微软Copilot、谷歌Gemini以及Perplexity AI四款工具进行了审查。
评估涵盖多个维度,如信息准确度、引用来源的可靠性、背景解释、编辑表达的适宜性,以及事实与观点的分离能力。

重大缺陷频现
调查结果显示,几乎一半的AI回应至少包含一个显著瑕疵,其中31%涉及严重的来源标注不当,20%出现明显的事实偏差。在DW的专项评估中,AI对问题的回复有53%存在关键缺陷,其中29%直接影响准确性。
例如,在回应DW查询时,AI错误地将奥拉夫·肖尔茨(Olaf Scholz)视为德国总理,尽管弗里德里希·梅尔茨(Friedrich Merz)已于一个月前上任;另一个失误是将延斯·斯托尔滕贝格(Jens Stoltenberg)当作北约秘书长,而马克·吕特(Mark Rutte)实际上已接替该职位。
问题日益凸显
全球范围内,越来越多民众依赖AI工具获取资讯。根据路透社研究所的《2025年数字新闻报告》,7%的在线新闻用户通过AI聊天机器人了解新闻,而在25岁以下群体中,这一数字升至15%。
这一趋势引发了研究发起方的忧虑。该项目协调者、欧洲广播联盟(EBU)副总干事让·菲利普·德滕德(Jean Philip De Tender)指出,调查结果明确显示,“这些错误并非孤例”。
他强调:“这些问题具有系统性,跨越国界和语言,我们认为这正威胁公众的信心。如果人们无法确定信任对象,最终可能导致对一切的怀疑,从而削弱民主进程中的公民参与。”

开创性规模的研究
这项调查是此类课题中规模最宏大的之一,它延续了BBC于2025年2月的一项前期工作,后者同样发现超过半数的AI回应存在严重不足。
在新研究中,来自18个国家、多种语言的媒体机构沿用相同方法,对3000条AI回复进行了剖析。
这些机构向AI提出日常新闻查询,如“乌克兰矿产交易涉及什么?”或“特朗普能否争取第三次总统任期?”随后,记者们在不知回复来源的情况下,凭借专业知识和可靠资料进行验证。与八个月前的BBC调查相比,虽然有所进步,但错误比例仍居高不下。
BBC生成式AI项目总监彼得·阿彻(Peter Archer)在声明中表示:“我们对AI及其为受众带来的潜在价值充满期待。”然而,“公众必须能信赖所见所闻。尽管取得些许改善,但这些工具显然仍面临重大挑战。”
在四款工具中,Gemini的表现最为逊色:72%的回复在来源引用上存在严重问题。在BBC的前期研究中,Copilot和Gemini同样垫底。但两项调查均显示,所有AI工具均有缺陷。
ChatGPT开发商OpenAI曾在2月向BBC声明:“我们每周为3亿ChatGPT用户提供高质量内容支持,通过摘要、引用、明确链接和来源标记,助力出版商与开发者。”

研究者呼吁变革
参与机构敦促各国政府介入。EBU在新闻发布中称,其成员将“向欧盟及各国监管部门施压,推动落实关于信息完整性、数字服务和媒体多样化的现有法规”。
他们还指出,随着新型AI模型的迅猛演进,必须将独立监督置于优先位置。
此外,EBU已联合多家国际广播与媒体组织,推出“事实输入:事实输出”(Facts In: Facts Out)倡议。他们呼吁AI企业对其产品在新闻处理与传播方面的做法承担更大责任。
倡议组织者在声明中阐释:“若这些系统扭曲、误分类或剥离可靠新闻的语境,便会破坏公众信任。”因此,倡议的核心诉求直截了当:“输入事实,输出也须事实。AI工具不得损害所用新闻的完整性。”



