一、研究背景与方法
随着人工智能技术的快速发展,ChatGPT、文心一言等大语言模型已具备生成高质量新闻内容的能力。根据Reuters Institute的报告,全球已有超过三分之一的主要新闻机构开始探索AI技术辅助内容生产。这一趋势引发了一个核心问题:普通受众能否准确区分算法生成与人工撰写的新闻?
这一问题的重要性不仅关乎新闻传播的公信力,更涉及AI内容监管、公众媒介素养、以及"深度伪造"(Deepfake)信息的治理等多个重要议题。如果受众无法有效识别AI生成内容,那么信息生态系统的可信度将面临严峻挑战。
1.1 研究问题
本研究聚焦以下核心问题:
- 受众能否有效区分AI生成与人工撰写的新闻内容?
- 哪些因素影响受众的识别能力?
- 不同AI模型(ChatGPT vs. 文心一言)生成内容的可识别度是否存在差异?
- 算法素养如何影响受众的AI内容识别能力?
1.2 研究设计
本研究采用问卷调查法,选取9篇新闻作为测试材料。其中,ChatGPT生成3篇、文心一言生成3篇、人工撰写3篇。新闻选题涵盖社会新闻、科技新闻、经济新闻等类别,以控制题材效应。
1.3 分析方法
数据分析采用多元线性回归和单因素方差分析。回归分析考察各因素对新闻评分的影响方向和强度;方差分析检验不同群体间识别正确率的差异。显著性水平设定为α=0.05。对于多重比较问题,采用Bonferroni校正。
此外,研究采用熵权法对算法素养各维度进行客观赋权,构建综合算法素养指数。卡方检验用于分析分类变量间的关联性。
二、样本特征
本研究通过在线问卷平台发放,经数据清洗后获得有效样本795份。样本覆盖不同年龄、教育程度、职业背景的受众群体。以下对样本的人口学特征进行描述性分析。
2.1 人口学特征
2.2 职业与专业分布
职业分布方面,在校学生(203人,25.5%)和企业职员(233人,29.3%)为主要群体,其次为企业管理者(46人)、个体户(38人)、党政机关工作者(30人)等。样本覆盖19个职业类别,具有一定的职业多样性。
专业背景方面,管理学(256人,32.2%)、工学(107人,13.5%)、经济学(105人,13.2%)为前三大专业。新闻传播学相关专业占比7.4%(59人),这对于考察专业背景对AI新闻识别能力的影响提供了基础。
2.3 AI认知与使用情况
受访者对AI大模型的认知程度整体较高。"比较了解"(440人,55.3%)和"非常了解"(56人,7.0%)合计占比62.3%,仅1.1%(9人)表示"完全不了解"。这表明样本整体对AI技术具有一定认知基础。
数据来源:问卷调查(n=795)。使用目的可多选。
在使用频率方面,"一周几次"占比最高(330人,41.5%),"一月几次"次之(235人,29.6%),"几乎每天"使用AI大模型的受访者占比13.5%(107人)。在AI使用目的上,89.7%的受访者表示使用AI"辅助完成工作相关内容",56.2%表示用于"辅助阅读文献、完成课程任务"。这表明AI大模型已在受访者群体中得到广泛应用,且主要集中于工作与学习场景。
三、新闻识别结果
针对9篇测试新闻,受访者需判断每篇新闻是算法生成还是人工撰写。评分范围为1-10分,得分越高表示受访者越倾向于认为该新闻为人工撰写。本节对评分结果进行描述性分析。
新闻1、4、6为ChatGPT生成(深色);新闻2、3、5为文心一言生成(红色);新闻7、8、9为人工撰写(黑色)。虚线为中值5.5分。
对于全部9篇新闻,评分均值均处于5.54-6.48区间,略高于中值5.5。这表明受访者整体倾向于认为这些新闻为人工生成,呈现轻微的"人类偏向"(Human Bias)。ChatGPT生成的"美国枪击事件"新闻(新闻4)评分最高(6.43),最容易被误判为人工撰写;文心一言生成的"失踪女童"新闻(新闻3)评分最低(5.54),相对容易被识别为AI生成。
3.1 区分算法新闻的考量因素
受访者在判断新闻是否为算法生成时,主要考量以下因素:
| 考量因素 | 选择人数 | 占比 |
|---|---|---|
| 新闻的风格和语言质量 | 694 | 87.3% |
| 新闻的主题和深度 | 615 | 77.4% |
| 新闻内容的可信度 | 341 | 42.9% |
| 其他因素 | 36 | 4.5% |
87.3%的受访者将"风格和语言质量"作为区分算法新闻的关键依据,远高于其他因素。这表明受众对新闻的表达方式、文字规范性、语言流畅度等方面有较高敏感度。当AI生成的新闻在语言风格上呈现"机器感"时,受众能够识别。
"主题和深度"(77.4%)是第二重要考量因素。受众会关注新闻是否涉及复杂议题、是否提供深入见解、是否呈现多元视角。AI生成内容在这方面的局限性可能成为识别线索。
四、预调查分析
在正式调查前,研究团队进行了预调查,收集有效问卷130份。预调查采用不同的测量方式:每篇新闻设有明确的"正确答案"(算法生成/人工撰写),可计算受众识别AI新闻的客观正确率。
绿色为算法生成新闻(正确识别为算法);蓝色为人工撰写新闻(正确识别为人工)。正确率=正确判断人数/总人数。
算法生成的新闻内容存在明显的"机器感"差异。受访者能清晰分辨部分算法内容(如"基本养老金"报道正确率达76%),但对另一些内容则难以区分(如"失踪女童"报道正确率仅27%)。这一结果证明不同AI模型、不同题材的新闻在"拟人化"程度上存在显著差异,也为AI新闻生成技术的优化提供了方向。
4.1 专业背景与识别能力的卡方检验
预调查通过卡方检验分析了专业背景、教育程度与识别正确率的关系:
| 检验变量 | 卡方值(χ²) | 自由度 | 显著性 | 结论 |
|---|---|---|---|---|
| 专业背景 × 总分 | 227.098 | 230 | 0.542 | 不显著 |
| 教育程度 × 总分 | 21.436 | 20 | 0.372 | 不显著 |
卡方检验结果显示,专业背景(p=0.542)和教育程度(p=0.372)与识别正确率均无显著关联。然而,这一结果可能受限于预调查样本量较小(n=130),统计检验力不足。正式调查将对此进行更深入的分析。
五、回归分析
为深入探索影响受众识别AI新闻的关键因素,本研究构建了多元线性回归模型。因变量为受众对AI生成新闻的评分(包括ChatGPT新闻评分、文心一言新闻评分、综合评分),自变量包括年龄、教育程度、专业背景、职业、媒体使用习惯、AI认知水平等。回归系数为正表示更倾向判断为人工撰写,为负表示更倾向判断为算法生成。
5.1 年龄的影响
回归分析显示,相较"51岁及以上"群体,"20岁及以下"(B=1.973, p=0.029)、"31-40岁"(B=1.966, p=0.019)、"41-50岁"(B=2.168, p=0.025)群体均更倾向于给予较高评分——即更倾向认为ChatGPT生成的新闻为人工撰写。
出人意料的是,"21-30岁"群体表现出最强的识别能力。相较"31-40岁"群体,"21-30岁"群体对算法新闻的综合评分显著更低(B=-1.523, p=0.022),即更倾向正确识别出AI生成内容。这一群体可能是AI技术的核心用户,对AI生成特征更为敏感。这一发现挑战了"年轻人更容易被AI欺骗"的普遍假设。
5.2 教育程度的影响
教育程度对识别能力的影响呈现明显梯度。下表展示各教育程度群体相较参照组(大学专科)的回归系数:
| 教育程度 | 回归系数(B) | 标准误(SE) | 显著性 | 解读 |
|---|---|---|---|---|
| 初中 | 6.678 | 3.356 | 0.048 | 更倾向判断为人工 |
| 中专/技校 | 5.412 | 2.654 | 0.043 | 更倾向判断为人工 |
| 普通高中 | 4.440 | 1.924 | 0.022 | 更倾向判断为人工 |
| 大学本科 | 0.304 | 0.921 | 0.742 | 无显著差异 |
| 研究生 | 1.123 | 1.180 | 0.340 | 无显著差异 |
| 博士 | -0.863 | 2.745 | 0.753 | 无显著差异 |
数据显示,中等教育群体(中专/技校、初中、高中)更倾向于将AI新闻误判为人工撰写,回归系数在4.44-6.68之间(p<0.05)。而高等教育群体(本科、研究生、博士)与参照组无显著差异,判断更为准确。这表明教育程度对AI内容识别能力有显著正向影响。
5.3 专业背景的影响
相较"未上大学"群体,多个专业背景群体表现出更强的AI新闻识别能力(回归系数为负):
- 教育学专业:识别能力最强(B=-7.620, p<0.001),可能与专业训练中对文本分析、语言风格的要求有关
- 工学专业:B=-5.209, p<0.001,对技术特征敏感度较高
- 法学专业:B=-5.420, p=0.007,逻辑分析能力可能发挥作用
- 新闻传播学专业:B=-4.766, p=0.003,专业背景带来识别优势
- 语言文学专业:B=-4.651, p<0.001,对语言风格敏感度高
教育学、工学、法学、新闻传播学、语言文学等专业群体识别能力较强,可能与以下因素相关:(1)专业训练中对文本逻辑、语言风格的敏感度培养;(2)对技术原理的理解(工学);(3)批判性思维的训练(法学、新闻学);(4)语言美学素养(文学)。值得注意的是,管理学、经济学专业群体识别能力相对较弱,原因有待进一步研究。
5.4 媒体使用习惯的影响
媒体使用习惯对AI新闻识别能力有显著影响,这一发现具有重要的政策启示意义。
互联网使用频率与识别能力呈显著正相关。相较"从不使用互联网"的群体,所有其他频次类别(很少、有时、经常、非常频繁)的群体均更倾向于正确识别AI生成新闻(回归系数均为负值,p<0.05)。高频互联网使用者可能更多接触AI生成内容,对其特征更为熟悉。
相反,纸质媒体使用频率与识别能力呈负相关。相较"非常频繁使用纸质媒体"的群体,"有时"和"经常"使用的群体更倾向于将AI新闻误判为人工撰写(回归系数为正,p<0.05)。这可能是因为纸质媒体使用者接触数字化内容的频率较低,对AI生成特征不够敏感。
这一发现揭示了"数字鸿沟"对AI素养的影响:传统媒体使用者可能面临更高的"AI欺骗风险"。在AI内容泛滥的时代,如何保护这一群体的知情权,值得政策制定者关注。
六、方差分析(ANOVA)
为进一步验证各因素对AI新闻识别正确率的影响,研究进行了单因素方差分析。因变量为受众识别AI新闻的正确率,自变量包括人口学特征、媒体使用习惯、AI认知水平等。
6.1 ChatGPT新闻识别正确率的影响因素
| 影响因素 | F值 | 自由度 | 显著性 | 效应解读 |
|---|---|---|---|---|
| 算法素养 | 2.375 | 86, 708 | <0.001 | 高度显著 |
| AI满意度 | 2.510 | 25, 769 | <0.001 | 高度显著 |
| 电视使用情况 | 1.827 | 24, 770 | 0.006 | 显著 |
| 报纸杂志使用情况 | 1.748 | 22, 772 | 0.010 | 显著 |
| 境外媒体接触 | 1.760 | 24, 770 | 0.009 | 显著 |
6.2 算法素养的测量
算法素养是本研究的关键变量之一,通过五个维度进行测量。研究采用熵权法进行客观赋权,避免主观赋权的偏差:
算法素养的五个维度中,"理解算法概念与术语"权重最高(23.4%),其次是"对算法逻辑进行思考"(21.2%)。这表明理论知识与批判性思维是算法素养的核心组成部分。"调整推送内容"权重最低(17.8%),说明操作层面的能力相对次要。
算法素养对AI新闻识别正确率有高度显著影响(F=2.375, p<0.001)。这意味着提升公众的算法素养——包括理解算法原理、培养批判性思维、保护个人信息——是增强其AI内容识别能力的有效途径。政策制定者应考虑将算法素养纳入媒介素养教育体系。
6.3 综合识别正确率的影响因素
对于综合识别正确率(同时识别ChatGPT和文心一言新闻),除上述共性因素外,以下变量也具有显著影响:
| 影响因素 | F值 | 显著性 | 主要发现 |
|---|---|---|---|
| 职业 | 1.382 | 0.049 | 在校学生、自由职业者识别能力较强 |
| 教育程度 | 1.496 | 0.019 | 高等教育群体优于中等教育群体 |
| 互联网使用情况 | 2.493 | <0.001 | 高频使用者识别能力更强 |
| 对互联网的偏好 | 1.755 | 0.028 | 偏好互联网者识别能力更强 |
七、结论与建议
本研究通过对795份有效问卷的分析,系统考察了受众对AI生成新闻的识别能力及其影响因素。研究发现,AI新闻识别能力并非均匀分布,而是受到多种因素的复杂影响。以下总结核心结论并提出政策建议。
7.1 核心结论
高等教育群体(本科、研究生)在识别AI新闻方面表现更优,中专/技校与初中群体误判率较高,回归系数达4.44-6.68。教育不仅提供知识,更培养批判性思维,这对识别AI内容至关重要。中等教育群体应是AI素养教育的重点对象。
互联网高频使用者更善于识别AI生成新闻,而纸质媒体使用者识别能力相对较弱。这揭示了数字鸿沟对AI素养的影响:传统媒体使用者可能面临更高的"AI欺骗风险"。在AI内容日益普及的背景下,如何保护这一群体的知情权,值得政策关注。
算法素养对识别正确率有高度显著影响(F=2.375, p<0.001)。提升公众的算法素养——包括理解算法原理、识别算法影响、保护个人信息——是应对AI内容泛滥的核心策略。其中,理论理解(23.4%)和批判思维(21.2%)是算法素养的核心维度。
这一反直觉发现表明,AI技术的核心用户群体可能对AI生成特征更为敏感。他们既是AI的高频使用者,也是最佳的"AI内容检测者"。这一发现挑战了"年轻人更容易被AI欺骗"的普遍假设,对于AI素养教育的人群定位具有启示意义。
7.2 政策建议
基于上述发现,本研究提出以下建议:
第一,加强算法素养教育。建议在中小学信息技术课程中增加算法原理、AI特征识别等内容。针对中等教育程度群体开展专项培训,可考虑通过社区教育、职业培训等渠道进行。教育部门应考虑将算法素养纳入媒介素养教育体系,编写相关教材,培训师资力量。
第二,建立AI内容标识机制。新闻平台应建立AI生成内容的标识制度,帮助受众辨别内容来源。对于新闻类AI应用,可考虑强制要求标注"AI辅助生成"或"AI原创"。标识机制应有统一标准,避免平台各自为政。
第三,关注数字弱势群体。研究发现纸质媒体使用者和中等教育群体识别能力较弱,建议通过社区教育、老年大学、农村文化活动中心等渠道,开展针对性的AI素养培训。这部分群体可能是AI虚假信息的"易感人群",应予以特别关注。
第四,优化AI新闻生成策略。研究发现不同AI模型、不同题材的新闻在"拟人化"程度上存在差异。建议AI开发者在新闻生成过程中加强语言风格优化,提高内容透明度,主动标识AI生成痕迹,而非追求"以假乱真"。
本研究为理解公众对AI技术应用认知提供了实证依据,为AI新闻内容优化、受众教育及监管政策制定提供了科学参考。随着AI技术的持续发展,相关研究需要持续跟踪,以应对不断变化的挑战。未来研究可进一步探讨AI生成内容对新闻公信力的长期影响,以及不同文化背景下受众识别能力的差异。