Scientific production in the era of large language models
大型语言模型时代的科学生产
随着生产过程的快速演变,科学政策必须考虑机构如何实现转型
大语言模型对科学研究影响的宏观评估背景
尽管生成式人工智能在各学科领域迅速普及,但其实际影响的实证证据仍显零散,科学界对大语言模型跨领域影响的系统性认识有限。本研究通过分析三大预印本数据库的大规模数据,揭示大语言模型在加速论文产出、降低非英语母语学者壁垒及拓展文献发现范围方面的作用,同时指出语言复杂性等传统科学质量指标正在失效。人工智能的演进正挑战关于科研质量、学术交流及智力劳动本质的基本假设,科技政策制定者需推动科研机构适应快速变化的科研生产流程。
研究数据来源与人工智能文本检测方法
本研究收集了arXiv(涵盖数学、物理学、计算机科学等领域120万篇预印本)、bioRxiv(生物与生命科学领域22.1万篇)及SSRN(社会科学、法学等领域67.6万篇)三大数据库2018年1月至2024年6月的数据。通过基于文本的人工智能检测算法,对比ChatGPT发布前后摘要的词汇分布特征,识别可能由大语言模型辅助撰写的文本。具体检测模型训练、验证及替代方法详见补充材料。
大语言模型使用与科研生产力提升的关联分析
研究显示,使用大语言模型的研究者在三大预印本平台的论文产出均显著增长:arXiv、bioRxiv和SSRN的预估增幅分别为36.2%、52.9%和59.8%。生产力跃升可能源于生成式人工智能在研究构思、文献发现、编程及数据分析等多环节的应用,但当前最主要影响集中于写作环节。通过作者姓名及机构信息推断其英语母语背景发现,所有研究者群体均呈现显著生产力提升,其中亚洲姓名学者获益最大。在亚洲机构的亚洲姓名学者中,arXiv平台生产力提升43.0%,bioRxiv和SSRN分别达89.3%和88.9%,而英语国家机构的白人姓名学者增幅为23.7%至46.2%。
大语言模型对科学写作质量信号的影响机制
研究通过弗莱施阅读难易度倒数值量化文本复杂性,并以预印本最终是否在同行评议期刊或会议发表作为质量代理指标。分析发现:大语言模型辅助论文的文本复杂度显著高于自然语言撰写论文;在非辅助论文中,文本复杂度与发表概率呈正相关;但在辅助论文中,该关系发生逆转——文本复杂度增加反而对应更低的同行评议认可度。该模式在词汇复杂度、形态复杂度及宣传性语言使用等多个语言维度均得到验证,并在ICLR-2024会议的专家评审数据中复现。
大语言模型对文献发现与引用行为的影响
基于arXiv平台2.46亿次论文浏览下载数据,研究发现Bing Chat推出后,其用户较Google用户接触到更多样化的文献资源,其中书籍访问量增加26.3%,且访问文献的中位发表时间年轻化0.18年。引用行为分析显示,大语言模型使用者引用书籍的概率整体提升11.9%,引用文献的平均发表时间年轻0.379年,且被引文献的累积引用量降低2.34%。这表明人工智能辅助不仅未强化既有科学经典,反而推动学者关注更年轻、更边缘的学术成果。
研究局限性与未来发展方向
本研究存在若干局限性:人工智能检测方法依赖摘要而非全文,难以精确定位合作者中的具体使用者,且可能漏检经过深度编辑的辅助文本;非随机化的工具采用可能产生自选择偏差;当前结论仅反映技术快速演进过程中的阶段性特征。未来研究需持续追踪更先进推理模型与深度研究功能的影响,深入探索大语言模型如何替代非正式知识传递、促进跨学科交流,并关注其对科研公平性的长期效应。
科学质量评估体系面临的范式变革
随着传统启发式质量判断标准失效,编辑与评审者可能转而依赖作者资历、机构声誉等身份标记,这可能抵消大语言模型促进科研民主化的积极效应。发展专业化“评审智能体”来检测方法不一致性、验证学术主张及评估创新性,或将成为应对方案,但该技术路径是否能在提升评审实质关注的同时避免引发新问题,仍是亟待探索的关键议题。科学界亟需建立更 robust 的质量评估框架与方法论审查机制,以应对科研生产范式的根本性转变。
生产力与发表率
2022年1月至2024年7月期间,采用大型语言模型辅助写作的作者每月发表的arXiv预印本数量较未采用者增长36.2%(上图)。自2023年起,对于采用大型语言模型辅助撰写的论文,arXiv论文的写作复杂度越高,其发表概率反而越低。而未采用LLM辅助的论文呈现相反趋势(下图)。
来源:V.PENNEY/SCIENCE