一篇 19 家机构、100 位学者联名发表的 AI 大模型综述论文,被指涉嫌大量段落抄袭。此事已在国内外学术圈引起广泛关注。事件爆出当日晚,论文第一单位智源研究院发表中英文致歉信。承认文章中存在问题,已启动第三方独立审查,后续将进行追责。 根据智源研究院声明,这篇综述报告由智源牵头,邀请国内外 100 位科研人员分别撰写了 16 篇独立的专题文章,并单独署名。 按初步调查结果,智源决定立即从文章中删除已确认的抄袭内容,并通知所有作者对所有内容进行全面审查。目前论文修订版已提交 arXiv 进行更新。 事件经过 问题最早由谷歌大脑研究员 Nicholas Carlini 指出。他在一篇博客文章中列举了 10 个涉嫌抄袭的段落,文字一致的部分用绿色标出。 同时通过收集数据初步核查,Carlini 发现这篇论文还涉嫌抄袭十余篇来自其他作者的论文。此事在社交媒体上不断发酵,引发大量关注。 随后 Carlini 更新了一段话,呼吁大家理性看待,不要演变成猎巫行动。在不清楚 100 个作者中的具体责任人之前不要一棍子打死。 不过,ViT 作者之一 Lucas Beyer 认为,在论文中署名就意味着要参与从创意脑暴、试验、撰写、校对的过程,承担相应责任。 被抄袭的作者之一、谷歌大脑研究员 Katherine Lee 给出建议:如果需要复用文本,请使用引号明确你的意图,并注明来源。 对于复用文本,Carlini 认为这是一篇综述文章,并不算把别人成果说成自己的那种最恶劣的抄袭。但综述文章的意义在于对一个研究领域的重新构建,直接复制之前的论文并不能带来新的价值。 最后,附上智源研究院致歉信中文版全文。 智源研究院致歉信: https://www.baai.ac.cn/portal/article/index/cid/4/id/404.html Nicholas Carlini 博客文章: https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html