寻找语言错误有助于识别论文造假

本报讯 来自美国科学诚信中心“医学证据项目”的法医科学学家James Heathers,近日在世界科研诚信大会上报告称,一种简单的检索语言错误的方法,有助于识别“论文工厂”炮制的虚假论文。借助程序自动筛查此类错误,科研核查人员有望找出大量的问题论文。

Heathers是在去年萌生这一想法的。据《科学》报道,当时有人给他发来十几篇看起来极为相似的医学论文,希望他能够找出其中的问题。Heathers花了两天时间阅读这些论文,并注意到一些奇怪但常见的拼写、语法和用词错误。例如,“Kolmogorovor信息复杂度”拼错了数学家Andrey Kolmogorov的姓氏;多篇论文还出现“5毫升含凝胶生物化学试管”等不规范表述,Heathers形容这些语句“像是外星人写的”。

这类语言错误或许只是非英语母语作者的写作失误,本身不足以判定论文造假。但Heathers在谷歌学术检索上述特殊表述后,又发现了约200篇具备相同特征的论文——不仅主题一致,研究设计、图表样式等细节特征也高度重合。他认为,从统计学角度看,这种情况几乎不可能发生,除非它们都来自同一源头。Heathers推测,这些论文都是同一篇论文的不同版本,由论文工厂批量伪造、翻新后,出售给那些急于增加发文数量的科研人员。

大多数论文工厂产出的生物医学论文,多聚焦于临床前实验室研究,而Heathers筛查出的问题论文均围绕患者数据展开。他表示,这类论文危害更大,因为其研究结论会直接应用于临床诊疗。目前仍需对每一篇涉事论文逐一核查,确认这些被他称作“意外水印”的语言错误是否属于刻意的学术不端行为。

多位科研诚信领域专家认为,这些发现很重要,但也提出保留意见。“不能单凭这一点就认定论文出自论文工厂,它们也可能来自翻译软件。”美国初创公司Signals的联合创始人Elliott Lumb说。其公司开发了一款能够自动评估研究论文的软件。Lumb表示,如果后续研究证实这些错误与其他学术异常信号相关,它将成为实用的调查工具。

Heathers表示,他的这套筛查方法具有可扩展性,因为通过使用诸如拼写和语法检查器及搜索引擎等简单工具,可以实现对重复错误和不寻常语句的自动识别。但被标记为可疑的论文,每一篇都需要仔细审查,以确定是否存在学术不端行为,这就使得该技术兼具“快速”和“缓慢”的特点。他希望出版商能将该方法应用于未经编辑的原创稿件中。(李木子)