論文の生産性を高めるために、研究者は様々な取り組みを行なっています。論文執筆の効率を高めるため、良く使用されるフレーズをまとめたり、校閲会社により論文草案はスマートな表現に修正されます。また、機械学習や人工知能を活用し、実験結果に沿うよう自動的に論文草案を作成する試みもあります。Discussionの方向性を定めるため、他グループの研究者と議論を重ね、謝辞に記載、あるいは共著者になることもあるでしょう。
これらは、後世に残すべき学術論文の質を高めるための、研究者による公正な努力の賜物です。
ところが、そうした科学的な営みとは本質的に異なり、不正確な文章とデータで不正な論文を増産する企業があるようです。テンプレートにそって、研究目的と草案を作成し、使い回しのデータにより完成された論文草案を販売する。このような過程で論文を作成することを Paper Mills と呼びます。
FEBS Letters が2月に公開した記事 (1) によると、既に数千もの論文がPaper Mills により不正に作成され、中国にはおよそ5億円規模の市場規模があると報告しています。主な原因として、論文が出版された研究者に対する金銭的な報酬を指摘しています。
捏造や改ざんどのいわゆる研究不正の論文をよく読む私たちにとっては、この原因には驚かされました。一般的には、研究不正の原因は閉鎖的な研究環境や教育の不足など、複合的なのですが、Paper Mills に限っては短期的に報酬を得る手段となっているようです。
Paper Mills では、miRNAやlncRNAなど、よく引用されるような分野に対し、学術的意義の弱いテーマと草案をテンプレート化して保持しています。加えて、グラフや画像は一部修正や改ざんを加えた上で使い回しています。こうして大量に作成した論文草案を異なる研究者へ販売し、異なる雑誌へ同時に投稿させます。
一方で、このような粗悪な手法で増産された論文は、文章や画像・データに類似性があり、出版社および査読の段階で見破られるケースもあります。データの品質を検査する工程をとることで、Paper Millsを防げるとFEBS Letterは報告しています。学術論文出版社においてデータの公正性を検査する人をData Integrity Analystと呼びますが、本論文の第2著者であるJana Christopherさんは最も有名なData Integrity Analystの1人です。以前はEMBO Journalで勤務していたようですが、今はFEBSにいるようです。
私たちエルピクセルが販売している、不正画像自動検出ツール ImaChekも、データの公正性を担保するソリューションの1つです。本論文報告されている画像の改ざん・使い回しはImaChekにて簡単に検出できてしまいます。論文間にまたがる画像の使い回しも検出対象です。
このようなツールの発達により、不正な学術論文が受理されない投稿システムの発展を願っています。
(1) Byrne, J.A. and Christopher, J. (2020), Digital magic, or the dark arts of the 21st century—how can journals and peer reviewers detect manuscripts and publications from paper mills?. FEBS Lett, 594: 583-589. doi:10.1002/1873-3468.13747