现今我们是否应该鼓励重复性研究?(转自科学网)
我在处理期刊的稿件和自己学生的论文稿件时,经常有两个问题在脑海里闪现:
1、你自己相信你的实验数据吗?
2、在今天很多不确信的情况下,我们是否也应该鼓励重复性研究?(尤其对一些重要的发现和突破)
当年读研究生的时候,听我师兄说,做理论研究的最相信自己的理论,做实验研究的最不相信自己的数据。我当时很认可这句话,记忆就很深,还时不时给自己的学生也闲聊一下。后来给研究生上课,有两句话是经常重复的,一句是“不要相信没有数据支持的理论”,另一句是“不要相信没有理论支持的数据”。对此我还写过几句话:
做过实验的人都知道,实验设计有不同的处理,处理就需要不同的条件,所以收集到的实验数据是有条件限制的。我们都有体验,有时候实验条件控制很难精确一致,有时候仪器设备的稳定性也不是很好,还有很多其他的干扰条件等等,尽管实验设计和实验过程尽力消除干扰数据可靠性的“噪音”,但要获得可信的数据实在不容易。实验需要重复,有时候还需要多次重复。
问题就来了:实验获得的数据,哪些数据是真实可靠的?哪些数据是没有把握的?
再延伸点:现在那些重要的学术论文中哪些数据是可信的?哪些结论是有道理的?
以动物生理学为例,一般说来,动物表型的数据,只要仪器设备校正准确,操作正确,还是比较可靠的,如体重、体温等。如果是靠实验技术和实验技巧获得的数据,就因人而异了,如电泳、各种分子生物学参数等,除了实验者的实验技术的熟练程度和经验外,其他影响因素也多,如由于抗体的原因、引物的原因、PH的原因、环境清洁度的原因等等,很多情况下对于数据是有很多疑惑的,不同的实验者往往会获得不同的数据,同一个人在不同的条件下也会获得不同的数据,所以哪些数据是假象,哪些数据是真实的,就需要经验了。
我们都知道,科研伦理中,任意剔除数据是不允许的,选择性使用和发表数据也是不允许的。对此也也写过几句话:
我们也都清楚,现实中研究者选择性使用数据和选择性发表数据是很普遍的。实验者一般容易选择符合自己预期的数据。与此相关的是数据处理和统计分析,有时候分析数据,选择某一种统计方法,处理间差异可能达不到显著水平,而使用另一种方法,差异水平可能就显著了。我们知道,不同处理数据间的差异显著性水平决定了研究的结论。差异显著与不显著对于结论是有本质区别的,但从如果从数据上看,可能没有“本质性”的差别,有可能是样本数小的原因,也可能是重复次数少的原因。所以,重复次数,样本量大小,对于数据统计分析结果是很重要的。
研究结论需要实验数据支持,实验数据应该是正确的数据,可信的数据,可重复的数据。从上面的分析可知,实验数据的可信度是有条件的。利用现有的实验技术手段,只要达到熟练完美的专业化水平,各个环节都严格按照学术规范进行,数据就是可信的。由于时代的发展,新的设备、新的技术的不断更新和产生,将来获得新的数据,也会推翻现在的结论,这是在期望之中的,在科研发展的道路上很正常的事情。
由于多方面因素的干扰,我们不免会有疑问:现在所谓的很多重要的发现,重要的突破,到底有多少可重复性?有多大的可信度?实验数据有没有重复?有多少重复?数据的处理和统计方法是否合适?数据有没有选择性使用?实验技术和仪器设备的使用是否熟练和专业?
在这个缺乏诚信、缺少科学精神、缺少学术操守的时代,我们对现在发表的位居世界前茅的海量学术论文该有多大的相信度?有多少数据是真实可靠的?所以,我有个很个人化的观点:在当今的大环境下,学术界在鼓励原创和敢于质疑权威之外,也应该鼓励对于重要的发现进行质疑性的重复性研究。
同时我也觉得一个实验室要慎重发表重要的数据和发现,一旦确定是重大发现或突破,则需要重复验证,确保实验数据在现在的实验条件下是真实可信的,发现的现象和模式是真实的,可重复的,不是偶然现象。确保实验技术和分析方法,每个环节都是专业化的,是正确的。这应该是一个学者应有的基本学术态度。