互联网爱好者创业的站长之家 – 南方站长网
您的位置:首页 >运营 >

不符合预期的数据绝不能随便删除

时间:2022-05-25 08:46:49 | 来源:中国科学报

■王德华

科学是以数据说话的,任何科学结论都需要数据支持。数据不严谨,会产生不严谨的结论,甚至是错误荒唐的结论。这对社会的影响是极大的,尤其是涉及国计民生问题时,错误的数据很可能会导致错误的决策,进而造成巨大的损失。所以,实验科学无论怎样强调数据都不为过。

最近,我和学生们在组会上又聊到了数据取舍的问题。我的研究生刚刚获得了一个实验的部分数据,需要统计处理组与对照组的差异,但统计后他发现,有一组数据标准差太大,统计结果是“差异不显著”。

我们的实验研究需要检验处理组和对照组之间的差异,或不同因素处理的效应,在这一过程中,令研究人员最头疼的问题就是实验结果与预期不一致,本该有差异显著性的数据,却检测不到差异显著性,概率值大于0.05。在我们平时的科研工作中,这种情况很常见。

在讨论的时候,我跟他说:“如果个别数据偏离了整个样本的变化趋势,要特别重视,首先分析自己的实验过程是否有问题、样品是否有问题等。不符合预期的数据是绝对不能随便删除的,可以在分析数据的散点图和标准差后,决定是重复一次实验,还是增加样本数。”

数据取舍,是我们组会上经常讨论的问题。我一般会跟我的学生说,出现个别偏离的数据,要认真分析是不是这个样本有问题,并结合这个样本的其他参数予以考虑。比方说,如果同一个动物实验中,多个参数都出现了问题,就要考虑可能是动物样本的问题;如果仅是某个参数不符合预期,可以分析测定过程是否出了问题。但基本原则是,不能随便删除数据。

面对个别偏离的数据时,我们的处理方法一般有以下三种。第一,再重复测定一次;第二,如果问题依然存在,又不好解释,按照数据散点图,将偏离平均值范围太大的数据在散点图上标记出来,统计分析时,说明这个数据没有被统计进来;第三,根据统计学中判断奇异值的方法,进行个别数据取舍。

有时我们会发现,统计结果是由个别数据引起的,如果去掉偏离平均值范围大的数据,差异显著性就出来了。这时,有些研究人员就会产生一种取舍数据的冲动,想删除这个不理想数据。但这是很危险的,因为随便取舍数据,或根据自己的需要取舍数据、选择性使用数据,就触碰到了学术不端的红线。

我认为,研究人员产生数据不当取舍行为的一个直接原因是功利化心态、浮躁心态。例如,研究生有毕业发表论文的需要,年轻学者有晋升和申请各种名誉奖项的需要等。如果没有正确对待科学的心态,没有对待科学数据严谨的态度,而是论文至上,再加上没有强有力的监督机制和惩罚措施,出问题是不奇怪的。

为避免不当的数据取舍,应该对实验的原始记录给予高度重视。我们实验室每周都有组会,大家有数据就会在组会上讨论。研究生和导师交流时,也要提供原始数据。

在我以前工作的中国科学院动物研究所,我负责研究生教育工作多年,研究所学位委员会制定了导师检查研究生实验记录的制度,每学期都要进行检查,记录本上有导师的签字。导师检查学生实验记录,也是研究生中期考核、申请学位论文答辩的一个重要条件。研究所为此专门定做了实验记录本,每页都有页码,不能随便撕掉。实施效果还是不错的。

总之,做实验要尊重原始数据,严肃认真,认真对待每一个数据,认真对待科研和实验过程的每一个步骤,认真做好实验记录。不可以更改数据,不可以选择性地取舍实验数据!

(作者系山东大学生命科学学院特聘教授,本文由本报记者倪思洁采访整理)

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。