非正态性数据怎么做回归分析?——模拟习题118
发表时间:2023-06-18 06:47 背景说明: 假设你是一名环境科学的研究生,正在研究人类活动(例如废物排放量)对地方空气质量的影响,同时也探究城市规模(如人口)对这种关系的调节作用。你的调查围绕在全国100个城市展开,并通过公开资料获得了相关数据。你在研究中使用了PM2.5浓度(一种常用的空气质量指标)作为你的因变量,并打算通过回归分析来分析数据。 具体疑惑: 你发现,你的因变量PM2.5浓度的分布的正态性很差,这意味着你可能无法进行标准的线性回归分析。为了解决这个问题,你尝试对PM2.5浓度取对数,并发现取对数后的PM2.5浓度的分布更接近正态分布。然后,你用取对数后的PM2.5浓度做了线性回归,并发现残差的分布也接近正态分布,并且残差的异方差性检验结果不显著(表明符合理想的回归分析模型假设)。那么,你是否可以继续用这个转换后的因变量进行你的回归分析呢? 问题答疑: 是的,你的理解是对的。当你的因变量(PM2.5浓度)不满足正态分布时,对其进行取对数转换是一个常见的解决办法。然后,你可以用这个转换后的因变量进行回归分析。你已经对转换后的因变量进行了正态性检验和异方差性检验,并且结果都是满意的,所以你可以继续用这个转换后的因变量进行你的回归分析。 注意事项: 在报告结果时,你需要告诉读者你对因变量进行了取对数的处理。此外,你需要注意,现在的回归系数表示的是对数之间的关系,而不是原始比例的关系。例如,如果一个解释变量的系数为0.2,这意味着当解释变量增加1单位时,对数转换的因变量将增加0.2,这等同于原始因变量将乘以e^0.2。在解释你的回归系数时,你需要用这种方式来解释。 虽然你在处理的是对数转换后的PM2.5浓度,但它仍然代表了你的PM2.5浓度这个概念。然而,这个变量现在表示的是对PM2.5浓度的对数变换,而不是PM2.5浓度本身。这就是为什么在解释你的回归结果时,你需要解释对PM2.5浓度的对数变换的变化,而不是PM2.5浓度本身的变化。 如果你的数据是偏态的,且取对数后的分布更接近于正态分布,那么对PM2.5浓度取对数是合理的。你的回归分析结果将能有效地反映人类活动对空气质量(即,PM2.5浓度的对数变换)的影响。 总的来说,尽管你在处理的是取对数后的PM2.5浓度,但这仍然是一个衡量PM2.5浓度的有效指标。只要在报告和解释你的分析结果时明确指出你对因变量进行了取对数的处理,就不会误导读者。 |