spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么


spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
一、前期准备
1.研究目的
线性回归分析研究影响关系情况,回归分析实质上就是研究X(自变量)对Y(因变量,定量数据)的影响关系情况 。当自变量为1个时,是一元线性回归 , 又称作简单线性回归;自变量为2个及以上时,称为多元线性回归 。线性回归广泛的应用于自然科学、社会科学等各个领域中 。例如:研究吸烟、肥胖、运动等因素是否影响高血压发病率;土壤、水分、光照是否影响植物生长等 。
2.数据类型
线性回归要求因变量Y(被解释变量)一定是定量数据 。如果因变量Y为定类数据,可以用“进阶方法”中的“logit回归” 。
3.分析要求
(1)一般对于分析项的自变量个数没有要求,但是一般建议不要一次性放入太多,过多容易引起多重共线性,如果需要对哑变量进行处理 , 需要在SPSSAU“数据处理”中的“生成变量”,可以查看:SPSSAU哑变量帮助手册:
(2)正态性检验
SPSSAU提供多种正态性检验的方法,例如:“通用方法”中的“正态性检验”;“可视化”中的“直方图”; “可视化”中的“P-P/Q-Q图” 。
理论上要求线性回归中的因变量要满足“正态性” , 但是若数据为问卷数据,建议可跳过正态性检验这一步 。原因在于问卷数据属于等级数据,很难保证正态性,且数据本身变化幅度就不大,即使对数处理效果也不明显 。
(3)线性趋势
线性回归模型要求自变量和因变量是呈线性关系的,可以通过SPSSAU中“可视化”中的“散点图”进行查看 。如果不成线线性可以使用SPSSAU中的曲线回归 。
补充说明:相关分析和回归分析
一般来说,回归分析之前需要做相关分析,原因在于相关分析可以先了解是否有关系 , 回归分析是研究有没有影响关系,有相关关系但并不一定有回归影响关系 。
二、SPSSAU上传数据
1.上传数据
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可 。
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
2.拖拽分析项
在“通用方法”模块中选择“线性回归”方法 , 将Y定量数据放于上方分析框内,X自变量放于下方分析框内,点击“开始分析”即可 。
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
补充说明:如果想一次拖拽多个分析项 , 则可以使用ctrl键不连续多选,shift键连续多选;左右拖拽 。
3.选择参数
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
勾选后可以将残差和预测值保存起来,可用于进—步分析使用 。
三、SPSSAU分析
1.线性回归分析结果
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
从上表可以看出,模型公式为:当前工资=-338.130 + 1.750*起始工资 + 710.927*受教育程度(年)-10.009*过去经验(月)-77.206*年龄,模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因 。
对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05),也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系,另外 , 针对模型的多重共线性进行检验发现 , 模型中VIF值全部均小于5 , 意味着不存在着共线性问题;并且D-W值在数字2附近,因而说明模型不存在自相关性,样本数据之间并没有关联关系,模型较好 。
具体分析:
(1)起始工资的回归系数值为1.750(t=29.259 , p=0.000<0.01),意味着起始工资会对当前工资产生显著的正向影响关系 。
(2)受教育程度(年)的回归系数值为710.927(t=4.190,p=0.000<0.01),意味着受教育程度(年)会对当前工资产生显著的正向影响关系 。
(3)过去经验(月)的回归系数值为-10.009(t=-1.762,p=0.079>0.05),意味着过去经验(月)并不会对当前工资产生影响关系 。
(4)年龄的回归系数值为-77.206(t=-1.535,p=0.126>0.05),意味着年龄并不会对当前工资产生影响关系 。
补充说明如下:
  • 如果出现多重共线性问题 , 一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析 。
  • DW值一般不用考虑时间序列可以考虑
2.模型预测
SPSSAU提供模型预测,输入自变量X后就会得到相应的因变量Y,例如:假设某员工“起始工资”为3000,“受教育程度”10年,过去经验为12个月,年龄为25,则通过模型预测出当前工资约为9971元(数据结果仅供案例分析) 。
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
3.模型结果图
【spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么】可以直观的看到自变量与因变量的之间的关系(基于回归系数基础上) 。
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
4.模型汇总
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
从上表可知,将起始工资,受教育程度(年),过去经验(月),年龄作为自变量,而将当前工资作为因变量进行线性回归分析,从上表可以看出 , 模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因 。
5.ANOVA表格分析
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05) , 也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系 。
6.回归系数分析
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
总结分析可知:起始工资, 受教育程度(年)会对当前工资产生显著的正向影响关系 。但是过去经验(月), 年龄并不会对当前工资产生影响关系 。
PS:此外SPSSAU还提供了coefPlot
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
coefPlot展示具体的回归系数值和对应的置信区间,可直观查看数据的显著性情况,如果说置信区间包括数字0则说明该项不显著,如果置信区间不包括数字0则说明该项呈现出显著性 。
四、常见问题说明
  • 多个问卷量表题如何表示一个维度?
比如有两个题“我愿意向朋友推荐SPSSAU”,“我有需要会再来使用SPSSAU”,此两个题是“忠诚度”的体现 。但现在需要“忠诚度”这个整体,而不是具体两个标题 , 
具体操作如下图:
spss数据分析线性回归教程,spss线性回归中显著性0.000代表什么

文章插图
  • 多重共线性问题?
VIF值用于检测共线性问题,一般VIF值小于10即说明没有共线性(严格的标准是5),有时候会以容差值作为标准,容差值=1/VIF,所以容差值大于0.1则说明没有共线性(严格是大于0.2),VIF和容差值有逻辑对应关系,因此二选一即可,一般描述VIF值 。
如果出现多重共线性问题 , 一般可有3种解决办法 , 一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析 。
  • 控制变量如何放置?
控制变量指可能干扰模型的项 , 比如年龄,学历等基础信息 。从软件角度来看,并没有“控制变量”这样的名词 。“控制变量”就是自变量,所以直接放入“自变量X”框中即可 。
  • 线性回归有效样本量不足,需要多少样本量?
有效样本不足是指分析时,可以进行分析的样本量低于方法需要的样本量 。解决方法是加大样本量 。一般来说 , 至少要求样本量起码是变量数的5-10倍,结果更具备参考意义 。
  • 回归结果看标准化还是非标准化?
标准化回归系数是消除了量纲影响后的回归系数 , 可以用来比较各个自变量的“重要性大小” 。如果目的在于预测模型,一般使用非标准化回归系数 。
五、总结
线性回归分析步骤总结如下:
第一步:首先对模型情况进行分析包括模型拟合情况(比如R 为0.3,则说明所有X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系) 。
第二步:分析X的显著性如果显著(p 值判断),则说明具有影响关系,反之无影响关系 。第三步:判断X对Y的影响关系方向回归系数B值大于0说明正向影响,反之负向影响 。
第四步:其它比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小) 。