关于SPSS回归分析与数据预处理的心得体会,句句都是肺腑之言

 英国基地     |      2024-11-03 04:37
本文摘要:原标题:关于SPSS重返分析与数据预处理的心得体会,句句都是肺腑之言关于SPSS自学与交流的专业论坛,小兵博客仍然引荐大家去人大经济论坛(现在叫作经管之家)SPSS专版。这个板块完全覆盖面积了SPSS统计分析从理论到实践中、从工具到方法的各类资料。尤其合适SPSS初学者和使用者交流对话,传授经验。 今天小兵就先为大家共享一篇论坛网友SPSS数据分析的心得体会,原作者:xddlovejiao1314,谢谢他的宝贵经验共享。

bob体ob体育

原标题:关于SPSS重返分析与数据预处理的心得体会,句句都是肺腑之言关于SPSS自学与交流的专业论坛,小兵博客仍然引荐大家去人大经济论坛(现在叫作经管之家)SPSS专版。这个板块完全覆盖面积了SPSS统计分析从理论到实践中、从工具到方法的各类资料。尤其合适SPSS初学者和使用者交流对话,传授经验。

今天小兵就先为大家共享一篇论坛网友SPSS数据分析的心得体会,原作者:xddlovejiao1314,谢谢他的宝贵经验共享。关于SPSS数据预处理获得一份数据,或者在看见国内外某个学者的文章有点子而自己手里的数据恰好合乎这个点子可以做到时,在整理好数据后不要意图建模。一定要对数据做到缺陷值处置、出现异常值处置。在数据预处理的基础上再进一步建模,否则有可能获得错误的结果。

所学1:缺陷值的处置我个人有几个观点:数据样本量充足大,在移除缺陷值样本的情况下不影响估算总体情况,可考虑到移除缺陷值;数据样本量本身并不大的情况下,可从以下两点考虑到:1是使用缺陷值更换,SPSS中具体操作为“切换”菜单下的“更换缺陷值”功能,里面有5种更换的方法。若数据样本量并不大,同质性较为强劲,可考虑到总体均值更换方法,如数据来自有所不同的总体(如我做到农户调研有所不同村的数据),可考虑到以一个小总体的均值作为更换(如我以一个村的均值更换缺陷值)。2是根据完整问卷融合客观实际自行推测估算一个缺陷值的样本值,或者以一个类似于家庭的值补足缺陷值。

所学2:出现异常值的处置我大约习了两门统计资料软件SPSS和Stata,SPSS用的时间幸些,熟知一下,Stata最近才学,不是过于煮。关于这点我融合着来说。关于出现异常值的处置可分成两点,一是怎么判断一个值是出现异常值,二是怎么去处置。判断出现异常值的方法我个人指出常用的有两点:1是描述性统计分析,看均值、标准差和仅次于最小值。

一般情况下,若标准差相比之下小于均值,可粗略判断数据不存在出现异常值。2是通过做到指标的箱图判断,箱图上加“*”的个案即为出现异常个案。找到了出现异常值,接下来说道怎么处置的问题。

大约有三种方法:1是于是以稍态产于数据所取对数处置。我做到农户微观现代科学研究,很多时候获得的数据(如收益)都有相当大的出现异常值,数据呈正偏态产于,这种我一般是所取对数处置数据。若原始数据中还有0,所取对数ln(0)没有意义,我就所取ln(x+1)处置;2是样本量充足大删除异常值样本;3就是指stata里教给的,对数据做到结尾或者缩尾处置。这里的结尾处置只不过就是同第二个方法,在样本量充足大的情况下移除首尾1%-5%的样本。

缩尾指的是人为转变出现异常值大小。如有一组数据,均值为50,不存在几个出现异常值,都是500多(我这么说道有点滑稽,大约是这个意思),缩尾处置就是将这几个500多的数据人为改回均值+3标准差左右数据大小,如改回100。总结而言,我个人指出做到数据转换的方式较为好,数据转换后再行做到图或描述性统计资料看数据分布情况,再行去除个别极端出现异常值。

关于SPSS重返分析所学1:如何作好重返分析经过多次空战,以及看了N多视频,上了N多课,看了N多专业的书。我个人总结做到重返的步诏如下:1对数据展开预处理,更换缺陷值和处置出现异常值;2是将单个自变量分别与因变量做到散点图和做到重返,判断其趋势,并作好记录(特别是在是系数正负号,要尤其记录);3是自变量和因变量一起做到相关系数,看各个变量涉及关系高低,为下一步检验多重共线性做到打算;4是自变量多重共线性临床。若变量不存在多重共线性,可使用主成分重返,即先将不存在多重共线性的变量作主成分分析拆分为1个变量,然后再行将拆分出的新变量和其余自变量一起划入模型做到重返;5是做到残差图,看残差图产于否均匀分布(一般在+-3个单位之间均匀分布就较为好);6是报告适当结果。

所学2:不建议使用后向Q法处置变量多重共线性忘记张文彤老师说道过他有个同学做到过一个研究,即使用后向Q法去除变量的方式去做到重返,获得的结果受罚的几率比较小。张老师也不建议用这个方法处置多重共线性。

处置多重共线性较为好的方法是作主成分重返。所学3:用未标准化的回归系数好,还是用标准化后的回归系数好我个人实在这个问题仁者见仁智者见智,要看想要传达什么。明确而言,如果想要传达在其它条件恒定的情况下,自变量X每变化1个单位,因变量变化多少个单位,这种情况用未标准化回归系数就好;如果想要较为各个自变量对因变量影响的比较大小,即辨别相对而言,哪个变量对因变量影响更大。

这时必须避免量纲的影响,看标准化后的回归系数。所学4:稳健性检验我做到的是无序多分类logistic重返模型。因变量分了5类,有一类个数较为多,超过300多,有1-2类个案较为较少,只有30左右。专家提及了要做到稳健性检验。

这个用stata软件编程特一个robust才可解决问题。不告诉在SPSS里面怎么做。青睐告诉的朋友一起辩论下。我个人指出这是一个好问题的。

不做到稳健性检验模型有可能不受一些极端值的影响,结果不平稳。有可能本来明显的变量去除1-2个样本后就显得不明显了。所以做到重返分析稳健性检验也较为最重要。

通报:网易云课堂《自学SPSS:数据分析12大经典案例》视频课程正在做到年底期望活动,感兴趣可以点【读者原文】前往注目。


本文关键词:关于,SPSS,回归,分析,与,数据,预处理,的,原,bob体ob体育

本文来源:bob体ob体育-www.tyronerhabbphoto.com