请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？如“教育水平”

如题，因为类别太多设虚拟变量就要增加好多自变量，
那么这种类别比较多的变量该如何解决呢？
如，“教育水平：文盲，小学，初中，高中，大专，大学及以上”
这些一定要设5个虚拟变量吗？可以用一个变量的1,2,3,4,5,6代替吗（我好像看有些论文是这么做的）

举报该文章

相关建议 2013-03-12

可以用相关分析或者t检验去掉一些变量的。

温馨提示：内容为网友见解，仅供参考

当前网址：https://aolonic.com/aa/g14kgnndd.html

其他看法

第1个回答 2013-03-01

(1)如果分类变量“教育水平”有6个分类：“文盲”、“小学”、“初中”、“高中”、“大专”、“大学及以上”，显然需要（6-1）=5个虚拟变量。
(2)如果你嫌虚拟变量太多的话，可以合并分类。例如把“文盲”，“小学”合并为一个分类“小学及以下”，“初中”、“高中”、“大专”合并为一类“初中-大专”，这样合并以后就只剩下3类了，只需设置2个虚拟变量。当然合并分类需要根据问题的实际情况进行适当合并。
(3)不可以用一个变量的1,2,3,4,5,6代替！这样相当于把“教育水平”当做Interval变量，而不是当做Ordinal变量来处理。也就是加上了假设条件：“大学及以上”-“大专”=“大专”-“高中”
=“高中”-“初中”=“初中”-“小学”=“小学”-“文盲”！按常识的话，这种限制条件显然很难成立。当然，在实际问题中，你可以对这个假设条件进行检验！追问

谢谢！回答的很详细~
我能再问一下吗？做Logit回归时，可能的因素比较多（包括很多虚拟变量），如何对这些变量进行合理筛选呢？
比如先用逐步回归法？（可是逐步回归法好像是针对OLS的）...
所以我不知道该怎么筛选变量，变量太多了

追答

(1)如果建模数据集变量个数大于50的话，可以先筛选掉那些对目标变量影响不大的自变量。例如，可以对每个自变量做Logistic回归，然后计算相应的卡方值和p值。自己确定一个阈值（0.3等），删除掉卡方值很小的变量。
(2)如果某自变量缺失值的比例超过一定的值，也可删除掉。
(3)如果变量之间存在共线性，可用聚类分析来减少变量个数，同时处理掉复共线性。
(4)上面说的合并分类在实践中就是用聚类分析来解决的。
(5)经过以上4种初步筛选处理，得到的建模数据集变量个数一般会少很多。在Logistic模型中，同样有很多类似于多元线性回归的变量筛选方法，如向前回归法，向后回归法，逐步回归法，全模型法等。而且，这些方法用统计软件很容易实现。一般采用逐步回归法或者全模型法建模。

追问

再次感谢！有些还是有点不懂 1.你说的逐步回归LOGISTIC是在哪个软件里实现？Eviews可以吗？（我是用EVIEWS做的） 2.因子分析和你的聚类分析有什么区别？我可以用因子分析代替你说的聚类分析吗？新手上路，焦头烂额，万分感谢！

追答

(1)用SAS很容易实现Logistic逐步回归的。Eviews软件我没使用过，所以不清楚啊！
(2)对于字符型变量进行压缩时，一般采用聚类分析进行。这种情况下，因子分析不适用。
(3)不好意思，上面回答的第三点弄错了——如果变量之间存在共线性，可用主成分分析来减少变量个数，同时处理掉复共线性。

第2个回答 2013-03-04

（1）如果六大类分类变量“教育程度”，“文盲”，“小学”，“初中”，“高中”，“大学”，“大学及以上，很明显（6-1 ）= 5个虚拟变量。
（2），如果你认为太多的虚拟变量，可以结合分类，如“文盲”，“小学”组合成一个分类的“小学及以下”，“初中合并后的学校“，”高中“，”大学“合并为一类初中 - 大学，所以只有三类简单的设置了两个虚拟变量。课程合并归类，根据问题的实际情况，适当地合并。
（3）不能使用的变量，而不是1，2，3，4，5，6，这是一个相当于“教育程度”作为区间的变量，而不是作为序号的变量来处理。即，与假设：“大学及以上” - ？“大学”“大学” - “高中
=”高中“ - ”初中“=”初中学校“ - ”主“ “主” - “文盲”！这种限制是常识，显然很难成立。当然，在实际问题中，你可以测试这个假设！本回答被提问者和网友采纳

...的分类自变量一定要转为虚拟变量吗? 如“教育水平”
可以用相关分析或者t检验去掉一些变量的。

logistic回归分析适用于
自变量既可以是连续的，也可以是分类的。通过logistic回归分析，就可以大致了解到底哪些因素是胃癌的危险因素。

时间序列可以直接ols吗
有如下模型：二项logistic回归：因变量为两种结局的二分类变量，如中奖=未中奖=0；自变量可以为分类变量，也可以为连续变量；阳性样本量n要求是自变量个数至少10倍。使用回归模型。将面板数据处理成差异矩阵可以使用回归模型，例如普通最小二乘OLS回归。可以使用这种模型来计算差异矩阵，其中包含每个观察值与其...

我国对西方股利理论的借鉴
自变量则选取规模、盈利能力、现金状况、流动性、成长性、再投资能力、法人治理结构、行业八类共26个指标。对于分类数据的回归问题，由于正态误差不对应于一个“0—1”类别，因而不适合使用正态线性模型，在此情况下，logistic逐步回归是可用的一个重要方法。Logistic逐步回归的参数检验可选择似然比检验、比...

股利政策的作用是什么
本部分设定的待检因变量是Z “上市公司公布股利分配政策后第一个交易日股价是否上涨”,上涨取值为1,下降取值为0.自变量则选取八种股利分配政策类型,以及规模、盈利能力、现金状况、流动性、成长性、再投资能力、法人治理结构、行业九类共34个指标。logistic回归方法同上。已赞过已踩过< 你对这个回答的评价是?

相似回答

大家正在搜

请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？ 如“教育水平”

请问Logistic回归时，类型较多的分类自变量一定要转为虚拟变量吗？如“教育水平”