如题,因为类别太多设虚拟变量就要增加好多自变量,
那么这种类别比较多的变量该如何解决呢?
如,“教育水平:文盲,小学,初中,高中,大专,大学及以上”
这些一定要设5个虚拟变量吗?可以用一个变量的1,2,3,4,5,6代替吗(我好像看有些论文是这么做的)
谢谢!回答的很详细~
我能再问一下吗?做Logit回归时,可能的因素比较多(包括很多虚拟变量),如何对这些变量进行合理筛选呢?
比如先用逐步回归法?(可是逐步回归法好像是针对OLS的)...
所以我不知道该怎么筛选变量,变量太多了
(1)如果建模数据集变量个数大于50的话,可以先筛选掉那些对目标变量影响不大的自变量。例如,可以对每个自变量做Logistic回归,然后计算相应的卡方值和p值。自己确定一个阈值(0.3等),删除掉卡方值很小的变量。
(2)如果某自变量缺失值的比例超过一定的值,也可删除掉。
(3)如果变量之间存在共线性,可用聚类分析来减少变量个数,同时处理掉复共线性。
(4)上面说的合并分类在实践中就是用聚类分析来解决的。
(5)经过以上4种初步筛选处理,得到的建模数据集变量个数一般会少很多。在Logistic模型中,同样有很多类似于多元线性回归的变量筛选方法,如向前回归法,向后回归法,逐步回归法,全模型法等。而且,这些方法用统计软件很容易实现。一般采用逐步回归法或者全模型法建模。
再次感谢!有些还是有点不懂 1.你说的逐步回归LOGISTIC是在哪个软件里实现?Eviews可以吗?(我是用EVIEWS做的) 2.因子分析和你的聚类分析有什么区别?我可以用因子分析代替你说的聚类分析吗? 新手上路,焦头烂额,万分感谢!
追答(1)用SAS很容易实现Logistic逐步回归的。Eviews软件我没使用过,所以不清楚啊!
(2)对于字符型变量进行压缩时,一般采用聚类分析进行。这种情况下,因子分析不适用。
(3)不好意思,上面回答的第三点弄错了——如果变量之间存在共线性,可用主成分分析来减少变量个数,同时处理掉复共线性。
...的分类自变量一定要转为虚拟变量吗? 如“教育水平”
可以用相关分析或者t检验去掉一些变量的。
logistic回归分析适用于
自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
时间序列可以直接ols吗
有如下模型:二项logistic回归:因变量为两种结局的二分类变量,如中奖=未中奖=0;自变量可以为分类变量,也可以为连续变量;阳性样本量n要求是自变量个数至少10倍。使用回归模型。将面板数据处理成差异矩阵可以使用回归模型,例如普通最小二乘OLS回归。可以使用这种模型来计算差异矩阵,其中包含每个观察值与其...
我国对西方股利理论的借鉴
自变量则选取规模、盈利能力、现金状况、流动性、成长性、再投资能力、法人治理结构、行业八类共26个指标。对于分类数据的回归问题,由于正态误差不对应于一个“0—1”类别,因而不适合使用正态线性模型,在此情况下,logistic逐步回归是可用的一个重要方法。Logistic逐步回归的参数检验可选择似然比检验、比...
股利政策的作用是什么
本部分设定的待检因变量是Z “上市公司公布股利分配政策后第一个交易日股价是否上涨”,上涨取值为1,下降取值为0.自变量则选取八种股利分配政策类型,以及规模、盈利能力、现金状况、流动性、成长性、再投资能力、法人治理结构、行业九类共34个指标。logistic回归方法同上。 已赞过 已踩过< 你对这个回答的评价是?