page contents
Nen
Nen - 程序员

性别: 天津 - 天津市 注册于 2021-06-23

向TA求助
2850金币数
43180 经验值
1个粉丝
主页被访问 6231 次

3096 个回答

0 赞同

分类树和回归树的区别在哪里?

分类树以C4.5为例,在对一个特征进行划分时,是穷举这个特征的每一个阈值,找到使得特征<=阈值和特征>阈值分成的两个分支的熵的最大值,按照该标准分支得到两个新的节点,用同样的方法继续分支,直到得到种类唯一的叶子节点,或者达到预设的终止条件为止。 回归树的流程是类似分类树的,区别在于划分时的标准不再是...

回答于 2021-09-18 14:41

0 赞同

决策树对缺失值是如何处理的?

决策树处理缺失要考虑以下三个问题: 当开始选择哪个属性来划分数据集时,样本在某几个属性上有缺失怎么处理: 忽略这些缺失的样本。 填充缺失值,例如给属性A填充一个均值或者用其他方法将缺失值补全。 计算信息增益率时根据缺失率的大小对信息增益率进行打折,例如计算属性A的信息增益率,若属性A的缺失率为0.9,则将...

回答于 2021-09-18 14:41

0 赞同

为什么决策树不需要对数据做归一化等预处理?

决策树是一种概率模型,所以不需要做归一化,因为它不关心变量的值,而是关心变量的分布和变量之间的条件概率,所以归一化这种数值缩放,不影响分裂结点位置。

回答于 2021-09-18 14:39

0 赞同

如何解决决策树的过拟合问题?

预剪枝的方法:通过提前停止树的构建而对树剪枝,是目前解决过拟合的主要方法。常用的剪枝条件包括限制树的深度,限制叶节点最小样本数,限制叶节点的最小样本权重,限制叶节点的信息增益值的阈值等。 后剪枝的方法:首先构造完整的决策树,允许树过度拟合数据,然后应单个结点代替子树,节点的分类采用子树的主要分类。剪...

回答于 2021-09-18 14:39

0 赞同

什么是集成学习?集成学习有哪些框架?简单介绍各个框架的常用算...

集成学习是一种优化手段和策略,通常是结合多个简单的弱分类器来集成模型组,去做更可靠的决策。一般的弱分类器可以是决策树,SVM,kNN等构成,其中的模型可以单独来训练,并且这些弱分类器以某种方式结合在一起去做出一个总体预测。集成学习就是找出哪些弱分类器可以结合在一起,以及如何结合的方法。目前集成学习主要有ba...

回答于 2021-09-18 14:39

0 赞同

简单描述一下模型的偏差和方差?bagging和boosting主要关注哪个...

偏差描述的是预测值与真实值的差距,偏差越大,越偏离真实数据。 方差描述的是预测值的变化范围,离散程度,方差越大,数据分布越分散。 bagging主要关注的是降低方差,boosting主要关注降低偏差。

回答于 2021-09-18 14:38

0 赞同

简述一下随机森林的原理,随机森林的构造过程。

随机森林是bagging算法的代表,使用了CART树作为弱分类器,将多个不同的决策树进行组合,利用这种组合来降低单棵决策树的可能带来的片面性和判断不准确性。对于普通的决策树,是在所有样本特征中找一个最优特征来做决策树的左右子树划分,而随机森林会先通过自助采样的方法(bootstrap)得到N个训练集,然后在单个训练集上...

回答于 2021-09-18 14:38

0 赞同

随机森林的优缺点?

优点: -训练可以高度并行化,训练速度快,效率高。 -两个随机性的引入,使得随机森林不容易过拟合,具有很好的抗噪声能力。 -由于每次不再考虑全部的特征属性,二是特征的一个子集,所以相对于bagging计算开销更小,效率更高。 -对于数据的适应能力强,可以处理连续型和离散型的变量,数据无需规范化。 -可以输出变量...

回答于 2021-09-18 14:37

0 赞同

随机森林为什么不容易过拟合

随机森林由很多棵树组合在一起,单看每一棵树可以是过拟合的,但是既然是过拟合,就会拟合到非常小的细节,随机森林通过引入随机性,让每一棵树过拟合的细节不同,再将这些树组合在一起,过拟合的部分就会抵消掉,不过随机森林还是可能会出现过拟合的现象,只是出现的概率相对较低。

回答于 2021-09-18 14:37

0 赞同

随机森林输出特征重要性的原理?

随机森林对于特征重要性的评估思想:判断每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。 -基于基尼系数:如果特征X出现在决策树J中的结点M,则计算节点M分枝前后的Gini指数变化量,假设随机森林由N棵树,则计算N...

回答于 2021-09-18 14:36