Nen 的回答 - 好学星城学习论坛

0 赞同

简单描述一下Adaboost的算法原理和流程？

Adaboost基于分类器的错误率分配不同的权重系数，最后得到累加加权的的预测结果。算法流程：给数据中每一个样本一个权重，若有N个样本，则每个样本的权重为1/N. 训练数据的每一个样本，得到第一个分类器。计算该分类器的错误率，根据错误率计算给分类器分配的权重。将第一个分类器分错的样本权重增加，分对的样本...

回答于 2021-09-19 09:56

0 赞同

Adaboost的优点和缺点？

优点：分类精度高，构造简单，结果可理解。可以使用各种回归分类模型来构建弱学习器，非常灵活。不容易过拟合。缺点：训练时会过于偏向分类困难的数据，导致Adaboost容易受噪声数据干扰。依赖于弱分类器，训练时间可能比较长。

回答于 2021-09-19 09:56

0 赞同

简单说一下GBDT的原理。

GBDT是boosting的一种方法，主要思想是每一次建立单个分类器时，是在之前建立的模型的损失函数的梯度下降方向。损失函数越大，说明模型越容易出错，如果我们的模型能让损失函数持续的下降，则说明我们的模型在持续不断的改进，而最好的方式就是让损失函数在其梯度的方向上下降。 GBDT的核心在于每一棵树学的是之前所有树结...

回答于 2021-09-19 09:55

0 赞同

为什么对于高维稀疏特征不太适合用GBDT？

GBDT在每一次分割时需要比较大量的特征，特征太多，模型训练很耗费时间。树的分割往往只考虑了少部分特征，大部分的特征都用不到，所有的高维稀疏的特征会造成大量的特征浪费。

回答于 2021-09-19 09:55

0 赞同

GBDT和随机森林的异同点？

相同点：都是由多棵树构成，最终的结果也是由多棵树决定。不同点：随机森林可以由分类树和回归树组成，GBDT只能由回归树组成。随机森林的树可以并行生成，而GBDT只能串行生成，所以随机森林的训练速度相对较快。随机森林关注减小模型的方差，GBDT关注减小模型的偏差。随机森林对异常值不敏感，GBDT对异常值非常...

回答于 2021-09-19 09:55

0 赞同

GBDT的优缺点？

优点： GBDT每一次的残差计算都增大了分错样本的权重，而分对的权重都趋近于0，因此泛化性能比较好。可以灵活的处理各种类型的数据。缺点：对异常值比较敏感。由于分类器之间存在依赖关系，所以很难进行并行计算。

回答于 2021-09-19 09:54

0 赞同

XGBOOST和GBDT的区别在哪里？

传统的GBDT是以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题），线性分类器的速度是比较快的，这时候xgboost的速度优势就体现了出来。传统的GBDT在优化时只使用一阶导数，而xgboost对损失函数做了二阶泰勒展开，同时用到了一阶...

回答于 2021-09-19 09:53

0 赞同

为什么XGBOOST要用泰勒展开，优势在哪里？

xgboost使用了一阶和二阶偏导，二阶导数有利于梯度下降的更快更准，使用泰勒展开取得函数做自变量的二阶导数形式，可以在不选定损失函数具体形式的情况下，仅仅依靠输入数据的值就可以进行叶子分裂优化计算，本质上也就把损失函数的选取和模型算法的优化分开来了，这种去耦合增加了xgboost的适用性，使得它按需选取损失函数...

回答于 2021-09-19 09:53

0 赞同

XGBOOST是如何寻找最优特征的？

xgboost在训练过程中给出各个特征的增益评分，最大增益的特征会被选出来作为分裂依据，从而记忆了每个特征在模型训练时的重要性，从根到叶子中间节点涉及某特征的次数作为该特征重要性排序。

回答于 2021-09-19 09:53

0 赞同

XGBOOST是如何处理缺失值的？

xgboost为缺失值设定了默认的分裂方向，xgboost在树的构建过程中选择能够最小化训练误差的方向作为默认的分裂方向，即在训练时将缺失值划入左子树计算训练误差，再划入右子树计算训练误差，然后将缺失值划入误差小的方向。

回答于 2021-09-19 09:52

3096 个回答