Nen 的回答 - 好学星城学习论坛

0 赞同

什么是数据埋点？

数据埋点我们可以分为两类，其一是页面统计，其二是行为统计页面统计可以帮我们知晓某个页面被多少人访问了多少次行为统计是指用户在界面上的操作行为，应用最多的是按钮的点击次数

回答于 2021-11-01 14:34

0 赞同

请简要说说一个完整的机器学习项目流程？

(1) 抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。 (2) 获取数据数据决定了机...

回答于 2021-11-01 14:33

0 赞同

我们知道，独热编码（OneHotEncoder）会增加数据集的维度。但是...

用独热编码(OneHotEncoder)，数据集的维度（也即特征）增加是因为它为分类变量中存在的的每一级都创建了一个变量。例如：假设我们有一个变量“颜色”。这变量有 3 个层级，即红色、蓝色和绿色。对“颜色”变量进行一位有效编码会生成含0和1值的 Color.Red，Color.Blue 和 Color.Green 三个新变量。在标签编码中，分类变量的...

回答于 2021-11-01 14:32

0 赞同

爬取数据后使用哪个数据库存储数据的，为什么？

MongoDB 是使用比较多的数据库，这里以 MongoDB 为例，大家需要结合自己真实开发环境回答。原因： 1.与关系型数据库相比，MongoDB 的优点如下。 (1) 弱一致性（最终一致），更能保证用户的访问速度举例来说，在传统的关系型数据库中，一个 COUNT 类型的操作会锁定数据集，这样可以保证得到“当前”情况下的较精确值。这...

回答于 2021-11-01 14:32

0 赞同

用过的： (1) Python 自带：urllib、urllib2 urllib 和 urllib2 模块都做与请求 URL 相关的操作，但他们提供不同的功能。 urllib2：urllib2.urlopen 可以接受一个 Request 对象或者 url，（在接受 Request 对象时候，并以此可以来设置一个 URL 的 headers）， urllib.urlopen 只接收一个 url。 urllib 有 urlencode,ur...

回答于 2021-11-01 14:31

0 赞同

写爬虫是用多进程好？还是多线程好？为什么？

IO 密集型代码(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有 IO 操作会进行 IO 等待，造成不必要的时间浪费，而开启多线程能在线程 A 等待时，自动切换到线程 B，可以不浪费 CPU 的资源，从而能提升程序执行效率)。在实际的数据采集过程中，既考虑网速和响应的问题，也需要考虑自身机器的硬件情况，来设置多...

回答于 2021-11-01 14:29

0 赞同

你正在处理数据集。如何选择重要变量？

(1) 在选择重要变量之前，请先删除相关变量 (2) 使用随机森林和绘图变量重要性图表 (3) 使用套索回归 (4) 使用线性回归以基于p值选择变量 (5) 使用前向选择，逐步选择和向后选择

回答于 2021-10-30 11:49

0 赞同

你正在处理数据集。如何选择重要变量？

(1) 在选择重要变量之前，请先删除相关变量 (2) 使用随机森林和绘图变量重要性图表 (3) 使用套索回归 (4) 使用线性回归以基于p值选择变量 (5) 使用前向选择，逐步选择和向后选择

回答于 2021-10-30 11:46

0 赞同

你正在处理数据集。如何选择重要变量？

(1) 在选择重要变量之前，请先删除相关变量 (2) 使用随机森林和绘图变量重要性图表 (3) 使用套索回归 (4) 使用线性回归以基于p值选择变量 (5) 使用前向选择，逐步选择和向后选择

回答于 2021-10-30 11:45

0 赞同

为什么 XGBoost 的性能优于 SVM？

XGBoos 是使用许多树的集成方法。这意味着它会随着自身的重复而提高。 SVM 是线性分隔符。因此，如果我们的数据不是线性可分离的，那么 SVM 需要一个内核来使数据达到可以分离的状态。这可能会限制我们，因为每个给定的数据集都没有完美的内核。

回答于 2021-10-30 11:42

3096 个回答

什么是数据埋点？

请简要说说一个完整的机器学习项目流程？

我们知道，独热编码（OneHotEncoder）会增加数据集的维度。但是...

爬取数据后使用哪个数据库存储数据的，为什么？

你用过的爬虫框架或者模块有哪些？谈谈他们的区别或者优缺点？

写爬虫是用多进程好？还是多线程好？为什么？

你正在处理数据集。如何选择重要变量？

你正在处理数据集。如何选择重要变量？

你正在处理数据集。如何选择重要变量？

为什么 XGBoost 的性能优于 SVM？