page contents
Nen
Nen - 程序员

性别: 天津 - 天津市 注册于 2021-06-23

向TA求助
2850金币数
43180 经验值
1个粉丝
主页被访问 6234 次

3096 个回答

0 赞同

什么是数据埋点?

数据埋点我们可以分为两类,其一是页面统计,其二是行为统计 页面统计可以帮我们知晓某个页面被多少人访问了多少次 行为统计是指用户在界面上的操作行为,应用最多的是按钮的点击次数

回答于 2021-11-01 14:34

0 赞同

请简要说说一个完整的机器学习项目流程?

(1) 抽象成数学问题 明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。 这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其 中的某类问题。 (2) 获取数据 数据决定了机...

回答于 2021-11-01 14:33

0 赞同

我们知道,独热编码(OneHotEncoder)会增加数据集的维度。但是...

用独热编码(OneHotEncoder),数据集的维度(也即特征)增加是因为它为分类变量中存在的的每一级都创建了一个变量。例如:假设我们有一个 变量“颜色”。这变量有 3 个层级,即红色、蓝色和绿色。 对“颜色”变量进行一位有效编码会生成含0和1值的 Color.Red,Color.Blue 和 Color.Green 三个新变量。在标签编码中,分类变量的...

回答于 2021-11-01 14:32

0 赞同

爬取数据后使用哪个数据库存储数据的,为什么?

MongoDB 是使用比较多的数据库,这里以 MongoDB 为例,大家需要结合自己真实开发环境回答。 原因: 1.与关系型数据库相比,MongoDB 的优点如下。 (1) 弱一致性(最终一致),更能保证用户的访问速度 举例来说,在传统的关系型数据库中,一个 COUNT 类型的操作会锁定数据集,这样可以保证得到“当前”情况下的较精确值。这...

回答于 2021-11-01 14:32

0 赞同

你用过的爬虫框架或者模块有哪些?谈谈他们的区别或者优缺点?

用过的: (1) Python 自带:urllib、urllib2 urllib 和 urllib2 模块都做与请求 URL 相关的操作,但他们提供不同的功能。 urllib2:urllib2.urlopen 可以接受一个 Request 对象或者 url,(在接受 Request 对象时候,并以此可以来设置一个 URL 的 headers), urllib.urlopen 只接收一个 url。 urllib 有 urlencode,ur...

回答于 2021-11-01 14:31

0 赞同

写爬虫是用多进程好?还是多线程好? 为什么?

IO 密集型代码(文件处理、网络爬虫等),多线程能够有效提升效率(单线程下有 IO 操作会进行 IO 等待,造成不必要的时间浪费,而开启多线程能在线程 A 等待时,自动切换到线程 B,可以不浪费 CPU 的资源,从而能提升程序执行效率)。在实际的数据采集过程中,既考虑网速和响应的问题,也需要考虑自身机器的硬件情况,来设置多...

回答于 2021-11-01 14:29

0 赞同

你正在处理数据集。如何选择重要变量?

(1) 在选择重要变量之前,请先删除相关变量 (2) 使用随机森林和绘图变量重要性图表 (3) 使用套索回归 (4) 使用线性回归以基于p值选择变量 (5) 使用前向选择,逐步选择和向后选择

回答于 2021-10-30 11:49

0 赞同

你正在处理数据集。如何选择重要变量?

(1) 在选择重要变量之前,请先删除相关变量 (2) 使用随机森林和绘图变量重要性图表 (3) 使用套索回归 (4) 使用线性回归以基于p值选择变量 (5) 使用前向选择,逐步选择和向后选择

回答于 2021-10-30 11:46

0 赞同

你正在处理数据集。如何选择重要变量?

(1) 在选择重要变量之前,请先删除相关变量 (2) 使用随机森林和绘图变量重要性图表 (3) 使用套索回归 (4) 使用线性回归以基于p值选择变量 (5) 使用前向选择,逐步选择和向后选择

回答于 2021-10-30 11:45

0 赞同

为什么 XGBoost 的性能优于 SVM?

XGBoos 是使用许多树的集成方法。这意味着它会随着自身的重复而提高。 SVM 是线性分隔符。因此,如果我们的数据不是线性可分离的,那么 SVM 需要一个内核来使数据达到可以分离的状态。这可能会限制我们,因为每个给定的数据集都没有完美的内核。

回答于 2021-10-30 11:42