page contents
Nen
Nen - 程序员

性别: 天津 - 天津市 注册于 2021-06-23

向TA求助
2850金币数
43180 经验值
1个粉丝
主页被访问 6234 次

3096 个回答

0 赞同

如何根据训练集大小选择分类器?

对于小的训练集,具有高偏差和低方差模型的模型更好,因为它不太可能过拟合。一个例子是朴素贝叶斯。 对于大型训练集,具有低偏差和高方差模型的模型更好,因为它表示更复杂的关系。一个例子是逻辑回归。

回答于 2021-10-29 13:59

0 赞同

解释ROC曲线和AUC?

ROC曲线是在所有阈值下分类模型的性能的图形表示。它有两个阈值:真阳性率和假阳性率。 简单来说,AUC( ROC 曲线下方的面积)就是 ROC 曲线下方的面积。AUC 测量 ROC 曲线下从分类模型的性能指标。

回答于 2021-10-29 13:58

0 赞同

什么是超参数?它们与模型参数有何不同?

模型参数是模型内部的变量。参数值是根据训练数据估算的。 超参数是模型外部的变量。该值无法从数据中估算出来,通常用于估算模型参数。

回答于 2021-10-29 13:58

0 赞同

如何确保您不会过度拟合模型?

我们可以使用三种方法来防止过度拟合: (1) 使用交叉验证技术(例如k折交叉验证) (2) 保持模型简单(即减少变量)以减少方差 (3) 使用正则化技术(例如 LASSO)来惩罚可能导致过度拟合的模型参数

回答于 2021-10-29 13:56

0 赞同

解释如何开发数据管道?

数据管道使我们能够采用数据科学模型并对其进行自动化或扩展。常见的数据管道工具是 Apache Airflow,并且使用 Google Cloud,Azure 和AWS 托管它们。 对于这样的问题,您想解释所需的步骤并讨论您在构建数据管道方面的实际经验。 对于 Google Cloud 主机,基本步骤如下: (1) 登录到 Google Cloud Platform (2) 创建一...

回答于 2021-10-29 13:56

0 赞同

如何解决模型中的高方差?

如果模型具有低方差和高偏差,我们使用装袋算法,该算法使用随机抽样将数据集划分为子集。我们使用这些样本通过单个学习算法生成一组模型。 此外,我们可以使用正则化技术,其中较高的模型系数会受到惩罚,以降低总体复杂度

回答于 2021-10-29 13:55

0 赞同

如何避免僵尸进程?

通过signal(SIGCHLD, SIG_IGN)通知内核对子进程的结束不关心,由内核回收。如果不想让父进程挂起,可以在父进程中加入一条语句: signal(SIGCHLD,SIG_IGN);表示父进程忽略SIGCHLD信号,该信号是子进程退出的时候向父进程发送的。 父进程调用wait/waitpid等函数等待子进程结束,如果尚无子进程退出wait会导致父进程阻塞。w...

回答于 2021-10-28 16:28

0 赞同

介绍一下几种典型的锁?

读写锁 多个读者可以同时进行读写者必须互斥(只允许一个写者写,也不能读者写者同时进行) 写者优先于读者(一旦有写者,则后续读者必须等待,唤醒时优先考虑写者) 互斥锁 一次只能一个线程拥有互斥锁,其他线程只有等待 互斥锁是在抢锁失败的情况下主动放弃CPU进入睡眠状态直到锁的状态改变时再唤醒,而操作系统负...

回答于 2021-10-28 16:12

0 赞同

什么是机器学习?

简单的说,机器学习就是让机器从数据中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好,这就是机器学习。 对上面这句话的理解: 数据:从现实生活抽象出来的一些事物或者规律的特征进行数字化得到。 学习:在数据的基础上让机器重复执行一套特定的步骤(学习算法)进行事物特征的...

回答于 2021-10-28 16:09

0 赞同

机器学习与数据挖掘的区别?

数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习和数据挖掘》可以帮助大家理解。 数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。 由于统计学往往醉心于理论的优美而忽视实际的效用...

回答于 2021-10-28 16:03