page contents

CatBoost详解--原理+类别特征处理的技巧+加速

CatBoost这个名字来自两个词“Category”和“Boosting”。如前所述,该库可以很好地处理各种类别型数据,是一种能够很好地处理类别型特征的梯度提升算法库。

  • 0
  • 1
  • Pack
  • 发布于 2020-12-18 09:50
  • 阅读 ( 4022 )

Python爬虫|你真的会写爬虫吗?

爬虫调度器,主要是配合调用其他四个模块,所谓调度就是取调用其他的模板 URL管理器,就是负责管理URL链接的,URL链接分为已经爬取的和未爬取的,这就需要URL管理器来管理它们,同时它也为获取新URL链接提供接口。

  • 0
  • 1
  • Pack
  • 发布于 2020-12-17 10:42
  • 阅读 ( 752 )

我要偷偷的学Python,然后惊呆所有人

python自定义函数中有两中不定长参数,第一种是*name,第二种是**name。加了星号 * 的参数会以元组(tuple)的形式导入,存放所有未命名的变量参数。加了两个星号 ** 的参数会以字典的形式导入。

  • 0
  • 0
  • Pack
  • 发布于 2020-12-16 11:03
  • 阅读 ( 634 )

python线性回归

对于单元的线性回归,我们有:f(x) = kx + b 的方程(k代表权重,b代表截距)。

  • 0
  • 0
  • Pack
  • 发布于 2020-12-16 09:56
  • 阅读 ( 683 )

AlexNet:深度卷积神经网络开始兴起

深度学习需要大量的有标签的数据才能表现得比其他经典方法更好。限于早期计算机有限的存储和90年代有限的研究预算,大部分研究只基于小的公开数据集。

  • 0
  • 0
  • Pack
  • 发布于 2020-12-15 10:43
  • 阅读 ( 669 )

用Python自动清理系统垃圾,再也不用360安全卫士了

Python os 模块提供了非常丰富的方法用来处理文件和目录,它会自适应于不同的操作系统平台,根据不同的平台进行相应的操作,在python编程时,经常和文件、目录打交道,这时就离不了os模块。

  • 0
  • 0
  • Pack
  • 发布于 2020-12-15 10:36
  • 阅读 ( 1007 )

分布式爬虫原理

Scrapy单机爬虫中有一个本地爬取队列Queue,这个队列是利用deque模块实现的。如果新的Request生成就会放到队列里面,随后Request被Scheduler调度。之后,Request交给Downloader执行爬取

  • 0
  • 0
  • Pack
  • 发布于 2020-12-12 09:57
  • 阅读 ( 681 )

【PhpSelenium】3.定时爬虫+多任务爬虫+代理池

本文只是提供一个思路,实际项目中还需维护代理池可用性等细节部分

  • 0
  • 0
  • Pack
  • 发布于 2020-12-12 09:43
  • 阅读 ( 569 )

一个极为简洁的Python爬虫框架

框架的主要目的就是为了让爬虫工程师在编写爬虫时更专注于构造合理的request、解析网页以及存储网页,而不是浪费时间在如何写工具函数、如何进行线程调度、如何进行进程通讯、如何保证线程、进程正常退出等等。没有哪个框架十全十美,也没有哪个框架完全通用,顺手、稳定才是硬道理。

  • 0
  • 0
  • Pack
  • 发布于 2020-12-11 14:05
  • 阅读 ( 589 )

python定时任务管理

python定时任务管理

  • 0
  • 0
  • Pack
  • 发布于 2020-12-11 13:54
  • 阅读 ( 586 )

来闯关吗?一个有趣的 Python 解谜网站

这一期的话题是:一个学习 Python 的趣味网站 。

  • 0
  • 0
  • Pack
  • 发布于 2020-04-15 16:02
  • 阅读 ( 966 )

Python 爬虫实战:股票数据定向爬虫

执行完上述代码后在D盘会出现BaiduStockInfo.txt文件,里面存放了股票的信息。

  • 0
  • 0
  • Pack
  • 发布于 2020-04-15 15:51
  • 阅读 ( 979 )

记一次 Python Web 接口优化,性能提升25倍!

我们负责的一个业务平台,有次在发现设置页面的加载特别特别地慢,简直就是令人发指

  • 0
  • 0
  • Pack
  • 发布于 2020-04-15 15:45
  • 阅读 ( 752 )

让人想骂街的 Python 炫技操作:条件语句的七种写法

这六种写法里,我最推荐使用的是第一种,自己也经常在用,简洁直白,代码行还少。

  • 0
  • 0
  • Pack
  • 发布于 2020-04-15 15:38
  • 阅读 ( 742 )

深度学习数学基础:神经元构造

1 生物学上的神经元 1.1 神经元的概念 神经网络的这个想法,是受到生物学上的神经元的启发所创建出来的。在生物学上,神经元是以下方的流程来作出反应的。 神经元形成网络从其他多个神经元传...

  • 0
  • 0
  • Pack
  • 发布于 2020-03-05 15:37
  • 阅读 ( 796 )

可视化:将matplotlib图形嵌入到PyQt5界面中

本篇介绍如何将由matplotlib绘就的图形嵌入到 PyQt5界面中。 只需从matplotlib.backends.backend_qt5agg.FigureCanvasQTAgg类继承一个画布控件,然后就可以当成是 PyQt5 普通控件那样添加到图...

  • 0
  • 0
  • Pack
  • 发布于 2020-03-05 14:32
  • 阅读 ( 712 )

一行 Python 能实现什么丧心病狂的功能?

能够把自身代码打印出来的程序,叫做Quine。 下面是python的一行quine: 能够把自身代码打印出来的程序,叫做Quine。下面是python的一行quine:有人说有分号不算一行,无分号版:其实,如果你...

  • 0
  • 0
  • Pack
  • 发布于 2020-03-04 13:50
  • 阅读 ( 745 )

你在使用Python时犯过这3个错误吗?

常见错误1:错误地将表达式作为函数的默认参数 在Python中,我们可以为函数的某个参数设置默认值,使该参数成为可选参数。虽然这是一个很好的语言特性,但是当默认值是可变类型时,也会导致一...

  • 0
  • 0
  • Pack
  • 发布于 2020-03-03 09:55
  • 阅读 ( 748 )

python爬虫的一些基本技巧

1.最基本的抓站 importurllib2content= urllib2.urlopen('http://XXXX').read() 2.使用代理服务器 这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。 importurlli...

  • 0
  • 0
  • Pack
  • 发布于 2020-03-02 15:06
  • 阅读 ( 788 )

Python通过正则库爬取淘宝商品信息代码实例

使用正则库爬取淘宝商品的商品信息,首先我们需要确定想要爬取的对象。 我们在淘宝里搜索“python”,出来的结果: 从url连接中可以得到搜索商品的关键字是“q=”,所以我们要用的起始url为:h...

  • 0
  • 0
  • Pack
  • 发布于 2020-03-02 14:59
  • 阅读 ( 716 )