page contents
Nen
Nen - 程序员

性别: 天津 - 天津市 注册于 2021-06-23

向TA求助
2850金币数
43180 经验值
1个粉丝
主页被访问 6237 次

3096 个回答

0 赞同

如何定时启动你的爬虫项目?

(1) 最简单的方法:直接使用 Timer 类 1. import time 2. import os 3. 4. while True: 5. os.system("scrapy crawl News") 6. time.sleep(86400) #每隔一天运行一次 24*60*60=86400s (2) 使用 sched 1. import sched 2. #初始化 sched 模块的 scheduler 类 3. #第一个参数是一个可以返回时间戳的函数,第二个参...

回答于 2021-11-02 14:47

0 赞同

爬的那些内容数据量有多大,多久爬一次,爬下来的数据是怎么存储...

京东整站的数据大约在 1 亿左右,爬下来的数据存入数据库,mysql 数据库中如果有重复的 url 建议去重存入数据库,可以考虑引用外键。评分、评论如果做增量,Redis 中 url 去重,评分和评论建议建立一张新表用 id 做关联。 多久爬一次这个问题要根据公司的要求去处理,不一定是每天都爬。 Mongo 建立唯一索引键(id)可以...

回答于 2021-11-02 14:46

0 赞同

cookie 过期的处理问题?

因为 cookie 存在过期的现象,一个很好的处理方法就是做一个异常类,如果有异常的话 cookie 抛出异常类在执行程序。

回答于 2021-11-02 14:44

0 赞同

动态加载又对及时性要求很高怎么处理?

Selenium + Phantomjs,尽量不使用 sleep 而使用 WebDriverWait

回答于 2021-11-02 14:44

0 赞同

谈一谈你对 Selenium 和 PhantomJS 了解?

Selenium 是一个 Web 的自动化测试工具,可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在 代码中运行,所以我们可以用一个叫 PhantomJS...

回答于 2021-11-02 14:43

0 赞同

代理 IP 里的“透明”“匿名”“高匿”分别是指?

(1) 透明代理 它的意思是客户端根本不需要知道有代理服务器的存在,但是它传送的仍然是真实的 IP。你要想隐藏的话,不要用这个。 (2) 普通匿名代理 普通匿名代理能隐藏客户机的真实 IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网 站不能知道你的 ip 地址,但仍...

回答于 2021-11-02 14:42

0 赞同

在 K-means 或者 KNN,我们是用欧氏距离来计算最近的邻居之间的...

我们不用曼哈顿距离,因为它只计算水平或者垂直距离,有维度的限制。另一方面,欧氏距离可以用于任何空间的距离计算问题。因为,数据点可以存在于任何空间,欧式距离是更可行的选择。例如:想象一下国际象棋棋盘,象或者车所有的移动的由曼哈顿距离计算的,因为他们是在各自的水平和垂直方向做的运动。

回答于 2021-11-01 14:36

0 赞同

给你一个数据集,这个数据集有缺失值,且这些缺失值分布在高中值...

大约有32%的数据将不会受到缺失值的影响。因为,由于数据分布在中位数附近,让我们先假设这是一个正态分布。我们知道,在一个正态分布中,约有68%的数据位于跟平均值(或者众数,中位数)1个标准差范围内,那么剩下的约32%的数据是不受影响的。因此,约有32%的数据将不受缺失值的影响。

回答于 2021-11-01 14:36

0 赞同

线程分类器与非线性分类器的区别以及优劣?

如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。 常用的线性分类器有:LR ,贝叶斯分类,单层感知器,线性回归 常见的非线性分类器:决策树,RF,GBDT,多层感知机 SVM两种都有(看线性核还是高斯核) 线性分类器速度快,编程方便,但是可能拟合效果不会很好 非线性分类器编程复杂,但是...

回答于 2021-11-01 14:35

0 赞同

文本中的余弦距离是什么,有哪些作用?

余弦距离是两个向量的距离的一种度量方式,其值在-1~1之间,如果为1表示两个向量同相,0表示两个向量正交,-1表示两个向量反向。使用TFIDF和余弦距离可以寻找内容相似的文章,例如首先用TF-IDF找出两篇文章的关键词,然后每个文章分别取出k个关键词(10-20个),统计这些关键词的词频,生成两篇文章的词频向量,然后用余弦距...

回答于 2021-11-01 14:34