page contents
Nen
Nen - 程序员

性别: 天津 - 天津市 注册于 2021-06-23

向TA求助
2850金币数
43180 经验值
1个粉丝
主页被访问 6237 次

3096 个回答

0 赞同

IP 存放在哪里?怎么维护 IP?对于封了多个 ip 的,怎么判定 IP...

存放在数据库(redis、mysql 等) 维护多个代理网站 一般代理的存活时间往往在十几分钟左右,定时任务,加上代理 IP 去访问网页,验证其是否可用,如果返回状态为 200,表示这个代理是可以使用的。

回答于 2021-11-03 13:50

0 赞同

怎么获取加密的数据?

(1) Web 端加密可尝试移动端(app) (2) 解析加密,看能否破解 (3) 反爬手段层出不穷,js 加密较多,只能具体问题具体分析

回答于 2021-11-03 13:49

0 赞同

假如每天爬取量在 5、6 万条数据,一般开几个线程,每个线程 ip...

(1) 5、6 万条数据相对来说数据量比较小,线程数量不做强制要求(做除法得一个合理值即可) (2) 多线程使用代理,应保证不在同时一刻使用一个代理 IP

回答于 2021-11-03 13:48

0 赞同

怎么监控爬虫的状态?

(1) 使用 python 的 STMP 包将爬虫的状态信心发送到指定的邮箱 (2) Scrapyd、pyspider (3) 引入日志

回答于 2021-11-03 13:47

0 赞同

描述下 scrapy 框架运行的机制?

从 start_urls 里获取第一批 url 并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理: (1) 如果提取出需要的数据,则交给管道文件处理; (2) 如果提取出 url,则继续执行之前的步骤(发送 url 请求,并由...

回答于 2021-11-03 13:47

0 赞同

常见的反爬虫和应对方法?

(1) 通过 Headers 反爬虫 从用户请求的 Headers 反爬虫是最常见的反爬虫策略。很多网站都会对 Headers 的 User-Agent 进行检测,还有一部分网站会对 Referer 进行检测(一些资源网站的防盗链就是检测 Referer)。如果遇到了这类反爬虫机制,可以直接在爬虫中添加 Headers,将浏览器的 User-Agent 复制到爬虫的 Headers 中...

回答于 2021-11-02 14:56

0 赞同

需要登录的网页,如何解决同时限制 ip,cookie,session(其中有...

(1) 解决限制 IP 可以使用代理 IP 地址池、服务器 (2)不适用动态爬取的情况下可以使用反编译 JS 文件获取相应的文件,或者换用其他平台(比如手机端)看看是否可以获取相应的 json 文件。

回答于 2021-11-02 14:54

0 赞同

验证码的解决?

(1) 图形验证码 干扰、杂色不是特别多的图片可以使用开源库 Tesseract 进行识别,太过复杂的需要借助第三方打码平台。 (2) 滑块验证码 点击和拖动滑块验证码可以借助 selenium、无图形界面浏览器(chromedirver 或者 phantomjs)和pillow 包来模拟人的点击和滑动操作,pillow 可以根据色差识别需要滑动的位置。

回答于 2021-11-02 14:53

0 赞同

使用最多的数据库(Mysql,Mongodb,redis 等),对他们的理解?

(1) MySQL 数据库 开源免费的关系型数据库,需要实现创建数据库、数据表和表的字段,表与表之间可以进行关联(一对多、多对多),是持久化存储。 (2) Mongodb 数据库 非关系型数据库,数据库的三元素是,数据库、集合、文档,可以进行持久化存储,也可作为内存数据库,存储数据不需要事先设定格式,数据以键值对的形式存...

回答于 2021-11-02 14:53

0 赞同

写一个邮箱地址的正则表达式?

[A-Za-z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

回答于 2021-11-02 14:52