Nen 的回答 - 好学星城学习论坛

0 赞同

IP 存放在哪里？怎么维护 IP？对于封了多个 ip 的，怎么判定 IP...

存放在数据库(redis、mysql 等) 维护多个代理网站一般代理的存活时间往往在十几分钟左右，定时任务，加上代理 IP 去访问网页，验证其是否可用，如果返回状态为 200，表示这个代理是可以使用的。

回答于 2021-11-03 13:50

0 赞同

怎么获取加密的数据？

(1) Web 端加密可尝试移动端（app） (2) 解析加密，看能否破解 (3) 反爬手段层出不穷，js 加密较多，只能具体问题具体分析

回答于 2021-11-03 13:49

0 赞同

假如每天爬取量在 5、6 万条数据，一般开几个线程，每个线程 ip...

(1) 5、6 万条数据相对来说数据量比较小，线程数量不做强制要求(做除法得一个合理值即可） (2) 多线程使用代理，应保证不在同时一刻使用一个代理 IP

回答于 2021-11-03 13:48

0 赞同

怎么监控爬虫的状态？

(1) 使用 python 的 STMP 包将爬虫的状态信心发送到指定的邮箱 (2) Scrapyd、pyspider (3) 引入日志

回答于 2021-11-03 13:47

0 赞同

描述下 scrapy 框架运行的机制？

从 start_urls 里获取第一批 url 并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理： (1) 如果提取出需要的数据，则交给管道文件处理； (2) 如果提取出 url，则继续执行之前的步骤（发送 url 请求，并由...

回答于 2021-11-03 13:47

0 赞同

常见的反爬虫和应对方法？

(1) 通过 Headers 反爬虫从用户请求的 Headers 反爬虫是最常见的反爬虫策略。很多网站都会对 Headers 的 User-Agent 进行检测，还有一部分网站会对 Referer 进行检测（一些资源网站的防盗链就是检测 Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加 Headers，将浏览器的 User-Agent 复制到爬虫的 Headers 中...

回答于 2021-11-02 14:56

0 赞同

需要登录的网页，如何解决同时限制 ip，cookie,session（其中有...

(1) 解决限制 IP 可以使用代理 IP 地址池、服务器 (2)不适用动态爬取的情况下可以使用反编译 JS 文件获取相应的文件，或者换用其他平台（比如手机端）看看是否可以获取相应的 json 文件。

回答于 2021-11-02 14:54

0 赞同

验证码的解决？

(1) 图形验证码干扰、杂色不是特别多的图片可以使用开源库 Tesseract 进行识别，太过复杂的需要借助第三方打码平台。 (2) 滑块验证码点击和拖动滑块验证码可以借助 selenium、无图形界面浏览器（chromedirver 或者 phantomjs）和pillow 包来模拟人的点击和滑动操作，pillow 可以根据色差识别需要滑动的位置。

回答于 2021-11-02 14:53

0 赞同

使用最多的数据库（Mysql，Mongodb，redis 等），对他们的理解？

(1) MySQL 数据库开源免费的关系型数据库，需要实现创建数据库、数据表和表的字段，表与表之间可以进行关联（一对多、多对多），是持久化存储。 (2) Mongodb 数据库非关系型数据库，数据库的三元素是，数据库、集合、文档，可以进行持久化存储，也可作为内存数据库，存储数据不需要事先设定格式，数据以键值对的形式存...

回答于 2021-11-02 14:53

0 赞同

写一个邮箱地址的正则表达式？

[A-Za-z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

回答于 2021-11-02 14:52

3096 个回答