52讲轻松搞定网络爬虫笔记4
资料
52讲轻松搞定网络爬虫
异步爬虫的原理和解析
我们知道爬虫是 IO 密集型任务,比如如果我们使用 requests 库来爬取某个站点的话,发出一个请求之后,程序必须要等待网站返回响应之后才能接着运行,而在等待响应的过程中,整个爬虫程序是一直在等待的,实际上没有做任何的事情。对于这种情况我们有没有优化方案呢?
实例引入
比如在这里我们看这么一个示例网站:https://static4.scrape.center/,如图所示。
这个网站在内部实现返回响应的逻辑的时候特意加了 5 秒的延迟,也就是说如果我们用 requests 来爬取其中某个页面的话,至少需要 5 秒才能得到响应。