工资「喂饱肚子」，副业「养活灵魂」！
问题反馈可发送邮件到stubbornhuang@qq.com
计算机图形学与计算几何经典必备书单整理，下载链接可参考：https://www.stubbornhuang.com/1256/
欢迎大家交换友链，可在https://www.stubbornhuang.com/申请友情链接进行友链交换申请！
在本站开通年度VIP，无限制下载本站资源和阅读本站文章
本站由于前段时间遭受到大量临时和国外邮箱注册，所以对可注册的邮箱类型进行了限制！
本站会放置Google广告用于维持域名以及网站服务器费用。
感谢大家访问本站，希望本站的内容可以帮助到大家！
如果觉得本站的内容有帮助，可以考虑打赏博主哦！

赞 (0)

当前位置：首页 › 编程技术 › Python › 正文

Python – 写爬虫时需要用到那些第三方库

StubbornHuang Python 发布于2022-09-07 阅读 2,209次 0次评论 0次点赞本文共805个字，阅读需要3分钟。

网络爬虫的执行步骤大致可以分为以下几步：

进行网络请求，获取网页内容；
解析网页信息，获取有用信息；
存储有用信息，与数据库交互；

在使用Python写一些简单工具爬虫时，上述三个步骤都有比较多的第三方库可供我们选择。

1 网页请求

urllib：urllib是python内置的处理HTTP请求的库；
requests：基于urllib编写，目前Python最简单易用的Http请求库，爬虫首选http请求库；
selenium：selenium是一个 web 的自动化测试工具，可直接调用浏览器模拟人类操作，一般在反爬虫严格或者需要直接使用浏览器操作的网站下使用；
aiohttp：基于asyncio实现的HTTP框架，异步操作借助于 async/await 关键字，使用异步库进行数据抓取，可以大大提高效率；

2 网页解析

re：正则匹配，直接使用正则表达式解析网页内容，难度较大；
html.parser：Python内置的Html解析库；
BeautifulSoup：Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，学习曲线较低，非常容易上手；
lxml：xml是一个高性能的Python HTML/XML解析器，使用C编写，用于快速定位特定元素以及节点信息；
pyquery：jQuery 的 Python 实现，能够以 jQuery 的语法来操作解析 HTML 文档，易用性和解析速度都很好；

3 信息存储，数据库操作

pymysql：一个纯 Python 实现的 MySQL 客户端操作库；
pymongo：一个用于直接连接 mongodb 数据库进行查询操作的库；
redisdump：一个用于 redis 数据导入/导出的工具；

参考链接

欢迎扫码关注我的微信公众号，及时获取文章更新

微信公众号二维码

本文作者：StubbornHuang

版权声明：本文为站长原创文章，如果转载请注明原文链接！

原文标题：Python – 写爬虫时需要用到那些第三方库

原文链接：https://www.stubbornhuang.com/2345/

发布于：2022年09月07日 15:52:56

修改于：2023年06月21日 18:06:55

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

关键字：

Python 爬虫第三方库

文章末尾

上一篇

WebGL/ThreeJS - 相关文档、教程网站

下一篇

ThreeJS - 获取当前使用的three.js的版本

发表评论点击这里取消回复。

您必须 [ 登录 ] 才能发表留言！