本文作者:StubbornHuang
版权声明:本文为站长原创文章,如果转载请注明原文链接!
原文标题:Python – 写爬虫时需要用到那些第三方库
原文链接:https://www.stubbornhuang.com/2345/
发布于:2022年09月07日 15:52:56
修改于:2022年09月07日 15:52:56

网络爬虫的执行步骤大致可以分为以下几步:
- 进行网络请求,获取网页内容;
- 解析网页信息,获取有用信息;
- 存储有用信息,与数据库交互;
在使用Python写一些简单工具爬虫时,上述三个步骤都有比较多的第三方库可供我们选择。
1 网页请求
- urllib:urllib是python内置的处理HTTP请求的库;
- requests:基于urllib编写,目前Python最简单易用的Http请求库,爬虫首选http请求库;
- selenium:selenium是一个 web 的自动化测试工具,可直接调用浏览器模拟人类操作,一般在反爬虫严格或者需要直接使用浏览器操作的网站下使用;
- aiohttp:基于asyncio实现的HTTP框架,异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率;
2 网页解析
- re:正则匹配,直接使用正则表达式解析网页内容,难度较大;
- html.parser:Python内置的Html解析库;
- BeautifulSoup:Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,学习曲线较低,非常容易上手;
- lxml:xml是一个高性能的Python HTML/XML解析器,使用C编写,用于快速定位特定元素以及节点信息;
- pyquery:jQuery 的 Python 实现,能够以 jQuery 的语法来操作解析 HTML 文档,易用性和解析速度都很好;
3 信息存储,数据库操作
- pymysql:一个纯 Python 实现的 MySQL 客户端操作库;
- pymongo:一个用于直接连接 mongodb 数据库进行查询操作的库;
- redisdump:一个用于 redis 数据导入/导出的工具;
参考链接
当前分类随机文章推荐
- Python - 使用代码判断当前Python版本号 阅读277次,点赞0次
- Python - 使用Python+websockets时报错:AttributeError: module 'websockets' has no attribute 'serve' 阅读1500次,点赞0次
- Python - argparse命令行参数解析库用法总结 阅读498次,点赞0次
- Python - list/numpy/pytorch tensor相互转换 阅读1575次,点赞0次
- Python - list与字符串str相互转换方法总结 阅读562次,点赞0次
- Python - BeautifulSoup的find()和findAll() 阅读2723次,点赞0次
- Python - 各种包安装、导入问题总结 阅读1938次,点赞0次
- 简单粗暴:使用pycharm安装对应的Python版本第三方包 阅读3538次,点赞0次
- Pytorch - 使用opencv-python解码视频文件并将视频帧转换为Pytorch tensor作为网络模型输入数据 阅读2328次,点赞0次
- Python - 语音识别文本相似性度量库jiwer,可计算文字错误率WER、匹配错误率MER等相似性度量指标 阅读1210次,点赞0次
全站随机文章推荐
- 资源分享 - 3D数学基础:图形和游戏开发 第2版 , 3D Math Primer for Graphics and Game Development (Second Edition) 中文版 PDF下载 阅读3411次,点赞0次
- 书籍翻译 - Fundamentals of Computer Graphics, Fourth Edition,第1章 Introduction中文翻译 阅读4162次,点赞15次
- failed to find an available destination > EOF 阅读17346次,点赞32次
- 客户端开发GUI框架对比与技术选型总结 阅读2984次,点赞0次
- 工具API推荐 - 通过QQ号获取QQ头像 阅读1186次,点赞0次
- 资源分享 - Computer Graphics and Geometric Modelling - Implementation and Algorithms 英文高清PDF下载 阅读924次,点赞0次
- Duilib - 在同一台电脑上限制只能运行一个程序,防止软件多开 阅读1755次,点赞0次
- Python - 使用python-opencv裁剪原视频为与视频高同宽的视频 阅读1465次,点赞0次
- 资源分享 – OpenGL SuperBible - Comprehensive Tutorial and Reference (Sixth Edition) OpenGL蓝宝书第6版英文高清PDF下载 阅读1741次,点赞0次
- Windows - OneDrive登录出现0x8019001错误 阅读200次,点赞0次
评论
167