Python3 – 正则表达式去除字符串中的特殊符号
原创文章,作者:StubbornHuang,如若转载,请注明出处:《Python3 – 正则表达式去除字符串中的特殊符号》https://www.stubbornhuang.com/610/
今天看完Python的正则表达式之后,刚刚好自己的爬虫出了问题,就是在创建文件夹的时候还有命名图片的时候因为字符串中出现了特殊符号,比如说"",%,/等符号,导致爬虫在创建文件夹和图片以及视频的时候出现了错误,因为windows中不允许文件和文件夹中包含一些特殊符号,刚刚在看完python表达式之后发现了re.sub方法,
该方法用于替换字符串中的匹配项:
函数语法:
re.sub(pattern, repl, string, count=0, flags=0)
函数参数:
pattern:正则中的模式字符串;
repl :替换的字符串,也可为一个函数;
string :要被查找替换的原始字符串;
count :模式匹配后替换的最大次数,默认 0 表示替换所有的匹配;
即通过正则表达式pattern匹配string中的字符,并将其替换为repl。
所以我写了一个函数,专门用于移除字符串中的特殊符号:
def RemoveSpecialSymbols(newstr):
result = re.sub('\W\s+', '', value).replace("_", '')
return result
\W表示匹配非数字字母下划线,所以在最后面使用了replace将下划线进行了替换,\s表示匹配空字符,即将空字符串也进行替换。
当前分类随机文章推荐
- 简单粗暴:使用pycharm安装对应的Python版本第三方包
- Python3爬虫 - 下载反盗链图片的方式
- Pip - 常用命令(安装,卸载,升级第三方库)
- Python3爬虫 - requests库
- Python BeautifulSoup的find()和findAll()
- Python3 - 导入模块和函数
- opencv-python - 读取视频,不改变视频分辨率修改视频帧率
- Python:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 12305,以及中文乱码的解决方案
- Python3爬虫 - requests库的requests.exceptions所有异常详细说明
- 解决Python爬虫在爬资源过程中使用urlretrieve函数下载文件不完全且避免下载时长过长陷入死循环,并在下载文件的过程中显示下载进度
全站随机文章推荐
- C++ - queue存储动态指针时正确释放内存
- WordPress - 纯代码在文章内容末尾添加当前文章同一分类下的随机推荐文章
- C++11 - 父类与子类相互包含的时候该如何正确的使用智能指针,防止循环引用
- 资源分享 - 非均匀有理B样条(第二版,Les Piegl),The NURBS Book中文译文版下载
- 资源分享 - Qt5.9 c++开发指南 PDF下载
- 资源下载 - Go语言实战WilliamKennedy高清带书签PDF下载
- 资源下载 - Physically Based Rendering - From Theory to Implementation 3rd edition(英文版) PDF下载
- 资源分享 - Computer Graphics Through OpenGL - From Theory to Experiments (Third Edition) 英文高清原版 PDF下载
- 工具网站推荐 - 最好的8个免费下载Pbr贴图和材质的网站
- WordPress - Windows使用PhpStudy本地部署WordPress