python 采集中文乱码问题的方法

近几日遇到采集某网页的时候大部分网页ok,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardetthischarset = chardet.detect(strs)["encoding"]

登录后复制

来获取该文件或页面的编码方式

立即学习“Python免费学习笔记(深入)”;

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

登录后复制

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持PHP中文网

更多python 采集中文乱码问题的方法相关文章请关注PHP中文网!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2278981.html

(0)
上一篇 2025年2月27日 17:07:39
下一篇 2025年2月25日 08:46:15

AD推荐 黄金广告位招租... 更多推荐

发表回复

登录后才能评论