世界那么大,我带你去看看

Python采集https网站乱码问题解决

最近一个项目是Python去采集一个知名的https网站,这里需要用到的库就是httplib

dl = httplib.HTTPSConnection(‘xxx.com’)

如果没有权限的话,还需要添加header 之类的

这里最主要出现了乱码问题

百度谷歌搜索了很多,在知名的stackflow上找到答案

原来是gzip的问题

加入下面代码即可解决问题

import zlib

html = rs.read()

html = zlib.decompress(html, 16+zlib.MAX_WBITS)

 

未经允许不得转载:互联网骚操作 » Python采集https网站乱码问题解决

分享到:更多 ()

评论 抢沙发

评论前必须登录!

世界那么大,跟着我去看看

联系我们阿里云运行