python抓取网页后用decode解码,报错信息如下:
UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0xb0 in position 18020: illegal multibyte sequence
用chardet库识别编码竟然是ISO-8859-9。。
推测是网页数据中有错误的字符无法解码,decode有参数errors,设置一下就好啦~
html.decode("gb2312",errors = 'ignore')
python抓取网页后用decode解码,报错信息如下:
UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0xb0 in position 18020: illegal multibyte sequence
用chardet库识别编码竟然是ISO-8859-9。。
推测是网页数据中有错误的字符无法解码,decode有参数errors,设置一下就好啦~
html.decode("gb2312",errors = 'ignore')
谢谢