Python网页decode解码报错UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0xb0 in position 18020: illegal multibyte sequence

python抓取网页后用decode解码,报错信息如下:

UnicodeDecodeError: 'gb2312' codec can't decode byte 0xb0 in position 18020: illegal multibyte sequence

用chardet库识别编码竟然是ISO-8859-9。。

推测是网页数据中有错误的字符无法解码,decode有参数errors,设置一下就好啦~

html.decode("gb2312",errors = 'ignore')

发表评论

[/0o0] [..^v^..] [0_0] [T.T] [=3-❤] [❤.❤] [^v^] [-.0] [!- -] [=x=] [→_→] [><] 更多 »
昵称

抢沙发~