Python抓取数据乱码b'\x1f\x8b\x08\x00\x00\x00\x00\x0....[UnicodeDecodeError]

最新推荐文章于 2026-01-22 08:45:58 发布

原创最新推荐文章于 2026-01-22 08:45:58 发布 · 1w 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#Python #UnicodeDecodeError #gzip

收录于

Python 专栏收录该内容

20 篇文章

订阅专栏

本文探讨了解决从URL获取的数据在使用gzip解压时出现的UnicodeDecodeError问题。当目标网站使用Content-Encoding字段进行数据压缩时，直接使用utf-8解码会导致乱码。正确的做法是先用gzip.decompress()解压，再进行解码。

引入gzip

from urllib import request
import gzip

    r = request.urlopen(url)
    content = r.read()
    
    # 错误！ --> UnicodeDecodeError: 
    # 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
    # encoded_content = str(content, encoding='utf-8')
    
    # 正解 √
    encoded_content = gzip.decompress(content).decode("utf-8")