Python+Selenium实战：B站高清视频爬取全流程（含Cookie注入与多线程优化）-CSDN博客

Python+Selenium实战：B站高清视频爬取全流程优化指南

在当今数字内容消费时代，视频平台上的优质内容常常让人想要收藏或离线观看。对于技术爱好者而言，掌握自动化获取这些资源的能力不仅能提升效率，还能深入理解现代Web应用的运行机制。本文将带你从零开始构建一个高效的B站视频爬取工具，重点解决登录态维持和多线程优化等核心问题。

1. 环境配置与基础准备

工欲善其事，必先利其器。在开始爬取工作前，我们需要搭建一个稳定可靠的开发环境。以下是必要的工具和库：

Python 3.7+：推荐使用最新稳定版
Selenium：浏览器自动化工具
ChromeDriver：与Chrome浏览器配套的驱动
Requests：高效的HTTP请求库
BeautifulSoup4：HTML解析工具

安装这些依赖非常简单：

pip install selenium requests beautifulsoup4

提示：ChromeDriver版本必须与本地安装的Chrome浏览器版本匹配，否则会出现兼容性问题。

配置过程中常见的几个坑点：

浏览器驱动路径问题：建议将ChromeDriver放在系统PATH目录，或直接在代码中指定绝对路径
浏览器自动更新：禁用Chrome自动更新，避免驱动版本不匹配
防火墙设置：确保开发环境能够正常访问外部网络

2. 登录态维持与Cookie管理

B站对未登录用户和已登录用户提供不同的视频清晰度，这是我们需要处理登录态的主要原因。传统模拟登录方式需要处理验证码等复杂机制，而Cookie注入提供了一种更优雅的解决方案。

Cookie获取流程：

人工登录一次B站账号
使用Selenium获取登录后的Cookie
将Cookie序列化存储到本地文件

以下是实现代码示例：

from selenium import webdriver
import json
import time

def save_cookies():
    driver = webdriver.Chrome()
    try:
        driver.get('https://www.bilibili.com/')
        input("请手动登录后按回车继续...")  # 留出时间手动登录
        cookies = driver.get_cookies()
        with open('bilibili_cookies.json', 'w') as f:
            json.dump(cookies, f)
    finally:
        driver.quit()

Cookie复用机制：

def load_cookies(driver):
    with open('bilibili_cookies.json', 'r') as f:
        cookies = json.load(f)
    driver.get('https://www.bilibili.com/')  # 必须先访问域名
    for cookie in cookies:
        driver.add_cookie(cookie)
    driver.refresh()  # 刷新使Cookie生效

注意：Cookie