Python 爬虫与数据库结合：如何将爬取的数据存储到 MySQL、MongoDB

最新推荐文章于 2026-07-03 15:54:54 发布

原创

最新推荐文章于 2026-07-03 15:54:54 发布 · 1.1k 阅读

🧭 引言：为什么需要将爬取的数据存储到数据库？

爬虫通常用于从网页或网站中提取大量的数据。在实际的爬虫项目中，我们通常需要将抓取到的数据进行持久化存储，以便后续的处理、分析或使用。数据库作为一种结构化的数据存储方式，是存储爬虫数据的理想选择。

在本文中，我们将重点介绍如何将爬虫抓取到的数据存储到常见的两种数据库：MySQL 和 MongoDB。你将学习如何选择合适的数据库、如何连接和操作这些数据库、以及如何将数据以高效的方式存储到它们中。

⚡ 一、MySQL：关系型数据库的应用

1. 为什么使用 MySQL？

MySQL 是一种关系型数据库，适用于存储结构化数据。如果爬取的数据符合表格化结构，且需要进行复杂查询（如筛选、排序、关联等），MySQL 会是一个不错的选择。它支持SQL查询语言，具有高效的数据查询和插入功能，且能保证数据的完整性和一致性。

2. 安装 MySQL

在开始之前，需要确保 MySQL 数据库已经安装并运行。如果你没有安装 MySQL，可以参考 MySQL 官方文档来进行安装。

安装 Python 的 MySQL 驱动：

pip install mysql-connector-python

3. 创建数据库和表

首先，我们需要在 MySQL 中创建一个数据库和表，用于存储爬取的数据。假设我们爬取的是一个简单的文章网站，数据包含标题、链接、发布日期等信息。

CREATE DATABASE crawler_db;

USE crawler_db;

CREATE TABLE articles (
    id INT AUTO_INCREMENT PRIMARY KEY,
    title VARCHAR(255) NOT NULL,
    link VARCHAR(255) NOT NULL,
    pub_date DATETIME NOT NULL
);

4. 爬虫与 MySQL 结合：数据存储示例

接下来，介绍如何将爬取的数据存储到 MySQL 中。我们使用 Python 的 mysql-connector 来连接数据库。

示例代码：

import requests
from bs4 import BeautifulSoup
import mysql.connector
from datetime import datetime

# 连接 MySQL 数据库
def connect_db():
    return mysql.connector.connect(
        host="localhost",
        user="root",  # 数据库用户名
        password=<