GraphQL接口采集:自动化发现和提取隐藏数据字段

简介: 本文围绕GraphQL接口采集展开,详解如何通过`requests`+`Session`自动化提取隐藏数据字段,结合爬虫代理、Cookie与User-Agent设置实现精准抓取。内容涵盖错误示例(传统HTML解析弊端)、正确姿势(GraphQL请求构造)、原因解释(效率优势)、陷阱提示(反爬机制)及模板推荐(可复用代码)。掌握全文技巧,助你高效采集Yelp商家信息,避免常见误区,快速上手中高级爬虫开发。

爬虫代理

本文将围绕 GraphQL接口采集 展开,重点介绍如何自动化发现和提取隐藏数据字段,使用 requests + Session 来构造 GraphQL 请求,配合爬虫代理、Cookie 和 User-Agent 设置,实现对 Yelp 商家信息的精准抓取。文章分为以下五个部分:

  • 错误示例:展示常见盲目爬取方式及其弊端
  • 正确姿势:基于 GraphQL API 的最佳实践步骤和示例代码
  • 原因解释:解析 GraphQL 抓取相比传统抓取的优势
  • 陷阱提示:讲解可能遇到的反爬与限流陷阱
  • 模板推荐:提供可复用的代码模板,方便中高级用户快速上手

通过本文,你将掌握从调试网络请求到高效采集隐藏字段的全流程技巧,避免常见误区,并获得一份可直接投入使用的 Python 模板。

错误示例

盲目解析页面 HTML

很多用户在不了解 GraphQL 机制时,仍然用传统的 BeautifulSoup 解析 Yelp HTML 页面,然后通过正则或 CSS Selector 抽取数据。这种方式弊端明显:

  1. 无法获取隐藏字段:Yelp 许多数据(如商家详细属性、内部 ID)仅在 GraphQL 响应中存在,HTML 中压根不包含。
  2. 解析成本高:页面嵌套层级多,维护成本极高,一次页面结构调整可能导致抓取全部失效。
  3. 带宽浪费:下载整页 HTML,提取部分数据,浪费网络与 IO 资源。
# 错误示例:直接抓取 HTML,再用 BeautifulSoup 解析
import requests
from bs4 import BeautifulSoup

resp = requests.get('https://www.yelp.com/search?find_desc=coffee&find_loc=San%20Francisco')
soup = BeautifulSoup(resp.text, 'html.parser')
for card in soup.select('.container__09f24__21w3G'):
    name = card.select_one('.link__09f24__1kwXV').text
    rating = card.select_one('.i-stars__09f24__1T6rz')['aria-label']
    # 隐藏字段无法获取……
    print(name, rating)

正确姿势

1. 利用浏览器调试定位 GraphQL 请求

打开浏览器开发者工具,切换到 Network → XHR/Fetch,输入关键词后观察到向 https://www.yelp.com/graphql 的 POST 请求,里面包含 operationName、query、variables 三部分内容。

2. 构造 GraphQL 查询

在抓包中复制请求体或手动构造,只请求所需字段(商家名称、评分、评论、地址及隐藏字段)。

3. 使用 requests.Session 设置爬虫代理、Cookie 和 User-Agent

import requests, random
import json

# 1. 配置爬虫代理(亿牛云爬虫代理示例 www.16yun.cn)
proxy_host = "proxy.16yun.cn"
proxy_port = "31111"
proxy_user = "16YUN"
proxy_pass = "16IP"
proxy_meta = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"

proxies = {
   
    "http": proxy_meta,
    "https": proxy_meta
}

# 2. 创建会话,并设置 Cookie 和 UA
session = requests.Session()
session.proxies.update(proxies)
session.headers.update({
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
                  "(KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36",
    "Content-Type": "application/json",
    # 如需模拟登录后的 Cookie,可通过 session.cookies.update(...)
})
# 可选:保持或强制切换 IP
session.headers["Proxy-Tunnel"] = str(random.randint(1, 100000))

# 4. 构造 GraphQL 查询体
graphql_query = """
query SearchBusiness($term: String!, $location: String!, $limit: Int!) {
  search(term: $term, location: $location, limit: $limit) {
    business {
      id
      name
      rating
      location { address1 city state zip_code }
      review_count
      # 隐藏字段示例
      hiddenFields { fieldKey fieldValue }
    }
  }
}
"""
variables = {
   
    "term": "coffee",
    "location": "San Francisco, CA",
    "limit": 10
}
payload = {
   "query": graphql_query, "variables": variables}

# 5. 发送请求并解析结果
resp = session.post("https://www.yelp.com/graphql", json=payload)
data = resp.json()
for biz in data["data"]["search"]["business"]:
    print(json.dumps(biz, ensure_ascii=False, indent=2))

该方案中,使用 Session 自动管理连接池和 Cookie( session.cookies ,并可持久化保存),通过精确的 GraphQL 查询一次获取所有目标字段,避免无效下载和解析。

原因解释

  • 精确请求:GraphQL 允许客户端声明所需字段,减少数据量和网络开销。
  • 高效维护:接口稳定,返回结构化 JSON,不易因前端 HTML 改动而失效。
  • 支持隐藏数据:GraphQL 查询可访问 API 内部字段(如 hiddenFields),传统解析方法难以获取。

陷阱提示

  1. API 限速:Yelp GraphQL 按数据点(points)限流,每 24h 限额 25000 点,超额后请求会被拒绝。
  2. 禁用 Introspection:部分生产环境关闭 introspection,需要逆向抓包获取请求模板。
  3. Auth/Header 校验:Yelp 可能校验 Authorization 或自定义头部,抓包时需完整复制所有请求头。
  4. Cookie 失效:若需登录状态,可先用 session.get 模拟登录,或手动设置 session.cookies,否则部分字段可能为空。

模板推荐

以下是可直接复用的测试模板,适合中高级用户集成到项目中:

import requests, random, json

def create_session_with_proxy():
    # 亿牛云代理配置 www.16yun.cn
    proxy_meta = "http://{user}:{pass}@{host}:{port}".format(
        host="proxy.16yun.cn", port="31111",
        user="16YUN", pass="16IP"
    )
    session = requests.Session()
    session.proxies = {
   "http": proxy_meta, "https": proxy_meta}
    session.headers.update({
   
        "User-Agent": "你的UA",
        "Content-Type": "application/json",
        "Proxy-Tunnel": str(random.randint(1,999999))
    })
    return session

def fetch_yelp_businesses(term, location, limit=20):
    session = create_session_with_proxy()
    query = """
    query SearchBusiness($term: String!, $location: String!, $limit: Int!) {
      search(term: $term, location: $location, limit: $limit) {
        business {
          id name rating review_count
          location { address1 city }
          hiddenFields { fieldKey fieldValue }
        }
      }
    }
    """
    payload = {
   "query": query, "variables": {
   
        "term": term, "location": location, "limit": limit
    }}
    resp = session.post("https://www.yelp.com/graphql", json=payload)
    return resp.json().get("data", {
   }).get("search", {
   }).get("business", [])

if __name__ == "__main__":
    results = fetch_yelp_businesses("pizza", "New York, NY", 5)
    print(json.dumps(results, ensure_ascii=False, indent=2))

通过上述模板,你可以灵活调整查询字段、关键词和位置,迅速构建高效稳定的爬虫工程。适合将此模块化后嵌入到更复杂的分布式框架或调度系统中。

相关文章
|
5月前
|
数据采集 数据可视化 JavaScript
用 通义灵码和 PyQt5 爬虫智能体轻松爬取掘金,自动化采集技术文章和数据
本文介绍了如何利用智能开发工具通义灵码和Python的PyQt5框架,构建一个自动化爬取掘金网站技术文章和数据的智能爬虫系统。通过通义灵码提高代码编写效率,使用PyQt5创建可视化界面,实现对爬虫任务的动态控制与管理。同时,还讲解了应对反爬机制、动态内容加载及数据清洗等关键技术点,帮助开发者高效获取并处理网络信息。
|
4月前
|
数据采集 运维 监控
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
2179 10
|
9月前
|
缓存 监控 API
微店商品详情API接口实战指南:从零实现商品数据自动化获取
本文介绍了微店商品详情API接口的应用,涵盖申请与鉴权、签名加密、数据解析等内容。通过Python实战演示了5步获取商品数据的流程,并提供了多平台同步、价格监控等典型应用场景。开发者可利用此接口实现自动化操作,提升电商运营效率,降低人工成本。文中还总结了频率限制、数据缓存等避坑指南,助力开发者高效使用API。
|
9月前
|
数据采集 消息中间件 API
微店API开发全攻略:解锁电商数据与业务自动化的核心能力
微店开放平台提供覆盖商品、订单、用户、营销、物流五大核心模块的API接口,支持企业快速构建电商中台系统。其API体系具备模块化设计、双重认证机制、高并发支持和数据隔离等特性。文档详细解析了商品管理、订单处理、营销工具等核心接口功能,并提供实战代码示例。同时,介绍了企业级整合方案设计,如订单全链路自动化和商品数据中台架构,以及性能优化与稳定性保障措施。最后,针对高频问题提供了排查指南,帮助开发者高效利用API实现电商数智化转型。适合中高级开发者阅读。
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
1677 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
11月前
|
存储 测试技术 API
pytest接口自动化测试框架搭建
通过上述步骤,我们成功搭建了一个基于 `pytest`的接口自动化测试框架。这个框架具备良好的扩展性和可维护性,能够高效地管理和执行API测试。通过封装HTTP请求逻辑、使用 `conftest.py`定义共享资源和前置条件,并利用 `pytest.ini`进行配置管理,可以大幅提高测试的自动化程度和执行效率。希望本文能为您的测试工作提供实用的指导和帮助。
1321 15
|
2月前
|
数据采集 运维 监控
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南