利用 html_table 函数轻松获取网页中的表格数据

简介: 本文介绍了如何使用 R 语言中的 `html_table` 函数结合代理 IP 技术,轻松提取网页表格数据并规避反爬机制。通过设置代理和请求头,示例代码展示了如何从 58 同城采集租房信息并保存为 CSV 文件。该方法适用于需要频繁采集数据的场景,确保数据采集的高效和稳定性。

爬虫代理

背景/引言

在数据爬取的过程中,网页表格数据往往是研究人员和开发者的重要目标之一。无论是统计分析、商业调研还是信息整理,表格数据的结构化特性都使其具有较高的利用价值。然而,如何快速、准确地从网页中提取表格数据始终是爬虫技术的一个挑战。

本文将介绍如何利用 R 语言中的 html_table 函数轻松提取网页表格数据,并结合代理 IP 技术(以爬虫代理为例)实现对反爬机制的规避,最终采集 www.58.com 的租房信息。

正文

1. 了解 html_table 函数

html_table 是 R 语言中 rvest 包的一个重要函数,用于将 HTML 文档中的表格节点转换为 R 中的 data.frame,极大地简化了表格数据的提取流程。

使用 html_table 的基本步骤包括:

  1. 下载 HTML 文档。
  2. 使用 CSS 选择器定位表格节点。
  3. 调用 html_table 函数解析表格。

2. 使用代理 IP 提升效率

很多网站(如 www.58.com)会对频繁的访问进行限制,常见的限制手段包括 IP 限制、User-Agent 检测、Cookie 校验等。通过使用代理 IP,可以有效地降低被限制的风险。

在本文示例中,我们将参考爬虫代理的域名、端口、用户名、密码,并结合 httr 包实现代理设置。

3. 请求头设置

为了模拟真实用户的访问,我们需要在请求中加入 User-AgentCookie

实例

下面的代码展示了如何结合 R 语言、html_table 函数以及代理技术采集 www.58.com 的租房信息,并将数据保存到文件中。

# 加载必要的库
library(rvest)
library(httr)
library(xml2)

# 设置代理IP信息(以亿牛云爬虫代理加强版为例 www.16yun.cn)
proxy_url <- "http://proxy.16yun.cn:端口"
proxy_user <- "用户名"
proxy_pass <- "密码"

# 自定义请求头
headers <- c(
  "User-Agent" = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.1 Safari/537.36",
  "Cookie" = "your_cookie_here"
)

# 目标网页URL
url <- "https://www.58.com/chuzu"

# 使用代理发送请求
response <- GET(
  url,
  config = use_proxy(url = proxy_url, username = proxy_user, password = proxy_pass),
  add_headers(.headers = headers)
)

# 检查响应状态
if (status_code(response) == 200) {
   
  # 解析HTML文档
  html_content <- content(response, as = "text", encoding = "UTF-8")
  parsed_html <- read_html(html_content)

  # 提取表格数据
  tables <- html_nodes(parsed_html, "table") # 定位所有表格

  if (length(tables) > 0) {
   
    table_data <- html_table(tables[[1]], fill = TRUE) # 提取第一个表格

    # 查看提取结果
    print(table_data)

    # 保存数据到文件
    write.csv(table_data, file = "rent_info.csv", row.names = FALSE)
    cat("数据已保存到文件:rent_info.csv\n")
  } else {
   
    cat("未找到任何表格\n")
  }
} else {
   
  cat("请求失败,状态码:", status_code(response), "\n")
}

代码解析

  1. 代理设置
    • 使用 use_proxy 函数设置代理。
    • 提供代理的域名、端口、用户名和密码。
  2. 请求头设置
    • 使用 add_headers 函数自定义 User-AgentCookie
    • 通过设置合适的 User-Agent 模拟真实浏览器行为。
  3. 表格提取与保存
    • 使用 html_nodes 定位表格节点。
    • 使用 html_table 解析表格内容为 data.frame
    • 调用 write.csv 函数将提取的数据保存为 CSV 文件。
  4. 错误处理
    • 检查响应状态码,确保请求成功。
    • 提供备用逻辑处理未找到表格的情况。

结论

通过本文的介绍,我们可以看到,利用 R 语言的 html_table 函数结合代理 IP 技术,不仅能够轻松提取网页表格数据,还可以有效规避网站的反爬策略。在实际应用中,合理设置请求参数和优化代码逻辑是保证数据采集效率的关键。

对于需要频繁采集或高频访问的网站,建议使用商业代理服务(如爬虫代理),以保障数据采集的稳定性和合法性。

通过上述方法,开发者可以快速获得目标表格数据,为后续的数据分析和挖掘提供坚实的基础。

相关文章
|
11月前
|
存储 数据采集 JSON
你知道吗?html_table可以提取的不止是表格
`html_table` 是一种强大的工具,不仅用于HTML表格解析,还在现代爬虫技术中发挥重要作用。它可以提取、整合、分析和传输多种类型的关键数据。本文从四个方面探讨其功能:关键数据提取(如财经网站的股票信息)、零散信息整合(如电商网站的产品详情)、数据对比分析(如手机性能参数对比)和数据存储与传输(如转换为CSV/JSON格式)。通过Python代码示例,展示了如何利用代理IP、多线程和自定义请求头提高爬虫效率,实现对复杂网页数据的全面抓取和利用。
373 12
你知道吗?html_table可以提取的不止是表格
|
9月前
|
移动开发 前端开发 JavaScript
HTML5实现好看的劳动节网页源码
HTML5实现好看的劳动节网页源码,劳动节网页,劳动节网页源码,内置十个页面,各种模板都有,可以根据这些页面扩展更多页面,网页由网站首页、劳动节介绍、劳动节由来、劳动节习俗、劳动节文化、劳动节活动、劳动节故事、劳动节民谣、联系我们、登录/注册等页面组成,兼容手机端,页面干净整洁,内容丰富,可以扩展自己想要的,注释完整,代码规范,各种风格都有,代码上手简单,代码独立,可以直接运行使用。也可直接预览效果。
311 4
|
9月前
|
移动开发 HTML5
HTML5实现好看的中秋节网页源码
HTML5实现好看的中秋节网页源码,中秋节网页,中秋节网页源码,节日网页大作业,作业源码,内置十个页面,各种模板都有,可以根据这些页面扩展更多页面,网页由网站首页、中秋节介绍、中秋节由来、中秋节习俗、中秋节文化、中秋节美食、中秋节故事、中秋节民谣、联系我们、登录/注册等页面组成,兼容手机端,页面干净整洁,内容丰富,可以扩展自己想要的,注释完整,代码规范,各种风格都有,代码上手简单,代码独立,可以直接运行使用。也可直接预览效果。
462 0
HTML5实现好看的中秋节网页源码
|
10月前
|
移动开发 前端开发 JavaScript
HTML5实现好看的端午节网页源码
HTML5实现好看的端午节网页源码,包含十个页面:网站首页、端午节介绍、由来、习俗、文化、美食、故事、民谣、联系我们及登录/注册。页面设计简洁美观,内容丰富,兼容手机端,代码规范且注释完整,易于扩展和修改。提供完整的源码下载和视频演示,方便学习和使用。
306 3
|
10月前
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
10月前
|
存储 移动开发 JavaScript
网页 HTML 自动播放下一首音乐
在 HTML5 中实现自动播放下一首音乐,通过管理音乐列表、操作音频元素和监听事件完成。创建包含多个音乐链接的列表,使用 `&lt;audio&gt;` 元素加载音乐,监听 `ended` 事件,在当前音乐结束时自动播放下一首。示例代码展示了如何使用 JavaScript 实现这一功能,确保无缝切换音乐。
|
11月前
|
存储 JavaScript 算法
(html在线预览cad图纸插件)网页CAD绘制条形码、二维码的教程
本文介绍了如何在mxcad中绘制条形码和二维码。对于条形码,首先根据应用场景选择合适的编码标准(如CODE39、EAN13等),通过编码规则将数据转换为二进制,并利用`McDbHatch`绘制条和空的组合,同时支持自定义实体及属性管理。 对于二维码,因其能存储更多信息且具备更强纠错能力,采用开源库QRCode.js进行编码处理,再通过`McDbHatch`绘制黑白矩阵,同样封装成自定义实体以便管理和扩展。文中还给出了完整的绘制流程与效果展示,包括创建二维码对象、设置参数、调用绘制方法以及最终的效果图。整个过程体现了灵活运用API与第三方库来实现复杂图形绘制的能力。
HTML在线扫雷游戏网页源码
HTML在线扫雷游戏网页源码是一款基于HTML+CSS+JavaScript开发的在线扫雷小游戏单页源码,为用户提供了一个无需安装即可在浏览器中直接玩的扫雷游戏。该游戏的源码不仅包含了完整的游戏逻辑,还具备丰富的界面设计和用户交互功能,使得玩家能够轻松上手并享受扫雷带来的乐趣。
462 22
|
数据采集 移动开发 前端开发
HTML代码的革命:语义化标签的魅力,让你的网页结构焕然一新!
【8月更文挑战第26天】本文探讨了Web前端开发中的语义化标签概念及其重要性。语义化标签通过使用具有明确含义的HTML标签来构建页面结构,提升了网页的可访问性及搜索引擎优化效果,并增强了代码的可读性和维护性。文章还讨论了实际开发中遇到的问题及未来发展趋势。
312 0
|
数据采集 移动开发 搜索推荐
HTML基础-HTML5新增语义标签:解锁网页结构新维度
【6月更文挑战第5天】本文介绍了HTML5的语义标签,旨在提升网页结构化和可访问性。核心语义标签包括`&lt;header&gt;`、`&lt;nav&gt;`、`&lt;main&gt;`、`&lt;article&gt;`、`&lt;section&gt;`、`&lt;aside&gt;`、`&lt;footer&gt;`、`&lt;figure&gt;`和`&lt;figcaption&gt;`。常见问题包括滥用标签作布局工具、忽略`&lt;main&gt;`、不恰当嵌套和忽视辅助功能。
373 3