在实现Node.js获取数据之前,先要了解什么是爬虫。
什么是爬虫
使用数据请求一段内容,然后将这段内容做数据清洗,最后在通过后端服务器发送到前台页面。
安装cheerio依赖包
安装命令是:npm install cheerio。
cheerio的功能是用来操作dom元素的,可以将request返回来的数据转换成可供dom操作的数据。

引入并使用

本文中,我们将要以京东的导航栏为例。
首先进入谷歌浏览器,右键选择“检测”,然后选择“Network”,就可以得到请求数据的网址:https://www.jd.com/。

数据请求使用get(),第一个参数位请求数据的地址,第二个参数为回调函数。

添加错误事件并把具体输出

头部请求

最后我们建立一个静态服务器

在终端中输入 node jd.js 再进入http://localhost:8000 这样我们完成了对导航栏数据的获取。
本文介绍如何使用Node.js和cheerio库进行网页数据抓取,以京东导航栏为例,详细讲解了从安装依赖、数据请求到静态服务器搭建的全过程。
2827

被折叠的 条评论
为什么被折叠?



