一般网页的图片地址是在img标签的src属性,这种数据采集器一般都能识别获取。
<img src="图片地址">
但是有些网站为了加快访问网页速度,延迟加载图片,会将真正的图片地址设置在自定义命名的属性,因为自定义属性命名方式各种各样的没有固定标准,可能会导致文章采集器智能识别获取图片失败的。
自定义命名属性例如:
<img src="占位小图片地址" origin-pc-src="真实图片地址">
<img src="占位小图片地址" lazy-loading-src="真实图片地址">
我们可以在浏览器(例chrome,火狐Firefox)打开对应的文章页面,右键查看网页源代码,然后用搜索功能(ctrl+F5)查看图片真实地址;
例如查找到图片地址在 lazy-loading-src 属性,打开简数采集器的文章详情提取器,content字段的【字段数据处理】--》【高级提取】--》在【图片链接属性】填写 lazy-loading-src,最后记得保存,就可以采集到对应的图片了。

文章讲述了网页中图片延迟加载技术导致采集器无法获取真实图片地址的问题。网站可能使用如origin-pc-src或lazy-loading-src等自定义属性存储真实图片链接。为解决此问题,用户可以在浏览器查看源代码寻找图片地址,然后在采集工具中设置相应的属性名,如在简数采集器的【图片链接属性】填写相应属性,以正确采集图片。
2112

被折叠的 条评论
为什么被折叠?



