【selenium】拼接xpath点击伪元素思路

原创已于 2023-03-07 23:31:42 修改 · 1k 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

网络爬虫

于 2023-03-07 13:09:59 首次发布

本文介绍了如何使用Selenium结合XPath来定位和提取含有伪元素的网页数据。作者通过示例详细阐述了从页面元素的层级结构中逐步定位目标数据的过程，最终成功获取到a标签中的data-obj值。此外，文章还提及了CSS和JS作为替代方法的可能性。

【网络爬虫】selenium拼接xpath点击伪元素思路

在使用selenium的过程中经常遇到含有伪元素的页面，分享下我拼接xpath的思路。
实例网站拉钩
目标数据位置如下
在这里插入图片描述
右键复制的xpath是这样的

//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/span/div/div/h2/a

放到代码中执行
在这里插入图片描述
没找到，尝试找他整体数据的位置

下边是目标数据的位置上面是整体数据的位置
尝试拿整体数据的位置看看能不能找到数据

//*[@id="jobList"]/div[1]/ul/li[1]

代入代码执行
在这里插入图片描述
xpath有效数据也有继续往下看下面那个div没有before就先跳过看再下面一个div

就是这个div 看看有没有数据 xpath是

//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]

代入代码执行
在这里插入图片描述
数据也是有的继续往下看看这个span

xpath是这个

//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/span

在这里插入图片描述
执行发现想要的数据没了但是相关的数据在那我看一下这个数据在element的位置在哪
定位的是上面的span 结果到了下面的span 然后发现想要的数据在和span同级的div里所以修改一下 xpath 看看能不能取到数据

//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/div

在这里插入图片描述
这次是我们想要的了再往下继续找

xpath 添加h2

//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/div/h2

在这里插入图片描述
结果没问题因为我想要的是a里的data-obj的值所以需要继续找a
最终xpath为

//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/div/h2/a

这就是最终的结果了
在这里插入图片描述
这是我的一个思路相对来说比较麻烦 css和js比较好的可以用css和js找
这个是css和js的方法

这是完整的代码

import time
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By



# 1.创建浏览器
web = Chrome()

# 2.输入网址
web.get("http://lagou.com")

time.sleep(3)

# 3.获取需要的内容

# 由于页面有个广告，需要先处理
btn_element = web.find_element(By.XPATH, '//*[@id="cboxClose"]')  # 在页面中找到x，去点击它
btn_element.click()  # 点击

time.sleep(2)
x = '//*[@id="jobList"]/div[1]/ul/li[1]'
d = web.find_element(By.XPATH, x)
print(x,d.text)

x = '//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]'
d = web.find_element(By.XPATH, x)
print(x,d.text)

x = '//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/span'
d = web.find_element(By.XPATH, x)
print(x,d.text)

x = '//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/div'
d = web.find_element(By.XPATH, x)
print(x,d.text)

x = '//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/div/h2'
d = web.find_element(By.XPATH, x)
print(x,d.text)

x = '//*[@id="jobList"]/div[1]/ul/li[1]/div[1]/div[1]/div/h2/a'
d = web.find_element(By.XPATH, x)
data = d.get_attribute('data-obj')
print(x,d.text, data )

标签

#selenium #python #javascript