HTML文本是一种树形结构,所以bs4的内容遍历方法也是基于树形结构的,它共有下行遍历、上行遍历和平行遍历这三种遍历方法。
| 属性 | 说明 |
| .contents | 子节点的列表,将<tag>所有子节点存入列表 |
| .children | 子节点的迭代类型,与.contents类似,用于循环遍历子节点 |
| .descendants | 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历 |
我们仍以上一节中的网页为例用bs4对其进行处理
本文介绍了Python网络爬虫中BeautifulSoup库(bs4)的内容遍历方法,包括下行遍历、上行遍历和平行遍历。重点讲解了遍历HTML节点时如何处理子节点、父节点,特别是使用.children和.descendants属性进行迭代,并提醒在遍历过程中注意soup节点的特殊情况。此外,文章预告了对NavigableString与标签区分的深入探讨。
HTML文本是一种树形结构,所以bs4的内容遍历方法也是基于树形结构的,它共有下行遍历、上行遍历和平行遍历这三种遍历方法。
| 属性 | 说明 |
| .contents | 子节点的列表,将<tag>所有子节点存入列表 |
| .children | 子节点的迭代类型,与.contents类似,用于循环遍历子节点 |
| .descendants | 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历 |
1万+
1118
4433
1万+
3350
3087

被折叠的 条评论
为什么被折叠?