Python网络爬虫与信息提取（四）bs4的内容遍历方法及注意事项

最新推荐文章于 2025-01-08 20:18:32 发布

原创

最新推荐文章于 2025-01-08 20:18:32 发布 · 4.5k 阅读

收录于

当前文章被以下社区和专栏收录：

本文介绍了Python网络爬虫中BeautifulSoup库（bs4）的内容遍历方法，包括下行遍历、上行遍历和平行遍历。重点讲解了遍历HTML节点时如何处理子节点、父节点，特别是使用.children和.descendants属性进行迭代，并提醒在遍历过程中注意soup节点的特殊情况。此外，文章预告了对NavigableString与标签区分的深入探讨。

HTML文本是一种树形结构，所以bs4的内容遍历方法也是基于树形结构的，它共有下行遍历、上行遍历和平行遍历这三种遍历方法。

标签树的下行遍历
属性	说明
.contents	子节点的列表，将<tag>所有子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历