阅读(80) (0)

scrapy 2.3 检查实时浏览器DOM时的注意事项

2021-06-16 11:44:48 更新

由于开发人员工具在一个活动的浏览器DOM上运行,所以在检查页面源代码时,您实际上看到的不是原始的HTML,而是应用了一些浏览器清理和执行javascript代码后修改的HTML。尤其是火狐,以添加 ​<tbody>​ 元素到表。另一方面,scrapy不修改原始页面html,因此如果使用 ​<tbody>​ 在xpath表达式中。

因此,您应该记住以下几点:

  • 检查DOM以查找要在Scrapy中使用的xpaths时禁用javascript(在“开发人员工具”设置中,单击 Disable JavaScript )
  • 不要使用完整的xpath路径,使用基于属性的相对路径和智能路径(例如 ​id​ , ​class​ , ​width​ 或任何识别特征,如 ​contains(@href, 'image')​ .
  • 从不包括 ​<tbody>​ xpath表达式中的元素,除非您真正知道自己在做什么