网页数据翻页采集方法（最全）

您所在的位置：网站首页 › 数据采集器英文叫什么 › 网页数据翻页采集方法（最全）

网页数据翻页采集方法（最全）

2024-06-03 10:42| 来源: 网络整理| 查看: 265

教程首页功能点 8.0功能点【8.0】特殊翻页：加载更多/... 【8.0】特殊翻页：加载更多/滚动翻页/数字翻页

2019-11-11 10:03:36 阅读量： 40050

点击【下一页】按钮，是最常见的翻页方式。但有的网页翻页方式比较特殊，例如：

一、点击【加载更多】或【再显示20条】等按钮翻页

二、向下滚动页面进行翻页

三、无【下一页】按钮，点击数字进行翻页

对于以上3种特殊的方式，我们该如何设置翻页，以完整的采集出数据呢？以下将分三种情况详细介绍。

一、点击【加载更多】或【再显示20条】等按钮翻页

示例网址：http://junyueshanyc.fang.com/dianping/

打开这个网页之后可以看到，页面有【再显示20条】这个按钮。通过不断点击【再显示20条】实现翻页。

鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

Step1. 先按照 8.0新手入门第7课：翻页以采集多页数据的方法，创建一个【循环翻页】。选中并点击网页中【再显示20条】这个按钮，然后在操作提示中选择【循环点击单个链接】。

特别说明：

a. 打开【流程图】。以上操作之后，系统会自动添加一个【循环翻页】步骤到流程中。

b. 一般【再显示20条】这种按钮，都使用了Ajax技术，需要设置【Ajax超时】。八爪鱼会自动判断Ajax网页，并为其设置【Ajax超时】。值得注意的是，系统设置的【Ajax超时】时间一般较短，如果需要请自行延长时间。Ajax是什么？【Ajax超时】设置多长？点击查看Ajax教程。

Step2. 【循环翻页】建好以后，我们手动执行规则，检查翻页步骤是否正确。可以看到，执行第1次【点击翻页】，正常点击1次，加载出新数据。执行第2次【点击翻页】，发现没有正常点击，没有加载出新数据。

为什么？检查发现，执行第2次【点击翻页】时，循环列表中提示【找不到与该Xpath表达式匹配的元素】，说明定位XPath此时没有定位到【再显示20条】这个按钮。我们需要写一条正确的定位XPath。

如何写一条正确的定位XPath？需要我们掌握一定的XPath知识，点击查看【8.0】XPath学习与实例教程。根据此网页【再显示20条】的源码特征，我们可以写一条定位XPath：//a[text()='再显示20条'] 。检查发现，这条XPath：//a[text()='再显示20条'] ，是可以正常定位到每一个【再显示20条】按钮的。

选中【循环翻页】，将写好的xpath：.//a[text()='再显示20条']，复制到【单个元素】后面的文本框中，替换掉原来的，并点击【确定】保存。再次手动执行规则，当页面中有【再显示20条】按钮时，八爪鱼都能定位到，正常点击翻页。当页面中的按钮变成【没有更多点评】时，八爪鱼定位不到按钮，自动结束翻页，满足我们的采集需求。

Step3. 接下来按照需求提取数据。在这里，我们按照列表数据采集方法，建一个【循环列表】。启动采集后发现，原本全部评论只有42条，八爪鱼却采集到103条，重复62条。为什么？

Step6. 在 8.0新手入门第9课：采集原理与流程执行逻辑中，我们讲过，流程的执行逻辑是先从上至下、再由内而外。那这里流程的执行逻辑是：

打开网页，采默认展示的20条数据。执行第1次翻页，采展示的40条数据（包括默认的20条）。执行第2次翻页，采展示的42条数据。（包括默认的20条+第1次翻页后的40条）。如此循环下去，数据会一直重复。

因此，对于这种类型的网页，流程应该：先点击【再显示20条】完成翻页，把所有数据都展示出来之后，再提取数据。这样就不会有重复数据了。因此，我们选中整个【循环-提取数据】步骤，将其拖到【循环翻页】之后。

最终的流程图如下图所示：

特别说明：

a. 八爪鱼在导出数据时，支持数据去重。如果不介意采集过程中有重复数据，也可不调整流程逻辑。

二、向下滚动页面进行翻页

示例网址：https://www.toutiao.com/

打开网页，发现数据是随着页面滚动而不断加载新数据。此类网页请点击查看【8.0】处理滚动加载数据的网页教程。

三、无“下一页”按钮，点击数字进行翻页

示例网址如：http://stock.cngold.org/news/

打开网页发现，此网页没有【下一页】按钮，是通过点击数字进行翻页的。

在八爪鱼中，可以进行相应设置，让八爪鱼不断点击数字进行翻页：当前页是第1页，点第2页；当前页是第2页，点第3页.......当前页是最后1页，结束【循环翻页】。

所以问题的关键是：需要写一条XPath，使其始终能定位到当前页的下一页（最后1页除外）。需要大家有一定的XPath知识，点击学习【8.0】XPath学习与实例。以下为具体步骤。

Step1. 写一条XPath，使其始终能定位到当前页的下一页（最后1页除外）。分2步：先定位到当前页；再定位到当前页的下一页。打开火狐浏览器，用XPath工具观察此网页页码的网页源码。点击查看火狐XPath工具安装教程。

先定位到当前页。

当前页分别是第1页、第2页、第3页......最后1页时，观察网页源码的特征。我们发现：当前页的源码是span标签，而其他页则是a标签。

特别说明：

a. 这个网页，当前页和其他页的源码区别非常明显。但有的网页可能没这么明显，请大家耐心去找到当前页和其他页的源码区别。

继续观察当前页源码中span标签的特征，找到具有唯一性的那个特征。我们发现，当前页对应的span标签，具有class属性，且class属性的属性值为thisclass。根据这个特征，写出一条定位XPath：//span[@class="thisclass"] 。

检查后发现，能定位到每个当前页。

再定位到当前页的下一页。

在XPath中，【following-sibling:: 】函数可实现。【following-sibling:: 】的意思是，定位到当前标签后面的所有同级标签。

a. 什么是同级标签？HTML文档是树状结构，标签之间具有层级性。同级标签即处于同一层级的标签。

//span[@class="thisclass"]定位到了class属性值为thisclass的span标签，这个span标签后面的同级标签是a标签。则 //span[@class="thisclass"]/following-sibling::a ，就定位到了此span标签后面的所有同级a标签。

由于我们是需要定位到当前页的下一页，所以只需要定位到第一个a标签，在a后面加上[1]即可。最终的定位XPath为：//span[@class='thisclass']/following-sibling::a[1]

检查后发现，能定位到每个当前页的下一页（除最后1页）。

Step2. 在八爪鱼中创建一个【循环翻页】。往流程中拖入一个【循环】步骤，选择循环方式为【单个元素】，将上面写好的XPath：//span[@class='thisclass']/following-sibling::a[1]，复制到【单个元素】后面的文本框中，点击【确定】保存。

再往【循环】里面拖入一个【点击元素】的步骤，勾选【点击当前循环中设置的元素】，设置Ajax超时时间为7秒，然后点击【确定】保存。手动执行一个规则，发现可正常翻页。

接下来就是按需提取数据了，不再赘述。

作者：Bin

编辑：Aisling

上一篇：【8.0】批量输入关键词查询，... 下一篇：【8.0】判断条件使用场景与设...

【本文地址】

公司简介

联系我们