前面文章我们写了通过 post 请求方式采集 Ajax 类网站的教程,另外有很多瀑布流 Ajax 加载的网站无需 post 数据,直接可以找出列表页地址采集。下面介绍几种常见的瀑布流网站采集。
1.加载新内容会更新 URL 地址
这类网站时最好采集的,他的 Ajax 只是实现了页面不刷新的情况下加载新的内容。但是列表 URL 会直接在浏览器地址栏显示出来。我们可以直接访问到列表页数据。
示例网站:https://mnews.pro/category/yjs
这个站页面下拉会加载第二页,同时浏览器 URL 变为
https://mnews.pro/category/yjs/page/2
访问/page/2 地址并 Ctrl+U 可直接查看到文章数据。
这种我们直接可以在火车头使用常规方式采集即可。
列表页数可以试用笨方法直接更改页码测试有多少页数据即可。
2.加载新内容不更新 URL
示例网站
https://demo.wpcom.cn/justnews/category/%e4%ba%a7%e5%93%81%e8%ae%be%e8%ae%a1
这个站点的列表页我们下拉会自动加载第二页内容。但是浏览器地址栏并不会更新 URL。
实际上他的第二页列表地址是存在的,而且可以直接访问并查看到内容。
对于这类站点,我建议是直接手动访问列表页地址。同样不使用 post 数据方式请求。
https://demo.wpcom.cn/justnews/category/%e5%88%9b%e4%b8%9a%e5%88%86%e4%ba%ab/page/2
可以访问上面地址看下内容。
然后使用常规采集方式即可。
但是我举例的网站都是 wordpress 站点,对于其他站点来说,你不一定能找得到他的分页 URL 地址规则。
这时候我们也可以是继续用 post 方式进行获取文章列表。
post 地址可以在浏览器中查看。
还没有人赞赏,快来当第一个赞赏的人吧!
- 2¥
- 5¥
- 10¥
- 20¥
- 50¥