爬虫技术可以抓取到淘宝天猫京东订单页的数据吗? 您所在的位置:网站首页 爬虫抓取淘宝销量数据 爬虫技术可以抓取到淘宝天猫京东订单页的数据吗?

爬虫技术可以抓取到淘宝天猫京东订单页的数据吗?

2023-03-22 06:47| 来源: 网络整理| 查看: 265

有关这个问题。前一阵开发过。

~~~2015,7,21补充代码地址。

应评论里几个知乎网友要求。我把代码放github了。先说一下。这些代码是自己思考和参考了nodejs以及网上很多资料的。也感谢他们。此外代码还一直没时间完善完毕。需要用的人还需要自己努力去完善才能使用。

地址:http://github.com/reichtiger/grampusSpider

---------------------------补充开始

用v8解析的核心就是欺骗网页js和框架。让它以为调用的对象就是浏览器对象。你构造的对象的属性和方法跟实际浏览器一样即可。这样好处是避开了图片和动画等的下载渲染布局等操作。节省cpu时间。谷歌的爬虫据说基于c++做的。而python有pyv8的库叫什么忘了。原理类同,只是效率低一些罢了。具体我没用过,可以咨询参考用过的高手。谢谢

---------------------------补充结束

普通的爬虫都是针对http的协议做的。但淘宝京东大量的ajax操作。因此需要带js引擎的爬虫才能应对。浏览器webkit可以。但自带了渲染。cpu消耗太高。并且多进程多线程时候复杂。

因此我用v8来实现ajax网页的抓取。基本原理是自己来实现ajax和html对象。提供给网页代码一个模拟的浏览器环境。context。这样可以运行成功。但对所有html对象的支持是比较麻烦的。有些对象需要保持。有的回调如settimeout。

但好处是可以后台运行。解析自定义js脚本。去抓取内容。目前普通网页ajax都没问题了。但淘宝用的自己的js框架。京东是jquery。还有一些个别函数未能支持。

继续努力中。原则上是都能抓到的。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有