WeiboSpider: 强大的微博爬虫工具，支持爬虫用户信息抓取用户微博抓取用户社交关系抓取(粉丝/关注) 微博评论抓取基于关键词和时间段(粒度到小时)的微博抓取微博转发抓取字段说明项目基于weibo.cn站点抓取，抓取的字段非常丰富。具体请移步:数据字段说明

您所在的位置：网站首页 › 微信链接怎么转发微博群里的 › WeiboSpider: 强大的微博爬虫工具，支持爬虫用户信息抓取用户微博抓取用户社交关系抓取(粉丝/关注) 微博评论抓取基于关键词和时间段(粒度到小时)的微博抓取微博转发抓取字段说明项目基于weibo.cn站点抓取，抓取的字段非常丰富。具体请移步:数据字段说明

WeiboSpider: 强大的微博爬虫工具，支持爬虫用户信息抓取用户微博抓取用户社交关系抓取(粉丝/关注) 微博评论抓取基于关键词和时间段(粒度到小时)的微博抓取微博转发抓取字段说明项目基于weibo.cn站点抓取，抓取的字段非常丰富。具体请移步:数据字段说明

2024-06-02 16:07| 来源: 网络整理| 查看: 265

中文说明 | English

WeiboSpider

持续维护的新浪微博爬虫🚀🚀🚀

UPDATE: 一站式的科研数据服务平台socialsensor.top 已经全面上线!! 数据获取，数据开发，数据应用点点鼠标即可实现，欢迎交流合作👏👏👏

项目说明版本说明

该项目分为2个分支，以满足不同的需要

分支特点抓取量 master 单账号,单IP,单机器十万级 senior 账号池,IP池,Docker分布式数亿级(理论无上限) 支持爬虫用户信息抓取用户微博抓取用户社交关系抓取(粉丝/关注) 微博评论抓取基于关键词和时间段(粒度到小时)的微博抓取微博转发抓取字段说明

项目基于weibo.cn站点抓取，抓取的字段非常丰富。具体请移步:数据字段说明

如何使用拉取项目 && 安装依赖

本项目Python版本为Python3.6

git clone [email protected]:nghuyong/WeiboSpider.git --depth 1 --no-single-branch cd WeiboSpider pip install -r requirements.txt

除此之外，还需要安装mongodb.

替换Cookie

访问https://weibo.cn/

登陆账号，打开浏览器的开发者模式，再次刷新

复制weibo.cn这个数据包，network中的cookie值

将weibospider/settings.py中:

DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:61.0) Gecko/20100101 Firefox/61.0', 'Cookie':'SCF=AlvwCT3ltiVc36wsKpuvTV8uWF4V1tZ17ms9t-bZCAuiVJKpCsgvvmSdylNE6_4GbqwA_MWvxNgoc0Ks-qbZStc.; OUTFOX_SEARCH_USER_ID_NCOO=1258151803.428431; SUB=_2A25zjTjHDeRhGeBN6VUX9SvEzT-IHXVQjliPrDV6PUJbkdANLUvskW1NRJ24IEPNKfRaplNknl957NryzKEwBmhJ; SUHB=0ftpSdul-YZaMk; _T_WM=76982927613' }

Cookie字段替换成你自己的Cookie

如果爬虫运行出现403/302，说明账号被封/cookie失效，请重新替换cookie

添加代理IP(可选)

重写fetch_proxy方法，该方法需要返回一个代理ip

运行程序

可根据自己实际需要重写./weibospider/spiders/*中的start_requests函数

抓取用户信息 cd weibospider python run_spider.py user