【GUI软件】小红书详情数据批量采集,含笔记内容、转评赞藏等,支持多笔记同时采集! 您所在的位置:网站首页 如何抓取小红书数据 【GUI软件】小红书详情数据批量采集,含笔记内容、转评赞藏等,支持多笔记同时采集!

【GUI软件】小红书详情数据批量采集,含笔记内容、转评赞藏等,支持多笔记同时采集!

2024-06-18 03:46| 来源: 网络整理| 查看: 265

一、背景介绍1.1 爬取目标

您好!我是 @马哥python说 ,一名10年程序猿。

我用python开发了一个爬虫采集软件,可自动按笔记链接抓取笔记的详情数据。

为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!

软件界面截图:

软件运行界面

爬取结果截图:

结果截图1结果截图2结果截图3

以上。

1.2 演示视频

软件使用演示:

1.3 软件说明

几点重要说明:

Windows用户可直接双击打开使用,无需Python运行环境,非常方便!

需要填入cookie中的a1值和web_session值

支持同时爬多个笔记的详情数据

爬取过程中,有log文件详细记录运行过程,方便回溯

爬取完成后,自动导出结果到csv文件

可爬取15个字段,含:笔记id,笔记链接,笔记标题,笔记内容,笔记类型,发布时间,修改时间,IP属地,点赞数,收藏数,评论数,转发数,用户昵称,用户id,用户主页链接。

以上。

二、代码讲解2.1 爬虫采集模块

首先,定义接口地址作为请求地址:

定义一个请求头,用于伪造浏览器:

说明一下,cookie是个关键参数。

其中,cookie里的a1和web_session获取方法,如下:

查看a1和web_session

这两个值非常重要,软件界面需要填写!!

加上请求参数,告诉程序你的爬取条件是什么:

下面就是发送请求和接收数据:

逐个解析字段数据,以"笔记标题"为例:

熟悉xhs的朋友都知道,有些笔记是没有标题的,所以这里加上try保护,防止程序报错导致中断运行。

其他字段同理,不再赘述。

最后,是把数据保存到csv文件:

这里采用csv库保存数据,方便每爬取一条笔记数据,快速保存到csv文件中。

完整代码中,还含有:判断循环结束条件、转换时间戳、js逆向解密等关键实现逻辑,详见文末。

2.2 软件界面模块

主窗口部分:

输入控件部分:

底部版权部分:

以上。

2.3 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。

核心代码:

日志文件截图:

日志文件截图

以上。

三、获取源码及软件

爱学习的小伙伴,本次分析过程的完整python源码及exe软件,我已打包好,并上传至我的微信公众号"老男孩的平凡之路",后台回复"爬小红书详情软件"即可获取。

我是@马哥python说,一名10年程序猿,持续分享Python干货中!

推荐阅读另外两篇GUI软件:



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有