爬虫:爬取知乎评论2024 您所在的位置:网站首页 点石文具上市了吗知乎文章 爬虫:爬取知乎评论2024

爬虫:爬取知乎评论2024

2024-06-02 05:23| 来源: 网络整理| 查看: 265

爬虫:知乎爬取评论2024

注:本文仅为兴趣爱好探究,请勿进行商业利用或非法研究,负责后果自负,与本文作者无关

一.总体概述

继上次爬取小红书评论之后,由于比赛需要,需要爬取更多平台的评论,这里盯上了知乎

同样的,爬取的数据包括了

评论者昵称,评论者id,性别,地区,评论内容,评论时间,评论等级

上效果图

二.爬虫过程

老规矩,打开对应页面f12

image-20240228212040502

搜索想要爬取的关键词,点击展开评论,可以看到这个xhr请求返回了json格式的评论数据

image-20240228212129685

翻页根据offset进行

https://www.zhihu.com/api/v4/comment_v5/answers/1459060852/root_comment?limit=10&offset=25370407_1053121143_0&order_by=score

翻页逻辑如下

image-20240228212337159

爬取子评论逻辑

image-20240228212403321

并发逻辑

image-20240228212437730

获取offset值逻辑

image-20240228212505225

数据处理

image-20240228212700997

最后这里笔者发现了一个更快更好的接口,现在f12发现的接口会有反爬限制,需要每次爬取之后都要更改header头x_zse_93和96的值,这个接口只需要有个cookie即可

image-20240228183129549

强烈推荐第二个老接口

三. readme

cookie必需!!

网页版知乎登录后,搜索想要关键词

image-20240228212745448

在下列评论多的问题中进行点击评论或者直接点入该问题

image-20240228212841553

对应的数据id字段即为必需填入脚本id字段

image-20240228213058857

image-20240228212940076

image-20240228212951976

在代码14行进行填入即可,可填入多个

效果如下

image-20240228213014346

原文链接

爬虫: 知乎爬取评论2024

关注公众号 剑客古月的安全屋

回复 2024知乎爬虫获取源码



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有