python爬虫需求分析

2024-06-18 02:57| 来源: 网络整理| 查看: 265

爬虫是获取数据一种方式，能够按照一定规则自动抓取某个网站或者万维网信息的程序；现实环境中很大一部分网络访问都是由爬虫造成的；我们来看一个常见应用场景：

当我们使用百度或者其他搜索引擎搜索某个关键字的时候，搜索结果中会包含对应的内容，比如：搜索Python，搜索结果可能包括Python官网，Python相关文章等信息，可是这些信息分布在不同的网站上，那么问题来了：这些搜索引擎是如何知道这些信息与相对应的地址呢？可能的答案，搜索引擎获取网站相关数据及对应的地址；在来思考一个问题，python的官网应该不可能主动把相应数据给这些搜索引擎公司，那么这些数据是如何获取的呢？最可能的答案，搜索引擎公司按照一定的规则将这些网站的信息抓取下来，保存到本地，然后对数据进行清洗处理，这些数据是搜索网站的基础，而获取数据过程就是爬虫所做的事情。

根据爬取方式不同我们可以将爬虫分为两类：

1.增量型爬虫：不会限制抓取数据属性，比如Google, baidu搜索巨头都是增量型爬虫；他们无时无刻不在抓取数据，还会根据一定算法评价网站的好坏，定期抓取最新数据，以保证他们的搜索结果时效性，正确性；

2.批量型爬虫：限制抓取的属性，抓取特定网站的信息；比如：我们要做人脸识别，如果没有足够样片，可以使用爬虫抓取百度图片中人脸照片；获取相应的训练样本；

这里我们主要使用Python完成批量型爬虫的设计与实现，并对抓取数据进行清洗与分析；

为什么选择Python？

当前比较火的语言之一，

【本文地址】

公司简介

联系我们