清华大学出版社 您所在的位置:网站首页 爬虫工作原理 清华大学出版社

清华大学出版社

2023-05-30 16:47| 来源: 网络整理| 查看: 265

本书从实战角度系统讲解 Python爬虫的核心知识点,并通过大量的真实项目让读者熟练掌握 Python爬虫技术。本书用 20多个实战案例,完美演绎了使用各种技术编写 Python爬虫的方式,读者可以任意组合这些技术,完成非常复杂的爬虫应用。 全书共 20章,分为 5篇。第 1篇基础知识(第 1、2章),主要包括 Python运行环境的搭建、 HTTP基础、网页基础( HTML、CSS、JavaScript等)、爬虫的基本原理、 Session与 Cookie。第 2篇网络库(第 3~ 6章),主要包括网络库 urllib、urllib3、requests和 Twisted的核心使用方法,如发送 HTTP请求、处理超时、设置 HTTP请求头、搭建和使用代理、解析链接、 Robots协议等。第 3篇解析库(第 7~ 10章),主要包括 3个常用解析库( lxml、Beautiful Soup和 pyquery)的使用方法,同时介绍多种用于分析 HTML代码的技术,如正则表达式、 XPath、CSS选择器、方法选择器等。第 4篇数据存储(第 11、12章),主要包括 Python中数据存储的解决方案,如文件存储和数据库存储,其中数据库存储包括多种数据库,如本地数据库 SQLite、网络数据库 MySQL以及文档数据库 MongoDB。第 5篇爬虫高级应用(第 13~ 20章),主要包括 Python爬虫的一些高级技术,如抓取异步数据、 Selenium、Splash、抓取移动 App数据、 Appium、多线程爬虫、爬虫框架 Scrapy,最后给出一个综合的实战案例,综合了 Python爬虫、数据存储、 PyQt5、多线程、数据可视化、Web等多种技术实现一个可视化爬虫。 本书可以作为广大计算机软件技术开发者、互联网技术研究人员学习“爬虫技术”的参考用书。也可以作为高等院校计算机科学与技术、软件工程、人工智能等专业的教学参考用书。

more >

PREFACE  前 言 Python现在非常火爆。但 Python就和英语一样,如果只会 Python语言,就相当于只能用英语进行日常会话。然而,真正的英语高手是可以作为专业领域翻译的,如 IT、金融、数学等专业领域。 Python也是一样,光学习 Python语言是不行的,要想找到更好的工作,或得到更高的薪水,需要学会用 Python做某一领域的应用。 现在 Python应用的热门领域比较广,例如人工智能,不过人工智能不光涉及 Python语言本身的技术,还涉及数学领域的知识,虽然比较火爆,但绝对不是短时间可以掌握的。然后有一个领域与人工智能的火爆程度相当,但不像人工智能那样难入门,这就是爬虫领域。 为什么爬虫领域如此火爆呢?其实爬虫的基本功能就是从网上下载各种类型的数据(如 HTML、图像文件等)。但不要小瞧这些下载的数据,因为这些数据将成为很多应用的数据源。例如,著名的 Google搜索引擎,每天都会有数以亿计的查询请求,而搜索引擎为这些请求返回的数据,都是来源于强大的爬虫。编写搜索引擎的第一步就是通过爬虫抓取整个互联网的数据,然后将这些数据库保存到本地(以特定的数据格式),接下来就是对这些数据进行分析整理。然后才可以通过搜索引擎进行查询。虽然搜索引擎的实现技术非常多,也非常复杂,但爬虫是 1,其他的所有技术都是 0,如果没有爬虫搜集数据,再强大的分析程序也毫无用武之地。 除了搜索引擎外,人工智能中的重要分支深度学习也需要爬虫抓取的数据来训练模型。例如,要想训练一个识别金字塔的深度学习模型,就需要大量与金字塔相关的图片进行训练。最简单的方式,就是使用百度或谷歌搜索金字塔图片,然后用爬虫抓取这些图片到本地。这是利用了搜索引擎通过关键字分类的特性,并且重新利用了这些分类的图片。 通过这些例子可以了解到,学习爬虫是进入其他更高端领域的钥匙,所以学习 Python爬虫将成为第一个需要选择的热门领域。 尽管爬虫的基本功能是下载文件,但一个复杂的爬虫应用,可不光涉及网络技术。将数据下载后,还需要对数据进行分析,提取需要的信息,以及进行数据可视化,甚至需要一个基于 UI的可视化爬虫。所以与爬虫有关的技术还是很多的。 由于 Pythonp爬虫涉及的技术很多,学习资料过于分散。所以,笔者觉得很有必要编写一本全面介绍 Python爬虫实战类的书籍,在书中分享笔者对 Python爬虫以及相关技术的理解和经验,帮助同行和感兴趣的朋友快速入门,并利用 Python语言编写各种复杂的爬虫应用。笔者希望本书能起到抛砖引玉的作用,使读者对 Python爬虫以及相关技术产生浓厚的兴趣,并能成功进入 Python爬虫领域。加油!高薪的工作在等着你们! 本书使用最新的 Python 3编写,并在书中探讨了关于 Python爬虫的核心技术。全书分 5篇,共 20章。内容涵盖 Python爬虫的基础知识、常用网络库、常用分析库、数据存储技术、异步数据处理、可见即可爬技术、抓取移动 App、Scrapy等。本书还包含 20多个真实的项目,以便让读者身临其境 地体验 Python爬虫的魅力。 限于篇幅,本书无法囊括 Python爬虫以及相关技术的方方面面,只能尽自己所能,与大家分享尽可能多的知识和经验。相信通过本书的学习,读者可以拥有进一步深入学习的能力,达到 Python爬虫高手的程度也只是时间问题。 最后,笔者希望本书能为国内的 Python爬虫以及相关技术的普及,为广大从业者提供有价值的实践经验并帮助他们快速上手贡献绵薄之力。 编著者 2019年 10月

more > 课件下载 暂无样章 网络资源 扫描二维码 下载APP了解更多

版权图片链接



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有