0%

【2022 年】Python3 网络爬虫学习教程

大家好,我是356体育,非常高兴能在此处与您相见,无论您对爬虫有所涉猎还是初学爬虫,我希望我撰写的本 Python 爬虫系列教程能对您有所帮助。

要学爬虫,首推的就是 Python 语言,简单快速易上手,且 Python 语言的爬虫生态极其丰富。

我个人于 2015 年研究 Python 爬虫技术,并于 2018 年出版了个人第一版爬虫书《Python3 网络爬虫开发实战》,出版至今,此本书一直处于市面上所有爬虫书的销冠位置,销量 10w 册,豆瓣评分 9.0。

Python 爬虫技术的基本内容包括网页基础分析、requests 请求、XPath 和正则解析、Ajax 分析、Selenium 模拟浏览器爬取、Scrapy 等知识点,但技术不是一成不变的,随着近几年时代的发展,一些新兴爬虫技术如异步爬虫、JavaScript 逆向、AST 技术、安卓逆向、Hook、智能解析、WebAssembly、大规模分布式、Docker、Kubernetes 等技术不断涌现,而现在网上的爬虫文章也存在着极大问题,一个是内容泛滥不堪、同质化严重,另一个是几乎没有几篇博文能紧跟前沿技术,多数还停留在几年前的水平,而且很多爬虫教程所用案例已经非常老旧而且多数也无法运行,这极大地打击了初学者的自信心。

因此,2022 年了,有一套内容全面的、紧跟前沿技术的、案例稳定运行的爬虫教程可谓是非常难得。

是的,所以在 2021 年底,我又出版了《Python3 网络爬虫开发实战(第二版)》,对旧的爬虫技术内容进行了全面更新,搭建了全新的案例平台进行全面讲解,

目前截止 2022 年,可以将爬虫基本技术进行系统讲解,同时将最新前沿爬虫技术如异步、JavaScript 逆向、AST、安卓逆向、Hook、智能解析、群控技术、WebAssembly、大规模分布式、Docker、Kubernetes 等,市面上目前就这一套教程了,当然书的话也仅有《Python3 网络爬虫开发实战(第二版)》可以做到。

本教程内容多数来自于《Python3 网络爬虫开发实战(第二版)》,本教程对书中内容进行了精简和梳理,尽量覆盖到最新的知识点,当然更全面的内容可以购买《Python3 网络爬虫开发实战(第二版)》一书了解更多。

以下为 Python3 网络爬虫学习教程内容:

爬虫基础入门

  1. 什么是爬虫?
  2. HTTP 基本原理
  3. Web 网页基础
  4. Session 和 Cookie
  5. urllib 爬虫初体验
  6. 方便好用的 requests
  7. 强大灵活的正则表达式
  8. 基础爬虫案例爬取实战

页面解析和数据存储

  1. 网页解析利器 XPath 初体验
  2. 新兴网页解析利器 parsel
  3. 简易的 TXT 纯文本文件存储
  4. 方便灵活的 JSON 文本文件存储
  5. 高效实用的 MongoDB 文档存储
  6. 关系型数据库 MySQL 存储
  7. 当爬虫遇见 RabbitMQ 消息队列
  8. 便于高效检索的 Elasticsearch 存储

Ajax 分析和动态渲染页面爬取

  1. 什么是 Ajax?
  2. Ajax 分析方法
  3. Ajax 案例爬取实战
  4. 经典动态渲染工具 Selenium 的使用
  5. 新兴动态渲染工具 Playwright 的使用

异步爬虫和模拟登录

  1. 协程的基本原理
  2. aiohttp 的基本使用
  3. 模拟登录的基本原理
  4. Session + Cookie 模拟登录爬取实战

验证码的处理

  1. OCR 识别验证码
  2. OpenCV 图像匹配识别滑动验证码缺口
  3. 深度学习识别滑动验证码缺口

代理的使用

  1. 代理的基本原理
  2. 代理的基本使用
  3. 高效代理池的维护
  4. ADSL 拨号代理的使用

JavaScript 混淆、逆向技术

  1. JavaScript 网站加密和混淆技术简介
  2. JavaScript 逆向调试技巧

App 爬虫和安卓逆向

页面智能解析

Scrapy 框架和分布式爬虫

爬虫的部署、维护、监控