开发环境介绍

我们使用python来实现最简单的爬虫。

  • 使用python的requests库来发起http请求并获取目标站点的html代码。
  • 使用python的BeautifulSoup库来解析html,从html中提取感兴趣的内容。

Requests教程

大家可以在测试教程网requests教程中找到requests库的一些典型用法。

环境搭建

  • 安装python3,可以参考这里
  • 安装requests,可以参考这里
  • 安装BeautifulSoup,可以参考这里

作者使用软件版本

我的电脑上环境是这样

  • python: 3.5.2
  • requests: 2.13.0
  • beautifulsoup4: 4.6.0

不需要与我的版本保持完全一致,只需要大于等于我使用的版本就可以了