写在前面：网络爬虫对于网站管理者并不是一个很友好的行为，爬取时请遵守robots.txt协议。本爬虫教程系列比较简略，只会提到关键的地方，细节和编程基础仍需读者自己研究。

什么是网络爬虫？

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。¹

简单来讲，网络爬虫是一种以脚本或程序为手段，批量获取网络信息的行为。

用什么工具？

首选python，当然理论上具有网络编程特性的语言都可以做到，只是复杂度有所区别。网络爬虫是一种以结果为导向的行为，所以并不是一定要用某一样工具，也不是局限于某一款IDE。比如如果一个网页上的信息是线性的表格，那么你可以使用： excel的从web获取功能这个模块和python-pandas库的read_html方法类似，将HTML网页中的表格解析为DataFrame对象，返回列表。

pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)