今天开始Python爬虫的第一课,在开始之前我们首先需要知道爬虫是什么,爬虫能干什么。
来自百度百科的解释:
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
通俗来讲,假如你需要互联网上的某些信息,如商品价格,图片视频资源等,但你又不可能一个一个打开网页来收集,这时候你就需要写一个程序,让这个程序按照你指定好的规则去互联网上收集信息,这便是爬虫,我们熟知的百度,谷歌等搜索引擎其实也是一个巨大的爬虫。
爬虫合法吗?
可能很多爬虫初学者都会有这个疑问,首先爬虫是一门技术,技术应该是中立的,合不合法其实取决于你的使用方向。是由爬虫的缔造者来决定的,而不是爬虫来决定的。另外我们爬取信息的时候也不能无限制的去爬,疯狂请求别人的网站,这样是不行的,只要能拿到自己想要的信息就可以了。 一般来说只要不影响被爬网站的正常运转,也不是出于商业目的,一般也就只会封下IP,账号之类的,不至于陷入律师函警告的风险。
大部分网站在网站的根目录下会有个robots.txt的文件,里面写明了网站里面哪些内容可以抓取,哪些不允许。 搜索引擎的爬虫自然就会遵循这个robots协议,不去爬里面不让爬的目录以及文件,我们自然也要遵循,比如我博客的robots文件如下:
文件里指明了本站的sitemap路径方便搜索引擎去爬取,下面一行,代表允许所有搜索引擎爬取,并且不限制爬取的目录
当然robots协议本身也只是一个业内的约定,是不具有法律意义的,所以遵不遵守呢也只能取决于爬虫缔造者自身了。
这里爬虫就介绍完了,下面我们进入正题
Why Python?
很多人提到爬虫就会想到Python,其实除了Python,其他的语言诸如C++, PHP,Java等等都可以写爬虫,而且从执行效率来说这些语言都比Python要高,但为什么Python渐渐成为了很多人写爬虫的第一选择?简单来说有以下几点:
-
1、开发效率高,代码简洁,一行代码就可完成请求,几十行就可以完成一个复杂的爬虫任务;
-
爬虫对于代码执行效率要求不高,网站的响应速度才是最影响爬虫效率的。比如请求一个网页可能需要100ms,数据处理10ms还是1ms对于爬取速度来说影响不大;
-
Python有很多超级好用的第三方库,如请求网页的requests,解析网页提取信息的beautifulsoup、lxml、re,selenium等等;
本教程后续会以Python作为基础来进行讲解。
今天第一课先教大家安装Python环境
以windows为例,首先打开python官网
下载可能会很慢,耐心等待
下载完后双击安装,一路next即可,但是有一点需要注意,务必勾选 Add Python 3.x to path, 否则后续会很麻烦,得自己配置环境变量
安装完成后,win+r打开cmd然后键入python --version即可验证是否安装成功
至于Linux安装可以参考我之前的文章:centos7安装Python3.7
最后在刚才cmd中输入python,然后按照惯例,我们键入:
print("Hello World!")
下节课我们来说Python的基础语法
Python 爬虫版权声明:如无特殊说明,文章均为本站原创,转载请注明出处
本文链接:https://www.yangyingqi.com/29.html