python爬虫心得体会200字
Python瞎老弟的爬虫心得之requests篇②requests基本使用 上一期已经成功安装了requests模块,并简单的使用了requests,本期,我们将详细介绍requests模块
直接使用requests.get()方法即可
其中内容将通过requests.text查看
将get()方法,改为post()即可
其中需要提交的内容,通过data参数传入
url参数,也即跟在地址后的?后的一串内容
我们可以直接通过url地址将其构造出来
也可以通过params参数,传入一个字典使用
可以看出,地址同样被自动构造为
这是一种更加容易的传入参数的方法,可以不需要使用
我们得到了一个对象r,这是一个requests.models.Response对象
使用r.text可以得到响应内容
其中解码方式是requests自行猜测的,它会把猜测的结果保存在r.encoding中
使用r.encoding可以得到或者改变编码方式
如果使用r.text得到的内容不正确,可以手动修改r.encoding,然后再使用r.text输出内容
如果不知道正确的编码,可能有人会建议你使用chardet模块来进行编码的测试(该模块需要使用pip安装,目前版本也会随安装requests附带)
使用方法:
事实上,现在的requests已经使用了chardet模块,但你仍然可以将chardet用于其他时候使用
使用r.content可以得到二进制的响应内容
使用r.json()可以得到json的响应内容
给headers参数传入一个字典即可
如同之前你预想的那样,user-agent会被修改为lsp
通过r.status_code可以查看状态码
通过r.headers可以查看响应头
通过r.raise_for_status()可以在状态码为不正常的时候抛出异常
在请求中添加timeout参数,即可让你的程序在指定的时间内没有得到响应就抛出异常
通过r.url可以查看到请求地址
通过r.history可以查看到重定向
通过修改allow_redirects参数为False可以禁止重定向
例如禁止github进行重定向 如何入门 Python 爬虫入门是良好的动机,但是可能作用缓慢如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习
另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图因为学习A的经验可以帮助你学习B因此,你不需要学习怎么样入门,因为这样的入门点根本不存在!你需要学习的是怎么样做一个比较大的东西,在这个过程中,你会很快地学会需要学会的东西的当然,你可以争论说需要先懂python,不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习python :D
看到前面很多答案都讲的术用什么软件怎么爬,那我就讲讲道和术吧爬虫怎么工作以及怎么在python实现
先长话短说summarize一下:
你需要学习
基本的爬虫工作原理
基本的http抓取工具,scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取,你需要学习分布式爬虫的概念其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好最简单的实现是python-rq:https://github.com/nvie/rq
rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb) (随机推荐阅读本站500篇优秀文章点击前往:500篇优秀随机文章)
直接使用requests.get()方法即可
其中内容将通过requests.text查看
将get()方法,改为post()即可
其中需要提交的内容,通过data参数传入
url参数,也即跟在地址后的?后的一串内容
我们可以直接通过url地址将其构造出来
也可以通过params参数,传入一个字典使用
可以看出,地址同样被自动构造为
这是一种更加容易的传入参数的方法,可以不需要使用
我们得到了一个对象r,这是一个requests.models.Response对象
使用r.text可以得到响应内容
其中解码方式是requests自行猜测的,它会把猜测的结果保存在r.encoding中
使用r.encoding可以得到或者改变编码方式
如果使用r.text得到的内容不正确,可以手动修改r.encoding,然后再使用r.text输出内容
如果不知道正确的编码,可能有人会建议你使用chardet模块来进行编码的测试(该模块需要使用pip安装,目前版本也会随安装requests附带)
使用方法:
事实上,现在的requests已经使用了chardet模块,但你仍然可以将chardet用于其他时候使用
使用r.content可以得到二进制的响应内容
使用r.json()可以得到json的响应内容
给headers参数传入一个字典即可
如同之前你预想的那样,user-agent会被修改为lsp
通过r.status_code可以查看状态码
通过r.headers可以查看响应头
通过r.raise_for_status()可以在状态码为不正常的时候抛出异常
在请求中添加timeout参数,即可让你的程序在指定的时间内没有得到响应就抛出异常
通过r.url可以查看到请求地址
通过r.history可以查看到重定向
通过修改allow_redirects参数为False可以禁止重定向
例如禁止github进行重定向 如何入门 Python 爬虫入门是良好的动机,但是可能作用缓慢如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习
另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图因为学习A的经验可以帮助你学习B因此,你不需要学习怎么样入门,因为这样的入门点根本不存在!你需要学习的是怎么样做一个比较大的东西,在这个过程中,你会很快地学会需要学会的东西的当然,你可以争论说需要先懂python,不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习python :D
看到前面很多答案都讲的术用什么软件怎么爬,那我就讲讲道和术吧爬虫怎么工作以及怎么在python实现
先长话短说summarize一下:
你需要学习
基本的爬虫工作原理
基本的http抓取工具,scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取,你需要学习分布式爬虫的概念其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好最简单的实现是python-rq:https://github.com/nvie/rq
rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb) (随机推荐阅读本站500篇优秀文章点击前往:500篇优秀随机文章)
来源:本文由易搜IT博客原创撰写,欢迎分享本文,转载请保留出处和链接!