找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 718|回复: 1

python网络爬虫之:IP代理地址收集

[复制链接]

20

主题

76

回帖

192

积分

注册会员

积分
192
发表于 2017-9-11 11:44:25 | 显示全部楼层 |阅读模式
代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是404,所以要换个不会被墙的IP,比如国外的IP等。这个就是简单的代理。
在爬虫中,有些网站可能为了防止爬虫或者DDOS等,会记录每个IP的访问次数,比如,有些网站允许一个IP在1s(或者别的)只能访问10次等,那么我们就需要访问一次换一个IP(具体什么策略,自己决定)。
网上有很多免费的代理IP网站,但是手动更改的话,很浪费时间,并且免费的IP有很多不可用。所以,我们可以用爬虫去爬IP。这里我们用http://www.xicidaili.com/nn/1测试,声明:仅学习交流,切勿用作商业用途等。

免费IP代理地址
python代码抓取这些IP代理地址并做校验是否有效。


抓取某指定页代理地址

根据得到的地址,调用校验方法,将有效的地址保存到txt文件中


检查代理是否有效

OK,拿到有效的IP代理地址了,后续留给爬虫用了,待下回分解!
回复

使用道具 举报

25

主题

72

回帖

194

积分

注册会员

积分
194
发表于 2017-9-11 12:44:25 | 显示全部楼层
问题在于,这些ip活不久的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|芝加哥华人服务中心

GMT-5, 2025-4-11 23:32 , Processed in 0.072847 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表