代理高匿性的判断方法

2020年4月14日 21:11 阅读 2.77k 评论 0

我们在使用爬虫的时候,如果需要高频率或者长时间去爬取一个网站的时候,都会使用代理ip以防自己的ip被对方封禁,那么,我们要怎么来辨别自己用的是什么代理呢?

我们可以通过header来区分

没有使用代理服务器

  • REMOTE_ADDR = 自己的真实IP
  • HTTP_VIA = 没数值或不显示
  • HTTP_X_FORWARDED_FOR = 无数值或不显示

使用透明代理服务器(Transparent Proxies)

  • REMOTE_ADDR = 最后一个代理服务器 IP
  • HTTP_VIA = 代理服务器 IP
  • HTTP_X_FORWARDED_FOR = 自己的真实IP,经过多个代理服务器时,这个值类似如下:118.155.8.45, 158.187.22.169, 119.181.68.23

此类代理服务器仍然将您的信息转发给您的访问对象,无法达到隐藏真实身份的目的。

使用普通匿名代理服务器(Anonymous Proxies)

  • REMOTE_ADDR = 最后一个代理服务器 IP
  • HTTP_VIA = 代理服务器 IP
  • HTTP_X_FORWARDED_FOR = 代理服务器 IP ,经过多个代理服务器时,这个值类似如下:119.188.68.169, 119.188.68.231

此类代理服务器隐藏了真实IP,但是向访问对象透露了您是使用代理服务器访问他们的。

使用欺骗性代理服务器(Distorting Proxies)

  • REMOTE_ADDR = 代理服务器 IP
  • HTTP_VIA = 代理服务器 IP
  • HTTP_X_FORWARDED_FOR = 随机的 IP ,经过多个代理服务器时,这个值类似如下:3.6.9.12, 119.188.68.169, 119.188.68.231

此类代理服务器告诉了访问对象你使用了代理服务器,却编造了一个虚假的随机IP代替你的真实IP欺骗它。

使用高匿名代理服务器(High Anonymity Proxies (Elite proxies))

  • REMOTE_ADDR = 代理服务器 IP
  • HTTP_VIA = 没数值或不显示
  • HTTP_X_FORWARDED_FOR = 没数值或不显示 ,经过多个代理服务器时,这个值类似如下:119.188.68.169, 119.188.68.231

此类代理服务器完全用代理服务器的信息替代了你的所有信息,就象你就是完全使用那台代理服务器直接访问对象一样。

以上就是辨别代理的方法

最后修改于2020年4月14日 21:11
©允许规范转载

版权声明:如无特殊说明,文章均为本站原创,转载请注明出处

本文链接:https://www.yangyingqi.com/40.html

爬虫
微信
支付宝
登录后即可进行评论/回复