一、爬虫的简介
1 概念
爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序,又被称为爬虫,网络机器人等。按爬虫功能可以分为网络爬虫和接口爬虫,按授权情况可以分为合法爬虫和恶意爬虫。恶意爬虫主要以获取对方本不愿意被大量获取的网页数据为主要目的,可能给相关服务器性能造成极大损耗。如今数据资源越来越珍贵,利用爬虫技术爬取有价值的数据,成为很多公司弥补自身先天数据短板、提高自身估值的不二选择。
网页爬虫:根据网页上的超链接进行遍历爬取
接口爬虫:通过构造特定API接口请求数据获得大量网页数据信息
2 发展现状
爬虫流量目标行业分布:
其中,出行类中的12306票务信息被各类抢票软件疯狂地爬取,高峰时刻每天的访问量达到千亿次。
在社交类中,通过网络爬虫技术可以指挥一帮网络机器人关注某人的微博、公众号等,进行点赞、关注或者留言,制造大量的僵尸粉。
在电商类中,比如在“比价平台”“聚合电商”和“返利平台”等平台上,当用户搜索一个商品时,这类聚合平台会自动把各个电商的商品都放在你面前供你选择,同样利用的是爬虫技术。文章来源:https://www.toymoban.com/news/detail-584895.html
可以从下面的数据中看到,爬虫的“重灾区”在前面说到的12306、微博、淘宝等大型平台,就连最高人民法院旗下的“中国裁判文书网”也难逃爬虫侵扰,以至于用户怨声载道。文章来源地址https://www.toymoban.com/news/detail-584895.html
到了这里,关于爬虫与反爬虫的攻防对抗的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!