
“道德反爬虫”虽然只是笑谈,但一定程度上表示出了企业技术人员对爬虫的无可奈何。但可以预见的是,随着大数据和机器学习应用越来越广,对爬虫睁一只眼闭一只眼、与爬虫和平共处的时代很快就要过去了。
最主要的问题是,爬虫的出现会极大地增加数据分析难度。
当数据分析企业利用爬虫获取数据进行分析时,大量爬虫的存在正在让这些数据失实。文章浏览量的失实让我们误判人们对新闻事实的关注程度、爬虫衍生出的虚拟IP需要在数据清洗时剔除……技术越高超的爬虫,在行为模式上就越接近真人,也就更加增加数据分析时的难度。久而久之,那些我们以为从人类行为中寻找规律的算法,反而寻找到的是机器人的行为规律。
同时爬虫带来的流量波动也会让机器学习算法产生误判。
最典型的例子是机票的动态定价,网站会结合当下浏览量判定机票的抢手程度并且调整价格。这时如果有大量爬虫在浏览网站,算法就会给出和实际情况并不符合的定价,也损伤了消费者购买到廉价产品的权益。
甚至一些数据分析企业还打出了“AI爬虫”的招牌,让爬虫脚本的行为模式更加接普通用户,让被爬的企业难以发掘,甚至还会利用图像识别技术破解网站用作拦截的验证码。
在这种情况下,网站分辨人与机器人就变得更加困难也更加重要。很多网站也开始利用机器学习技术反制AI爬虫,比如为图形验证码动态打码应对图像识别。同时现在PC和移动终端的硬件技术发展,也让生物识别这种更复杂的验证手段有可能加入战斗。双方正在站在同一水平线上,利用技术互相斗法。
可以说爬虫技术和反爬虫技术之间斗争了十几年,可真正的“战争”却从现在才刚刚开始。在彻底制服恶意爬虫之前,对于一切大数据、精准预测之类的“吹嘘”,我们最好保持着三分怀疑。