欢迎大家来到【风控基建实战】
风控团队与黑灰产的对抗是动态且激烈的,技术也在不断迭代升级。我们希望通过一系列硬核技术分享,与风控岗位的小伙伴们加深交流,共同夯实业务基石。
一、什么是爬虫?
网络爬虫(网络蜘蛛,spider),可以通俗的认为网络爬虫即为一段程序,通过特定程序可以在网站上获取需要的信息,如文字、视频、图片等。
爬虫有多种类型,我们一般将爬虫分为通用爬虫和聚焦爬虫两类:
1、通用爬虫
我们常使用的搜索引擎谷歌、百度等核心就是通用爬虫,从互联网中搜集网页,采集信息。
通用爬虫目标是下载并存储互联网上的所有网页,形成一个互联网内容的镜像备份,遵循Robots协议(搜索引擎通过读取robots.txt文件来识别这个页面是否允许被抓取)。下图为搜索引擎网络爬虫工作流。
二、爬虫的应用
三、什么是反爬虫?
四、输入网址,发生了什么?
五、爬虫与反爬虫
六、爬虫与反爬虫展望
爬虫程序是一种技术产物,爬虫代码本身并未违反法律,但使用爬虫对网站运营造成破坏,爬取机密或企业隐私数据,都可能违反《数据安全管理办法》;企业通过爬虫手段非法获取竞争对手商业信息的,可能违反《反不正当竞争法》。通过技术手段绕过经营者网站的反爬虫措施都属于违法行为,且爬取信息必有痕迹,只是看企业是否追究。为了营造良好的互联网环境,请大家合理合法利用爬虫手段。
扫码关注得物风控,获得最新鲜的购物反诈提醒!
也可在“得物App”关注“得物风控安全助手”哦~