搜索引擎按采集内容

  

  

搜索引擎按采集内容包括反采集分类器构建模块、自动采集识别模块和反采集在线处理模块。


搜索引擎按采集内容


反采集分类器构建模块主要用于使用计算机程序对历史的web信息自动采集和正常的网页访问行为进行学习并区分,自动采集识别模块,通过运用上述步骤中的反采集分类器,自动识别出搜索引擎程序的自动采集行为,并将识别出的采集程序所处的IP段加入黑名单。


反采集在线处理模块主要用于对访问的用户进行自动在线判定和处理。搜索引擎采集克服了现有技术的不足,该系统通过分析网站的历史网页访问行为,建立自动采集分类器,识别出机器人的自动采集,通过自动机器人采集识别,实现网页反抓取。

  
相关资讯