收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于增量贝叶斯算法的主题爬虫的设计与实现

彭小明  辛阳  
【摘要】:主题爬虫是主题搜索引擎的核心技术,已有的主题爬虫大多采用离线训练方式,需要大量已标记的训练样本,且不能使爬虫在爬行过程中增量学习新的知识,因而很难符合Web资源采集的需要。在线学习新下载页面可加速主题爬行过程、提高页面下载精度。本文介绍了通用爬虫和主题爬虫的区别,通过对增量朴素贝叶斯分类算法的研究,设计了一个基于增量贝叶斯分类器的主题爬虫,并介绍了爬虫的系统结构及关键部分的实现。

知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978