质检总局互联网舆情监控系统中聚焦爬虫的研究
【摘要】:本文对质检总局互联网舆情监控系统中聚焦爬虫进行了研究,给出了一些爬虫算法和关键技术,研究了聚焦爬虫的工作流程、组成、架构。聚焦爬虫由页面相关度评价模块、搜索链接评价模块和页面提取模块组成。本文给出了以上模块的组成及相互关系。针对聚焦爬虫中存在的问题,给出了具体的解决方案。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|