主题爬虫圈子:http://fcrawl.group.iteye.com/
主题爬虫,也称为聚焦爬虫,专业蜘蛛等,是垂直搜索引擎的核心和基础。
网络爬虫是一个能够自动从互联网上抓取网页的程序,是搜索引擎的核心部分。
一般情况下,通用网络爬虫从一个或若干个种子网页开始在互联网上爬行,当网络爬虫从互联网上下载一个网页时,它会提取出当前网页的URL并放入待爬行队列中,如此不断地反复操作直到满足一定的停止条件为止。通用网络爬虫一般采用的搜索策略是深度优先或者广度优先搜索策略。与通用网络爬虫不同的是,主题爬虫并不试图抓取互联网上尽可能多的网页,而是试图尽可能多地抓取与主题相关网页。因此主题爬虫与通用网络爬虫主要存在两方面的区别,首先是主题爬虫需要判断当前所抓取的网页是否与预先设定的主题相关,其次是主题爬虫往往不是采用深度优先或广度优先策略来抓取网页,而是使用了按照相关度的大小来抓取网页的最佳优先策略。
不同主题爬虫的主要区别在于如何计算当期网页的主题相关度、如何预测待抓取URL与主题的相关度以及如何计算待抓取URL的优先级。当前国内外学者已针对这几方面提出了许多不同的主题爬虫设计方案,大致分为以下几种类型:
1、基于关键词的主题爬虫
2、基于概念分析的主题爬虫
3、基于分类器引导的主题爬虫
4、基于连接分析的主题爬虫
5、基于隧道技术的主题爬虫
6、基于Deep Web的主题爬虫
分享到:
相关推荐
python主题爬虫网站,主要是百度等一些核心网站的爬虫程序。
主题爬虫的完整实现,具有文章内容判重,主题相似度计算,url去重,通用正文抽取算法,网页内容分词,关键词自动抽取等功能。
主题爬虫的设计和解决方案
针对传统主题爬虫的不足, 提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合, 然后结合主题描述文档构建主题向量来描述主题; 下载网页后引入网页分块来穿越“灰色隧道”; 采用...
搜索引擎中主题爬虫 来自CNKI
网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索,对url进行解析、去重等。并应用Java多线程,使爬虫在抓取网页的过程中更...
面向BBS的主题爬虫系统的分析与设计,赵晓阳,辛阳,BBS是当前网络用户发表评论、自由交流的重要平台,也成为了用户需求和商业价值等重要信息的聚集地。主题爬虫是一种面向主题的信息
主题爬虫的架构设计和实现 (期刊)
机械主题爬虫的设计与实现,李兆春,徐立章,由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高、越来越细,基于整个Web �
主题网络爬虫研究综述 网络爬虫相关研究论文
python主题爬虫爬取与主题词相关的新浪新闻网页 .rar
主题爬虫论文
主题爬虫论文的实现 北大天网搜索引擎TSE源码 北大天网搜索引擎TSE源码
爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文...
提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。...
主题网络爬虫研究综述.pdf主题网络爬虫研究综述.pdf主题网络爬虫研究综述.pdf主题网络爬虫研究综述.pdf主题网络爬虫研究综述.pdf主题网络爬虫研究综述.pdf
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,...
主题网络爬虫的链接价值预测研究,张冉冉,苏放,本文首先研究主题网络爬虫基于内容评价的搜索策略和基于链接关系的搜索策略,并详细介绍了它们经典的代表性算法。在分析对比两种
主题网络爬虫关键技术研究-论文.zip