`
liuxinglanyue
  • 浏览: 546733 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

真正属于主题爬虫的圈子

阅读更多

 

主题爬虫圈子:http://fcrawl.group.iteye.com/

 

主题爬虫,也称为聚焦爬虫,专业蜘蛛等,是垂直搜索引擎的核心和基础。

网络爬虫是一个能够自动从互联网上抓取网页的程序,是搜索引擎的核心部分。

一般情况下,通用网络爬虫从一个或若干个种子网页开始在互联网上爬行,当网络爬虫从互联网上下载一个网页时,它会提取出当前网页的URL并放入待爬行队列中,如此不断地反复操作直到满足一定的停止条件为止。通用网络爬虫一般采用的搜索策略是深度优先或者广度优先搜索策略。与通用网络爬虫不同的是,主题爬虫并不试图抓取互联网上尽可能多的网页,而是试图尽可能多地抓取与主题相关网页。因此主题爬虫与通用网络爬虫主要存在两方面的区别,首先是主题爬虫需要判断当前所抓取的网页是否与预先设定的主题相关,其次是主题爬虫往往不是采用深度优先或广度优先策略来抓取网页,而是使用了按照相关度的大小来抓取网页的最佳优先策略。

         不同主题爬虫的主要区别在于如何计算当期网页的主题相关度、如何预测待抓取URL与主题的相关度以及如何计算待抓取URL的优先级。当前国内外学者已针对这几方面提出了许多不同的主题爬虫设计方案,大致分为以下几种类型:

1、基于关键词的主题爬虫

2、基于概念分析的主题爬虫

3、基于分类器引导的主题爬虫

4、基于连接分析的主题爬虫

5、基于隧道技术的主题爬虫

6、基于Deep Web的主题爬虫

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics