真正属于主题爬虫的圈子

liuxinglanyue

浏览: 546733 次
性别:
来自: 杭州

最近访客更多访客>>

hui963966800

lhc98

guoshun0321

kidding87

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2011-02 ( 10)
2011-01 ( 22)
2010-12 ( 165)
更多存档...

博客分类：

主题爬虫

互联网搜索引擎 Web

主题爬虫圈子：http://fcrawl.group.iteye.com/

主题爬虫，也称为聚焦爬虫，专业蜘蛛等，是垂直搜索引擎的核心和基础。

网络爬虫是一个能够自动从互联网上抓取网页的程序，是搜索引擎的核心部分。

一般情况下，通用网络爬虫从一个或若干个种子网页开始在互联网上爬行，当网络爬虫从互联网上下载一个网页时，它会提取出当前网页的URL并放入待爬行队列中，如此不断地反复操作直到满足一定的停止条件为止。通用网络爬虫一般采用的搜索策略是深度优先或者广度优先搜索策略。与通用网络爬虫不同的是，主题爬虫并不试图抓取互联网上尽可能多的网页，而是试图尽可能多地抓取与主题相关网页。因此主题爬虫与通用网络爬虫主要存在两方面的区别，首先是主题爬虫需要判断当前所抓取的网页是否与预先设定的主题相关，其次是主题爬虫往往不是采用深度优先或广度优先策略来抓取网页，而是使用了按照相关度的大小来抓取网页的最佳优先策略。

不同主题爬虫的主要区别在于如何计算当期网页的主题相关度、如何预测待抓取URL与主题的相关度以及如何计算待抓取URL的优先级。当前国内外学者已针对这几方面提出了许多不同的主题爬虫设计方案，大致分为以下几种类型：

1、基于关键词的主题爬虫

2、基于概念分析的主题爬虫

3、基于分类器引导的主题爬虫

4、基于连接分析的主题爬虫

5、基于隧道技术的主题爬虫

6、基于Deep Web的主题爬虫

分享到：

lucene 3.0 中的demo项目部署 | Lucene 3.0.2 源码 - final class Documen ...

2010-12-15 14:46
浏览 4777
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论