`
liuxinglanyue
  • 浏览: 548758 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

几个免费的中文分词模块

阅读更多

几个免费的中文分词模块


一、什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。

中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。

Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
(以上内容摘录自附录1)


二、计算所汉语词法分析系统 ICTCLAS

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6

由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502

(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面:http://www.donews.net/accesine


三、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8


四、其他

(1)CSW中文智能分词组件

运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面: http://www.vgoogle.net/

(2) C# 写的中文分词组件

据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

下载页面: http://www.rainsts.net/article.asp?id=48


附录:
1. Winter;中文搜索引擎技术揭密:中文分词;http://www.e800.com.cn/articles/98/1091788186451.html




转:http://jjf88483042.blog.163.com/blog/static/991139742010106112845178/

分享到:
评论

相关推荐

    基于网络爬虫技术的网络新闻分析系统源码

    中文分词模块。 中文相似度判定模块。 数据结构化存储模块。 数据可视化展示模块。 要求爬虫系统能完成对凤凰网新闻、网易新闻、新浪新闻、搜狐新闻等网站新闻数据的实时抓取,并正确抽取出正文,获取新闻的点击量,...

    基于网络爬虫技术的网络新闻分析

    基于网络爬虫技术的网络新闻分析由以下几个模块构成: 网络爬虫模块。 中文分词模块。 中文相似度判定模块。 数据结构化存储模块。 数据可视化展示模块。 基于网络爬虫技术的网络新闻分析主要用于网络数据爬取。本...

    抖音数据可视化分析系统技术框架python + flask web + mysql

    前几个热度(柱状图) 分析模块 情感分析模块 (因为舆情分析包含了情感分析我们为了区分两者的区别在舆情模块中包含了中文分词jiba功能) 影响分析模块 (影响分析我们根据数据库中的数据来分析,主要做两部...

    抖音数据可视化分析系统技术框架python + flask web + mysql角色介绍管理员admin

    前几个热度(柱状图) 分析模块 情感分析模块 (因为舆情分析包含了情感分析我们为了区分两者的区别在舆情模块中包含了中文分词jiba功能) 影响分析模块 (影响分析我们根据数据库中的数据来分析,主要做两部...

    API搜索引擎(简单易上手适用于各种课程设计,附带几个测试用例) 展示:http://43.143.77.107:8090

    简单介绍:1、主要分为构建索引模块与搜索模块两个部分;2、构建索引采用 Ansj 进行分词后,分别构建正排索 引与倒排索引保存至数据库中用于搜索模块搜索;3、利用 MyBatis SQL 特性动态操作数据库中索引的插入;4、...

    基于Neo4j的《水浒传》人物关系可视化及问答系统(毕业设计,答辩 ppt)

    本项目主要分为以下几个模块: 1. spider模块爬取人物资料,包括人物图片images,人物基本信息(别名、性别、籍贯等)json,生成data.json文件。 2. raw_data文件夹是存放数据处理后的三元组文件。 3. neo_db模块...

    百度评论爬虫实现demo

    该系统将包括以下几个核心模块: 1. **数据采集模块** 这个模块负责从各个社交平台上爬取评论数据。由于不同平台的 API 和数据格式存在差异,因此需要针对每个平台开发定制的爬虫程序。爬虫需要具备高效、稳定和可...

    大数据地理可视化,完整demo

    该系统将包括以下几个核心模块: 1. **数据采集模块** 这个模块负责从各个社交平台上爬取评论数据。由于不同平台的 API 和数据格式存在差异,因此需要针对每个平台开发定制的爬虫程序。爬虫需要具备高效、稳定和可...

    基于Neo4j实现的《水浒传》人物关系可视化及问答系统源码+答辩PPT

    本项目主要分为以下几个模块: spider模块爬取人物资料,包括人物图片images,人物基本信息(别名、性别、籍贯等)json,生成data.json文件。 raw_data文件夹是存放数据处理后的三元组文件。 neo_db模块创建知识...

    分布式搜索 elasticsearch 方案研究 - 基础知识

    分布式搜索elasticsearch几个概念解析 3 分布式搜索elasticsearch单机与服务器环境搭建 4 分布式搜索elasticsearch中文分词集成 5 分布式搜索elasticsearch配置文件详解 8 分布式搜索elasticsearch安装步骤详解 12 ...

    黑马品优购项目

    4.2. 举几个简单模块的例子 4.2.1. 品牌管理 单表 分页、新增、删除、修改 4.2.2. 规格管理 2张表 分页、新增、删除、修改、显示优化(显示列表内容的一部分) 4.2.3. 模板管理 2张表 分页、新增、删除、修改、...

    【毕业设计】基于深度学习的视觉问答.zip

    使用开放式(OE)模式来回答问题,开放式模式要求模型更具图片和问题直接提供答案,而不是从十几个选项中选出对的那个,但是由于开放式(OE)的答案非常难以评估,答案存在歧义性和同义性问题,所以本文首先对答案和...

    基于Neo4j的《水浒传》人物关系可视化及问答系统python源码+说明文档+PPT+示例图片.zip

    本项目主要分为以下几个模块: 1. spider模块爬取人物资料,包括人物图片images,人物基本信息(别名、性别、籍贯等)json,生成data.json文件。 2. raw_data文件夹是存放数据处理后的三元组文件。 3. neo_db模块...

    firtex-1.0.3_RC_src(Windows版本源代码)

    提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200...

    firtex-1.0.3_RC_src.tar(Linux版本源代码)

    提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200...

    X3BLOG 单用户版 1.0 build80707 (access)

    X3BLOG 遵从 GENERAL PUBLIC LICENSE(GPL) 开源协议,这意味着可以修改程序的一个或几个副本或程式的任何部分,以此形成基於这些程式的衍生作品。必须在修改过的档案中附有明显的说明:您修改了此一档案及...

    .rtf转.txt程序源码

    作者打算做一个系列,专攻各种形式的格式转换,最后集合成模块开源供大家使用。利用Python自身功能,到调用其他软件与模组,都会有。 这是第一个版本,唯一的bug在于如果文件夹层数比较多,不能第一次就修改完所有...

    《新媒体数据挖掘——基于R语言》课件

    142 8.2 社会网络分析的发展、意义 和步骤 143 8.2.1 社会网络分析的三个方向 143 8.2.2 社会网络分析的几个主要 步骤 144 8.2.3 社会网络分析的几个重要 指标 144 8.3 社会网络分析的常用工具 146 8.3.1 NodeXL的...

    ebsite for net4.0网站建设系统 v3.0 正式版.zip

    官方开发的商城,问答,论坛,考试系统都是离不开这些可扩展的事件,这些事件应用在模块里,你可以轻而易举的开发出任何您能想象得出的互联网产品,过去几十人才能做的事件,现在你可以在一个人在很短的时间里完成。...

    X3BLOG AJAX国产大型开源多用户博客系统 1.1.0.beta1源码版

    X3-BLOG 遵从 GENERAL PUBLIC LICENSE(GPL) 开源协议,这意味着可以修改程序的一个或几个副本或程式的任何 部分,以此形成基於这些程式的衍生作品。必须在修改过的档案中附有明显的说明:您修改了此一档案及任何...

Global site tag (gtag.js) - Google Analytics