互联网文本处理挑战巨大 中文分词系统设计如何面对?

[复制链接]


0
0

crazyhadoop

crazyhadoop
当前在线
空间积分
0
信誉积分
371
UID
25203957
阅读权限
100
积分
2979
帖子
874
精华
1
可用积分
2981
专家积分
10
在线时间
1481 小时
注册时间
2011-04-11
最后登录
2012-06-05

版主

帖子
874
主题
41
精华
1
可用积分
2981
专家积分
10
在线时间
1481 小时
注册时间
2011-04-11
最后登录
2012-06-05
  • 串门
  • 好友
  • 博客
  • 消息
论坛徽章:
0


1

[收藏(0)]

[报告]

发表于 2012-05-28 17:15:30
|只看该作者
|倒序浏览

互联网文本处理挑战巨大 中文分词系统设计如何面对?互联网的发展为文本处理提出了巨大需求和挑战。因为汉语的词语之间没有明显的分隔符,中文文本处理的首要问题往往是中文分词问题。

很多网站很想开展一些基于文本处理的应用,但首先就会被中文分词这个任务卡住。中文分词被视为一个很复杂的任务。网上有一些开源的算法,比如基于词典算法,比如最大匹配算法,十分简单,但是基本无法处理未登录词。国内比较好的中科院的ICTCLAS系统,只有一个月的试用期,无法直接嵌入到我们自己的系统中。而且,那种系统十分复杂,对其进行扩展和修改是一个比较艰巨的任务。所以我们组织了这一次中文分词系统的设计话题讨论活动

我们将首先向大家介绍一种十分简单而有效的新的分词方法。这种分词方法基于一个由我们提出的字串成词概率,是我们独创的。这个系统很容易掌握,分词效果逼近于目前较好的较复杂的分词系统,完全能够满足很多实用要求。因为其简单易用,便于新手入门学习;也便于在一些小规模系统中进行应用。我们可以提供完整的源代码和成型的系统。大家可以下载安装后,对源代码进行修改,补充词语资源,实践应用等。

其次,我们还将介绍并与大家一起讨论一种具有学术前瞻性的中文分词的新的方法。这个方法是为目前最流行的基于字标注的分词方法引入了一种新的特征。这种方法较为复杂,理论性更强,可与对中文分词这个话题有深入兴趣的朋友一起讨论交流。

中文分词仍是一个开放性的问题,最近学术界仍不断有新的成果出现。我们希望与您不受限制地讨论这个话题,可以是各种方法,各种已出现的源码或系统。

本期讨论话题:

话题1: 一种基于字串成词概率的简单有效的中文分词方案

话题2: 一种引入新的字标注特征的中文分词方案

话题3: 关于中文分词方法的开放讨论

本期嘉宾:

huihui_2012专业从事自然语言领域研究,目前正要在CU推广自己研制的中文分词相关系统,材料整理中。

crazyhadoop Linux环境编程版版主

活动时间:5月28日-6月18日

活动规则:

1. 请针对上述问题跟贴回复,分享你的观点和看法;

2. 贴子观点鲜明、理由充分、逻辑清晰、有理有据;

3. 要求原创,尽可能结合自身实践来谈,抄袭、转载贴不能评选优秀回复贴;

4. 字数不少于50字。

活动奖励:

1、精彩讨论奖,选取1名优秀回复者将获得价值100元的《数据挖掘:实用机器学习工具与技术》(英文版.第3版)一书;

2、优秀讨论奖,选取3名优秀回复者将获得价值50元的《数据挖掘:实用机器学习工具与技术》(中文版.第2版)一书;

3、积极参与奖,凡参与回复讨论着将获得20 CU积分。