您好,欢迎来到达网官方网站           客户ID 密码   注册 忘记密码?
达网
全国服务热线  
达网学院 | 付款方式

中文切词

中文切词(又称中文分词,Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
  中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
  现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
中文分词的缘起
  之所以存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:
  1、与英文为代表的拉丁语系语言相比,英文以空格作为天然的分割符,而中文不存在
  例句:“Knowledge is power“ , 可自然分割为 Knowledge/ is/ power 三个词,每个词能独立表义
  而中文里:知识就是力量 , 由于缺少分隔符,无法进行符合汉字表义的切分:知识/ 就是/ 力量
  2、在中文里,“词”比“单字”的表义能力更强
  现代汉语的基本表达单元为“词”,以双字或者多字居多,其单独切分后难以独自表义
  例如:机械工程,基本语义单元为“机械”和“工程”,如果按单子切分为“机”、“械”、“工”、“程”,则这些单字不符合人对中文语义的理解,因此不符合需求。

Copyright 2006-2012 dw.net.cn 达网网络技术有限公司 版权所有
公司地址:宁波市大梁街118号世纪广场B座19楼1902室 [地图] 邮编:315000
中文域名:达网.cn  公司微博:weibo.com/dwnetwork  信产部备案号:浙ICP备09010049号
软件开发, 行业软件, 网站建设, 网站托管, 服务器技术  网站地图 RSS订阅