内容摘要:在对汉语书面文本进行自动切词和自动词性标注之后,我们应该认真地检查实验的结果。如果我们确认这些结果都是正确无误和无懈可击的,那么,就可以开始自动短语定界和自动句法标注的工作。
关键词:语料库;冯志伟;书面文本;短语划分;句法标注;自动处理
作者简介:
在对汉语书面文本进行自动切词和自动词性标注之后,我们应该认真地检查实验的结果。如果我们确认这些结果都是正确无误和无懈可击的,那么,就可以开始自动短语定界和自动句法标注的工作。这些工作可按如下步骤进行:
根据单词的信息、词类类别和句法特征,确定哪一个单词是短语的左边界,哪一个单词是短语的右边界,哪些单词是短语的中间部分。
短语定界的格式如下:
![]()
其中,[w是开括号,它是短语的头,w]是闭括号,它是短语的尾。
自动短语定界的步骤是:(l)根据上下文信息,把开括号与相应的闭括号对应起来。(2)根据歧义消解规则和统计信息,消解短语定界的歧义。(3)生成表示句子结构的成分结构树。
现在,北京大学计算语言学研究所正在开发一个汉语语料库的多级加工系统(Cihnese corpus multilevel processing,CCMP)。这个CCMP系统包括两个子系统和一些辅助工具。
子系统是自动切词和词性标注子系统、自动短语定界和句法标注子系统。
辅助工具有查询工具、样本采取工具、统计工具、语料库管理界面等。
实验结果如下:交叉括号的百分比为13.98%:错误短语标记的百分比为8.65%。
从实验结果来看,汉语语料库的白动标注和多级加下处理,还有相当多的问题等待我们解决。
下面是一篇短文前6句的短语定界和句法标注结果,梅句前面都标有序号。标注时采用北京大学计算语言学研究所的标注符号。







