|
|
|
用于中文信息自动分类的《中图法》知识库的构建
|
|
【国学精要论文】1、前言随着计算机、网络技术的迅速发展,为了实现网络信息处理的智能化、自动化和精细化,以词表、分类表、语言形式出现的各种情报检索语言加快了与标记语言、超文本技术和其他软件技术的融合,出现了新一代的情报检索语言与自然语言的结合体——知识组织系统。 知识组织系统是指各种对人类知识结构进行表达和有组织阐述的语义工具,主要包括分类法、主题词表、语义网络、主题图、知识本体等[1]。分类法和主题词表在信息资源的加工组织中发挥着重要的作用,而语义网络、主题图、知识本体则是针对第二代语义Web提出的知识组织系统。 本文所讨论的《中国图书馆分类法》(以下简称《中图法》)知识库也是一种知识组织系统,或称为用于自动标引和分类的专家系统,它建立在《中图法》的基础上,通过机器统计归纳出众多人工标引记录中所凝结的标引经验,建立分类号、主题词、关键词之间的概念对应关系,从而实现对文献的自动标引和自动分类,进而实现概念检索。 2、《中图法》知识库构建的原理 分类检索语言、主题检索语言和自然语言是3种不同的情报语言系统,标识和组织方式各不相同,但在本质上是一样的,都是一种主题概念标识系统,分类号、主题词、关键词都可用来表示某一文献信息的主题概念。因此,这三者之间存在着隐含的概念对应关系,即兼容关系[2]。 国内大多数图书馆、情报机构和信息中心所拥有的文献数据库中存在着大量的人工标引记录,这些记录中包含分类标引和主题标引(主题词串或关键词串)双重数据。我们可以通过对这些标引数据的计算机处理,挖掘出分类号—主题词串—关键词串之间的概念对应关系,实现三者之间的兼容互换[3]。在此基础上,构建一个自动标引和自动分类用知识库,实现中文文献的自然语言标引、主题规范、自动分类及概念检索。 不管是分类检索语言还是主题检索语言,乃至任何知识组织系统,都使用了分类方法。而《中图法》是一个建立在知识分类基础上、可用于信息组织的概念语义网络,因此,我们选择《中图法》作为本知识库的主干体系[4]。 (1)《中图法》是我国自编的一部大型综合性图书分
|
|
|
|
<<<<<全文未完>>>>> 全文字数约6912字
|
要阅读全文请先注册成VIP会员!详情请阅读会员专区!
VIP会员可以阅读全文, 欢迎加入VIP会员专区! 加入VIP会员步骤如下:
注册用户名→在线购卡
|
|
|
|