logo
教育论文中心  教育论文中心   广告服务  广告服务   论文搜索  论文搜索   论文发表  论文发表   会员专区  会员专区   在线购卡   在线购卡   服务帮助  服务帮助   联系我们  联系我们   网站地图  网站地图   硕士论文  会员专区   博士论文
当前位置:教育论文中心首页--计量经济学论文下载--基于DT和SVM算法的科技文献分类研究
推荐论文
基于岗位需求的计算机文化基础课程
浅谈中职院校二维动画课程教学研究
基于机器学习远程健康护理系统
数字环境下科技文献信息开发利用与
基于身份公钥密码系统研究
多进制LDPC码编译码算法及结
基于SVM信息融合新方法
集成式高性能低功耗Quasi-P
基于DT石油化工码头储罐区危
DT电缆厂综合布线产品发展战略研
损伤容限型TC4-DT钛合金最小
基于人为误差支持向量机
基于SVM单桩竖向极限承载力预
基于GA-PSO优化分层DT-S
SVM方法在《伤寒论》方小样本分
DT公司研发人员绩效考核系统研究
 
站内搜索
 
 
科目列表
市场营销 管理理论 人力资源
电子商务 社会实践 先进教育
伦理道德 艺术理论 环境保护
农村研究 交通相关 烟草论文
电子电气 财务分析 融资决策
电影艺术 国学论文 材料工程
语文论文 数学论文 英语论文
政治论文 物理论文 化学论文
生物论文 美术论文 历史论文
地理论文 信息技术 班主任
音乐论文 体育论文 劳技论文
自然论文 德育管理 农村教育
素质教育 三个代表 旅游管理
国际贸易 哲学论文 工商管理
证券金融 社会学 审计论文
会计论文 建筑论文 电力论文
水利论文 园林景观 农林学
中医学 西医学 心理学
公安论文 法学法律 思想汇报
法律文书 总结报告 演讲稿
物业管理 经济学 论文指导
计算机 护理论文 社会调查
军事论文 化工论文 财政税收
保险论文 物流论文 语言教育
教育教学 给水排水 暖通论文
结构论文 综合类别 硕士论文
博士论文    
 
 
 
基于DT和SVM算法的科技文献分类研究

【计量经济学论文下载】[摘要]决策树(Decision Tree简称DT)和支持向量机都是目前机器学习领域的重要学习方法,均具备各自的优势。本文着重对决策树和SVM分类算法进行分析,同时根据科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信

[摘要]决策树(Decision Tree简称DT)和支持向量机都是目前机器学习领域的重要学习方法,均具备各自的优势。本文着重对决策树和SVM分类算法进行分析,同时根据科技文献的特点,提出了抽取科技文献的关键词作为分类特征词条,以文献的标题、关键词和摘要作为文档主题信息进行词频统计分析建立分类器,并结合实际的文档集分别测试了决策树和SVM分类算法的性能,并给出了实验数据及分析结果。

[关键词]决策树支持向量机科技文献分类
1、引言
随着在线电子信息以几何级数的形式增长,截止2008年7月26日,Google搜索引擎建立索引的网页数量已经达到了一万亿幅。这些海量的信息来自不同行业,比如新闻资讯、娱乐消息、研究论文、数字图书馆等。为了适应因特网快速发展的需要,许多过去以印刷形式发行的报纸期刊也纷纷将自己的刊物搬到了因特网上,尤其是科技期刊的电子化和数字化图书馆的出现极大地丰富了网络空间的知识资源。研究如何实现电子科技文献的面向主题的自动获取、自动分类是Web资源开发与利用、实现个性化服务的一个很有意义的课题,其中一个很重要的环节就是文本的自动分类。现有的文本分类算法主要有:朴素贝叶斯算法(Naive Bayes),K最近邻居分类算法(KNN),类中心向量最近距离判别算法(Rocchio),聚类粒度原理的分类算法,决策树分类算法,以及SVM分类算法等。文本分类算法是分类系统的核心,所以在实现文本自动分类系统时,文本分类算法的性能是值得注意的问题。本文试图根据科技文献的特点,建立一种基于决策树和SVM算法的文本分类器,在此基础上进行实验研究,得出实验数据并进行对比分析。
2、决策树和SVM分类算法
2.1决策树分类算法
决策树也称为判定树,决策树学习是以示例学习为基础的归纳推理算法,着眼于从一组无次序、无规则的事例中推出决策树表示形式的规则。决策树归纳方法是目前许多基于规则进行归纳数据挖掘商用系统的基础,它在分类、预测和规则提取等领域运用最为广泛。到目前为止决策树有很多实现算法,1986年由J.R.Quinlan提出的ID3算法和1993年提出的C4.5算法,以及CART,C5.0(C4.5的商业版本),Fuzzy C4.5,SLIQ和SPRINT等算法[2-4]。
决策树学习算法是一种归纳算法,它采用“自顶向下、分而治之”的方法将搜索空间分为若干个互不相交的子集,通常用来形成分类器和预测模型,可以对未知数据进行分类、预测和数据预处理等。应用这种方法需要首先构建一棵决策树对分类过程进行建模,一旦建好了树的模型之后,就可以将其应用于数据集中的元组中去,并得到分类结果。图1就是一棵决策树的示意结构描述。在图上,每个非叶子结点代表训练集数据的输入属性,Attribute Value代表属性对应的值,叶子结点代表目标类别属性的值。其中,树的中间结点通常用矩形表示,而叶子结点常用椭圆表示。图中的“是”,”否”分别代表实例集中的正例和反例[5]。
2.2 SVM分类算法
SVM(Support Vector Machine,支持向量机)方法是由V.Vapnik与其领导的贝尔实验室的小组一起开发出来的一种机器学习技术。支持向量机(SVM)是一种在统计学习理论(SLT)的基础上发展起来的一种机器学习方法。支持向量机在模式识别已经有了一些应用,如手写体数字识别[12],人脸识别与人脸检测[13],以及文本分类[14,15]等各种领域。此外,支持向量机还很好地应用于时间序列分析和回归分析等领域的研究。例如,MIT、Bell Lab和微软研究所等已成功地将支持向量机应用于动态图像的人脸跟踪,信号处理,语音识别,图像分类和控制系统等诸多领域。如果一个训练集中的矢量能被一个平面无错误地线性分割,且距该平面最近的矢量之间的距离最大,则称该平面为最佳分类面。
3、基于决策树和SVM的科技文献分类系统设计
3.1科技文献行文规范特点
由于科技文献特有的行文规范,它的格式和行文都有一定的特点。科技文献一般由标题、作者、作者单位、刊物名称、关键词、摘要、正文以及参考文献等几部分组成。标题、关键词和摘要部分很精简的反映了文章的核心内容,同时与文档主题内容不相关的描述很少,以这些内容作为文献的分类标准能体现出文本特征的区分性,降低噪声信息。另一方面,科技文献的关键词是经过作者认真筛选、提炼出来的能够反映文档主题内容的核心词汇。如果收集待分类的类别在一定时间内、不同期刊科技文献的关键词作为文本分类词条集合,在此基础上建立同义词、蕴含词、近义词表,并以此作为文本分类的特征,将会在很大程度上降低非专业词汇科技文本分类的噪声干扰,直接利用关键词集扫描统计专业文本的词频,无需进行词条的切分处理。
3.2科技文献分类系统设计
本文采用的是基于机器学习的文本分类技术,首先是构建一个计算机领域的语料库。语料库共分成人工智能、数据库、神经网络、模糊控制和计算机网络五类。科技文献自动分类系统研究了传统文本分类技术的各个流程,对其中各个关键步骤的算法技术进行相应的分析以及对比,并针对具体应用进行了一定的改进。整个系统设计如图4所示:
预处理阶段:该系统的预处理部分包括采用中科院计算所汉语词语分析系统ICTCLAS对训练集和测试集中文本进行扫描分词,再使用lawstoplist去除停留词。特征选择阶段:从每一类文档的所有特征词中抽取那些能够反映和区分此类文档与其它类文档的特征项。决策树的经典算法C4.5R是采用基于信息增益的特征提取方法。文本的VSM表示阶段:系统采用语义空间来表示文本信息,因此必须对文本进行模型化处理。因为向量空间模型概念简单、相似计算直观易懂,因此选择VSM作为文本的表示模式。科技文献分类阶段:通过决策树(C4.5R)和支持向量机分类算法对科技文献进行分类,并将分类结果进行输出。
5、总结与展望
本文的突出特点是从实际应用入手,选择决策树的经典算法C4.5R和SVM作为分类算法,对比了两种算法在特定应用领域(即科技文献分类领域)中文本的分类性能,得出了实验结果,并给出了针对科技文献分类领域文本信息分类系统的设计方案和实现过程。
参考文献
[1]王强,沈永平,陈英武.支持向量机规则提取[J].国防科技大学学报,2006,28(2):801-805.
[2]王晓东.算法设计与分析[M].北京:清华大学出版社:2003.5-10
作者简介
黄华(1982-),男,硕士生,主要研究领域为数据挖掘,机器学习,文本分类。

 
 
 
 您可能感兴趣的论文
论文标题页/字数分类
基于机器学习入侵检测技术研究176页博士论文
扩散张量图像正则化偏微分方程方法及其对DT-MRI应用58页硕士论文
英语科技文献中长句翻译--以三篇科技文献为例53页硕士论文
衰减链转移自由基(DT)聚合醋酸乙烯酯47页硕士论文
YP公司DT项目市场分析与经济效益评价57页硕士论文
DT成都分公司研发人员薪酬体系设计95页硕士论文
视差立体视频对象提取与DT网格压缩编码77页硕士论文
DT电力集团物流信息化管理模式创新67页硕士论文
DT软件公司项目绩效管理系统设计56页硕士论文
TC4-DTTC21钛合金损伤容限行为宏微观研究66页硕士论文
基于DT-MRI数据心肌纤维可视化及分析系统68页硕士论文
基于DT-BM学习者主题行为模型研究60页硕士论文
基于DT-MRI解剖数据三维心室组织建模与仿真研究63页硕士论文
DT公司OTT+业务营销策略研究72页硕士论文
DT区文化产业发展中政府行为研究44页硕士论文
DT发电集团物资管理系统构建研究81页硕士论文
DT证券公司合规管理制度构建研究52页硕士论文
EMC模式下DT热电厂节能改造项目风险管理研究66页硕士论文
DT电力燃料公司财务精益化管理研究57页硕士论文
DT企业集团财务公司信息化战略研究71页硕士论文
DT软件公司核心竞争力构建案例研究72页硕士论文
DT公司太阳能光伏发电项目效益研究53页硕士论文
DT集团农产品电子商务模式构建研究57页硕士论文
DT服务公司技术型员工激励策略研究56页硕士论文
DT律师事务所裁判数据分析系统研究51页硕士论文
DT经济开发区土地利用绩效审计研究44页硕士论文
DT证券公司互联网金融业务对策研究55页硕士论文
 
 
| 会员专区 | 在线购卡 | 广告服务 | 网站地图 |
版权所有 教育论文中心 Copyright(C) All Rights Reserved
联系方式: QQ:277865656 或写信给我