|
|
|
网页模糊归类算法的应用与实现
|
| |
摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程。作者利用此算法亲自设计实现了一个“网页模糊归类测试系统”,通过分析大量实验数据证明了利用此算法得归类效果非常稳定和准确。 关键词:FWCA 模糊综合评判 网页归类 分类浏览 搜索引擎 自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。那些目录事实上就将文章按照内容的类别进行了分类。九十年代以来,Internet 以惊人的速度发展起来,Web的容量增长迅速,平均每天增加100万个页面。计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。 搜索引擎的分类浏览模式由此应运而生。它的目录分类的质量较高,检索效果好;但是需要人工维护,因此存在成本高、信息更新慢、维护的工作量大的缺点。而基于模糊技术的网页自动归类能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握网络信息。 网页模糊归类步骤与算法 简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中 Wi 为第 i 个元素(以下均称为“特征项”)的数值。当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。
|
|
|
|
|
|
|
|
|
| 广告载入中... |
| 广告载入中... |
| 广告载入中... |
|
|
|
|
|