|
|
|
面向主题的网络爬虫设计与实现 |
|
论文目录 |
|
摘要 | 第1-6页 | ABSTRACT | 第6-14页 | 第1章 绪论 | 第14-21页 | ·课题研究背景 | 第14页 | ·国内外研究现状 | 第14-17页 | ·网页分类研究现状 | 第15-16页 | ·搜索策略研究现状 | 第16-17页 | ·WEKA 平台 | 第17-18页 | ·本文所做的工作 | 第18-21页 | 第2章 聚焦爬虫的架构及关键技术 | 第21-26页 | ·引言 | 第21-22页 | ·通用爬虫 | 第22-23页 | ·通用爬虫模型 | 第22-23页 | ·通用爬虫的不足 | 第23页 | ·聚焦爬虫原理及架构 | 第23-25页 | ·聚焦爬虫关键技术 | 第25页 | ·小结 | 第25-26页 | 第3章 常用网页分类算法 | 第26-33页 | ·引言 | 第26页 | ·文本分类算法 | 第26-29页 | ·Na?ve Bayes 算法 | 第26-27页 | ·TF-IDF 算法 | 第27-28页 | ·KNN 算法 | 第28页 | ·支持向量机 | 第28-29页 | ·网页分类模型 | 第29-32页 | ·利用网页信息的规则 | 第29-30页 | ·网页分类模型 | 第30页 | ·加权协调的网页分类 | 第30-32页 | ·小结 | 第32-33页 | 第4章 基于增量学习的网页识别算法 | 第33-42页 | ·引言 | 第33页 | ·博客网页 | 第33-35页 | ·HTML 特征 | 第34页 | ·URL 特征 | 第34页 | ·文本特征 | 第34-35页 | ·视觉特征 | 第35页 | ·基于增量学习的主题网页识别算法 | 第35-37页 | ·增量学习 | 第35-36页 | ·主题网页识别算法 | 第36-37页 | ·性能分析 | 第37-41页 | ·软件平台 | 第37-38页 | ·评价指标 | 第38-39页 | ·实验结果 | 第39-41页 | ·小结 | 第41-42页 | 第5章 基于多元信息加权协调的搜索策略 | 第42-52页 | ·引言 | 第42页 | ·相关工作 | 第42-45页 | ·OPIC 算法 | 第42-44页 | ·C4.5 决策树算法 | 第44-45页 | ·传统搜索策略 | 第45-46页 | ·重要度优先的搜索策略 | 第45-46页 | ·相关度优先的搜索策略 | 第46页 | ·基于多元信息加权协调的搜索策略 | 第46-49页 | ·实验及分析 | 第49-51页 | ·小结 | 第51-52页 | 第6章 聚焦爬虫IL-CRAWLER 实现 | 第52-61页 | ·引言 | 第52页 | ·Cora | 第52页 | ·IBM Focused Crawler | 第52页 | ·IL-CRAWLER 开发环境及其架构 | 第52-54页 | ·IL-Crawler 开发环境 | 第52-53页 | ·IL-Crawler 架构 | 第53-54页 | ·IL-CRAWLER 建模 | 第54-58页 | ·采集训练数据集 | 第54-55页 | ·训练集建模 | 第55-58页 | ·IL-CRAWLER 采集实验 | 第58-60页 | ·小结 | 第60-61页 | 结论 | 第61-63页 | 参考文献 | 第63-67页 | 致谢 | 第67-68页 | 附录A 攻读学位期间完成的论文和软件著作权 | 第68-69页 | 附录B 攻读学位期间参加的科研项目 | 第69页 |
|
|
|
|
论文编号BS564568,这篇论文共69页 会员购买按0.35元/页下载,共需支付24.15元。 直接购买按0.5元/页下载,共需要支付34.5元 。 |
|
|
我还不是会员,注册会员!
会员下载更优惠!充值送钱! |
我只需要这篇,无需注册!
直接网上支付,方便快捷! |
|
|
|
版权申明:本目录由www.jylw.com网站制作,本站并未收录原文,如果您是作者,需要删除本篇论文目录请通过QQ或其它联系方式告知我们,我们承诺24小时内删除。 |
|
|