收藏本站
《NCIRCS2004第一届全国信息检索与内容安全学术会议论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

维数约简在网页分类中的应用

万中英  王明文  廖海波  左家莉  
【摘要】:为了有效地组织Internet 网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域。但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题。本文介绍了主成分分析(Principle Component Analysis,PCA)、潜在语义索引(Latent Semantic Indexing,LSI)和投影寻踪(projection pursuit,PP)等维数约简方法,并对其应用于网页分类进行了比较。对比实验结果表明,这几种维数约简方法对网页分类都有较好的分类结果。从所降到的维数来看,投影寻踪方法将特征空间降到了超低维(一维),这不仅提高了数据的可视性,而且提高了分类速度。

【引证文献】
中国期刊全文数据库 前3条
1 李树青;崔北亮;;搜索引擎系统中的Web个性化信息推荐技术[J];情报杂志;2006年09期
2 廖海波,万中英,王明文;基于投影寻踪回归文本自动分类的模型[J];清华大学学报(自然科学版);2005年S1期
3 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
中国硕士学位论文全文数据库 前1条
1 张超林;文本分类技术在数字图书馆中的应用与研究[D];首都师范大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 张义忠,赵明生,朱精南;基于内容的中文网页自动分类研究[J];信息与控制;2001年05期
【共引文献】
中国期刊全文数据库 前10条
1 张脂平,林世平;Web文本挖掘中特征提取算法的分析及改进[J];福州大学学报(自然科学版);2004年S1期
2 钟茂生;WEB页面的模糊聚类[J];华东交通大学学报;2004年05期
3 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期
4 张玉叶;李连;刘海见;王春歆;;文本过滤中的特征抽取应用研究[J];海军航空工程学院学报;2005年01期
5 万乐;刘万春;;类别特征词权重加权文本分类方法[J];军民两用技术与产品;2006年03期
6 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
7 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
8 唐焕玲,付克明,鲁明羽;文本分类系统SECTCS中若干技术问题的探讨[J];计算机工程与应用;2003年11期
9 唐焕玲,王敬东,陆玉昌;基于减少相似主题分类错误的权重分配新策略[J];计算机工程与应用;2004年13期
10 刘革平;黄智兴;李立新;邱玉辉;;基于文本挖掘的e-Learning学习评价研究[J];计算机科学;2005年05期
中国重要会议论文全文数据库 前3条
1 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
2 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
3 鲁明羽;孙建涛;陆玉昌;;一种基于联想的网页推荐方法[A];第五届全球智能控制与自动化大会会议论文集(4)[C];2004年
中国博士学位论文全文数据库 前7条
1 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
2 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
3 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
4 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
5 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
6 刘新文;基于神经核团放电的脑组织立体定位技术研究[D];南京航空航天大学;2006年
7 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
2 范彦彬;基础教育资源搜索引擎中自动文摘技术研究[D];南京师范大学;2006年
3 王一先;基于联想记忆神经网络的形状识别系统应用研究[D];合肥工业大学;2002年
4 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
5 王晓庆;基于RBF网络的文本自动分类的研究[D];江西师范大学;2003年
6 钟茂生;基于智能Agent的个性化Web浏览器研究与实现[D];江西师范大学;2003年
7 王汉萍;粗糙集理论在文本挖掘的分类算法中的应用研究[D];中国海洋大学;2003年
8 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
9 万中英;基于投影寻踪中文网页自动分类[D];江西师范大学;2004年
10 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
3 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期
4 王继民,陈翀,彭波;大规模中文搜索引擎的用户日志分析[J];华南理工大学学报(自然科学版);2004年S1期
5 付雪峰,王明文;基于模糊-粗糙集的文本分类方法[J];华南理工大学学报(自然科学版);2004年S1期
6 李凡,林爱武,陈国社;一种基于VSM文本分类系统的设计与实现[J];华中科技大学学报(自然科学版);2005年03期
7 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑;2001年04期
8 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
9 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
10 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
中国重要会议论文全文数据库 前2条
1 孙丽华;王洪俊;肖诗斌;施水才;;规则分类在文本自动分类中的应用[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
中国硕士学位论文全文数据库 前3条
1 王晓庆;基于RBF网络的文本自动分类的研究[D];江西师范大学;2003年
2 张日崇;基于web的个性化挖掘方法[D];吉林大学;2004年
3 凌志泉;Web日志挖掘技术的研究与自适应Web站点的构建[D];天津大学;2003年
【二级引证文献】
中国期刊全文数据库 前1条
1 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
中国重要会议论文全文数据库 前1条
1 万中英;王明文;廖海波;;一种新的投影寻踪计算方法及在文本分类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前3条
1 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
2 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
3 姜鑫维;基于分布式的智能搜索引擎[D];武汉理工大学;2006年
【二级参考文献】
中国期刊全文数据库 前3条
1 叶新明;徐进鸿;;中文文献自动分类研究[J];情报科学;1992年05期
2 成颖,史九林;自动分类研究现状与展望[J];情报学报;1999年01期
3 许建潮,胡明;文书类档案的分类标引研究[J];情报学报;1999年03期
【相似文献】
中国期刊全文数据库 前10条
1 柯丽;王明文;何世柱;黎佳;罗远胜;;基于频率共现熵的跨语言网页自动分类研究[J];江西师范大学学报(自然科学版);2011年03期
2 楼文高;冯国珍;吴晓伟;乔龙;;基于竞争情报的企业竞争力投影寻踪实证建模[J];情报杂志;2011年09期
3 张安妮;姜华;郝相莲;;面向主题的快速搜索引擎的设计与研究[J];淮阴工学院学报;2011年03期
4 张云雷;周军;刘海霞;;一种基于DOM的Web关键信息提取方法[J];现代计算机;2011年06期
5 张永波;游录金;陈杰新;;基于模拟退火的多标记数据特征选择[J];计算机工程与设计;2011年07期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 彭涛;左万利;赫枫龄;张长利;;基于粒子群优化算法的网页分类技术[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 程静;邱玉辉;;Web Mining中的网页分类[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 王顺久;杨志峰;;生态环境质量综合评价的投影寻踪模型[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
6 刘后森;杨力行;魏俊智;苏枋;;牛网瓣口在体环向舒缩应变的PPR分析[A];“力学2000”学术大会论文集[C];2000年
7 车斌;;投影寻踪模型在区域水产养殖业竞争力评价中的应用[A];建设我国现代化农业的技术经济问题研究——中国农业技术经济研究会2007年学术研讨会论文集[C];2007年
8 段沛霞;李大鹏;倪长健;;区域农业生态环境质量综合评价投影寻踪动态聚类模型[A];第二届全国农业环境科学学术研讨会论文集[C];2007年
9 姜永生;李忠富;;我国35个大中城市居住水平动态综合评价实证研究[A];第十二届中国管理科学学术年会论文集[C];2010年
10 樊鸿伟;杨广林;王丽丽;;两种评价方法在玉米收获机械选型的评价研究[A];农业系统工程理论与实践研究——全国农业系统工程学术研讨会论文集[C];2006年
中国重要报纸全文数据库 前7条
1 边歆;越主动越安全[N];网络世界;2006年
2 王玉春 赵洪新;齐市检察院网络建设步伐快[N];黑龙江经济报;2008年
3 陈洪强;管理网页好帮手[N];中国电脑教育报;2002年
4 本报记者 边歆;让安全和应用更智能[N];网络世界;2010年
5 彭朝晖 稳捷网络大中国区总经理;电信应用安全的标准[N];网络世界;2010年
6 电脑商报记者 张戈;Blue Coat精确管理网络[N];电脑商报;2010年
7 ;上网行为管理产品选购指南之功能篇[N];网络世界;2011年
中国博士学位论文全文数据库 前10条
1 张连蓬;基于投影寻踪和非线性主曲线的高光谱遥感图像特征提取及分类研究[D];山东科技大学;2003年
2 王顺久;水资源开发利用综合研究[D];四川大学;2003年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 易尧华;基于投影寻踪的多(高)光谱影像分析方法研究[D];武汉大学;2004年
5 董四辉;水库防洪预报调度及灾情评价理论研究与应用[D];大连理工大学;2006年
6 金菊良;遗传算法在水资源工程中的应用研究[D];四川大学;2000年
7 史玉峰;数字信息模式识别理论及其应用[D];山东科技大学;2003年
8 路威;面向目标探测的高光谱影像特征提取与分类技术研究[D];中国人民解放军信息工程大学;2005年
9 朱军华;环境因素作用下的结构损伤检测[D];暨南大学;2011年
10 杜一平;化学数据挖掘新算法和定量构性关系基础研究[D];湖南大学;2002年
中国硕士学位论文全文数据库 前10条
1 韩培培;网页分类及存储查询系统的设计及实现[D];燕山大学;2010年
2 吕婷婷;统计和规则相结合的新闻网页分类系统的设计与实现[D];电子科技大学;2011年
3 伍菲;面向主题型的网页分类技术的研究与实现[D];华中科技大学;2011年
4 朱建建;非负矩阵分解及其在模糊网页分类中的应用[D];安徽大学;2012年
5 张云霞;投影寻踪小波神经网络及其应用的研究[D];西北工业大学;2002年
6 黄美宁;基于用户行为分析的网页分类系统的研究与实现[D];北京邮电大学;2011年
7 冀国光;基于投影寻踪的高速公路目标持续性综合评价研究[D];河北工程大学;2011年
8 刘兰晶;基于改进投影寻踪模型的施工项目管理的研究[D];河北工程大学;2011年
9 马志荣;小麦赤霉病预测模型研究[D];安徽农业大学;2010年
10 马森林;投影寻踪回归模型在林分出材率预测中的应用研究[D];福建农林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026