收藏本站
《全国语域web与本体能研讨会论文集》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

从网站中自动挖掘数据记录的算法(英文)

邱勇  兰永杰  
【摘要】:为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.

【相似文献】
中国期刊全文数据库 前10条
1 ;LabVIEW用于数据记录(一)[J];仪表技术;2003年04期
2 ;LabVIEW用于数据记录(二)[J];仪表技术;2003年05期
3 邵红全;杜峰;马骏;孙叶钢;;HLA联邦数据记录分析成员的研究与实现[J];军事运筹与系统工程;2010年03期
4 杨英;数据记录用FOX-PRO系统[J];管理科学文摘;1994年02期
5 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[J];计算机科学与探索;2009年06期
6 何慧荣;在VE中制作数据记录输入画面[J];电脑爱好者;1998年14期
7 邱勇;兰永杰;;从网站中自动挖掘数据记录的算法(英文)[J];Journal of Southeast University(English Edition);2006年03期
8 王勤龙;;用VFP实现数据记录的特殊要求排序[J];农业网络信息;2007年02期
9 汤俊;计算机事故或犯罪记录的监控技术[J];电脑技术;1999年02期
10 ;有备无患——数据记录和备份实例[J];上海微型计算机;1998年11期
中国重要会议论文全文数据库 前2条
1 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 邱勇;兰永杰;;从网站中自动挖掘数据记录的算法(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前1条
1 吴跃平;基于HLA的数据记录与回放系统的研究与实现[D];西南交通大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026