《Proceedings 2010 IEEE 2nd Symposium on Web Society》2010年
收藏 | 手机打开

PPS Sampling of Web Graph Using Preferential Jumping Strategy

Jonathan J.H.Zhu  
【摘要】:正Sampling is the most powerful tool for researchers to study important characteristics of the continuously growing Web.On Web page sampling problem,we collect a number of pages which are representative to the Web population. However,we believe Web sampling greatly differs from generic sampling problem.First of all,the randomness principle can not be applied to Web sampling mechanically;Secondly, randomness on page level should not be the only goal of Web sampling.We believe that there is still space to improve the randomness goal,and other than pursuing randomness on page level,new objectives should be set for host and domain levels. In our work,we designed a new Web sampling method, called the Probability Proportional to the Size of Websites (PPSW for short) sampling.After certain preliminary experiments and analysis,we concluded that no former sampling methods took into account the host and domain level of the Web.Therefore we seek new Web sampling methods that can yield samples that are representative on host and domain level. With regard to the new objective,we redesigned the jumping strategy of the random walk while sampling.This preferential jumping strategy markedly increased the validity of random walk on host and domain level.More particularly,random walk based sampling methods have two configurations:whether the random walk has random jump probability,and whether the random walk is conducted on undirected Web graph with the help of search engine.Controlling these two configurations, together with our newly designed preferential jumping strategy, we conducted four kinds of new sampling experiments.Among the four groups of experiments,the directed one with random jump showed great performance improvement. For evaluating our new PPSW sampling methods,we put forward new objectives,along with corresponding formula.The first two are coverage objectives.Comparatively speaking,the number of domains is several orders of magnitude smaller than the number of Web pages.Usually we are capable of handling this number data.Therefore,we wish the sample can cover as many hosts and domains as possible. In addition to the two coverage objectives which are crude, we also proposed four proportion objectives.These four objectives tell us whether a sample reflects the sizes of hosts and domains from different angles:Domain Host Distribution, Domain Page Distribution,Host Page Distribution and Single Domain Page Distribution. We conducted 150 comparison experiments for the three classical random walk based Web sampling methods and our PPSW sampling methods under a same environments that is as real as possible.By observing the process and results,we discussed their performances in the following aspects:·Conventional Evaluations:e.g.,out-,in-degree and PageRank distribution,and "Bucket Standard Deviation". New Evaluations:by examining the two coverage and four proportion targets,we found that among all the sampling methods,our PPSW sampling methods has the best performance. Other Aspects:e.g.,the length of walk,the stability and efficiency of sampling methods,the number of starting page set and search engines' influences.

中国重要会议论文全文数据库 前10条
1 Jonathan J.H.Zhu;;PPS Sampling of Web Graph Using Preferential Jumping Strategy[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
2 ;Multi-Domain Boundary Element Method with Dissipation[A];纪念顾懋祥院士海洋工程学术研讨会论文集[C];2011年
3 ;Identification of a Regulatory Binding Site of HAb18G/CD147 I domain and Integrin β1 Subunit[A];2010’全国肿瘤分子标志及应用学术研讨会暨第五届中国中青年肿瘤专家论坛论文汇编[C];2010年
4 ;Optimal State Estimation of Linear Discrete-time Systems with Correlated Random Parameter Matrices[A];中国自动化学会控制理论专业委员会C卷[C];2011年
5 ;Fault Dignosis of Rolling Bearing Based on Time Domain Parameters[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
6 ;ARF-like protein 16(ARL16) inhibits RIG-I by binding with its C-terminal domain in a GTP-dependent manner[A];“细胞活动 生命活力”——中国细胞生物学学会全体会员代表大会暨第十二次学术大会论文摘要集[C];2011年
7 ;Impulse Time Domain Antenna Measurement System at Da Yeh University[A];2002海峡两岸三地无线科技研讨会论文集[C];2002年
8 武振宇;;Independent determination of the systematic and random errors of the proper motions in the PPMXL catalog[A];中国天文学会2011年学术年会手册[C];2011年
9 李尚容;仇金;;Phase Characteristic of Random Noise in Multi-Modes Lasers[A];光子科技创新与产业化——长三角光子科技创新论坛暨2006年安徽博士科技论坛论文集[C];2006年
10 ;Analysis on the characteristics of animal tissues based on the Terahertz time domain spectroscopy system[A];中国光学学会2011年学术大会摘要集[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 刘学习;Data Domain节约存储成本有高招[N];计算机世界;2008年
2 邢小萍;Data Domain成存储巨头争夺目标[N];网络世界;2009年
3 ;Time Domain拆分出专营UWB的公司[N];计算机世界;2003年
4 邢小萍;Data Domain将借EMC之势腾飞[N];网络世界;2009年
5 电脑商报记者 刘一冰;一切照旧,重塑渠道[N];电脑商报;2009年
6 ;NetApp拟15亿美元收购Data Domain[N];网络世界;2009年
7 李学昌;老树新花说DOS⑦[N];中国电脑教育报;2004年
8 本报记者 宋家雨;EMC Data Domain亮相 发力备份恢复市场[N];网络世界;2010年
9 张艳萍、主笔;在新华社多媒体信息系统的应用(二)[N];中国计算机报;2004年
10 邢小萍;EMC延长对Data Domain收购要约[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 张稳;基因表达调控相关蛋白的结构和功能的研究[D];中国科学技术大学;2011年
2 樊磊;Domain理论中若干问题的研究[D];首都师范大学;2001年
3 孙婷婷;蛋白激酶TTK的动力学研究及其羧基末端D domain在其激酶活性中作用的研究[D];山东大学;2009年
4 奚小勇;关于Domain函数空间的若干问题[D];四川大学;2005年
5 宋福平;苏云金芽孢杆菌特殊异性cry基因的研究[D];东北农业大学;2001年
6 刘湘华;两个新的蛋白质结构域的鉴定暨生长分化因子3功能的初步探讨[D];复旦大学;2006年
7 陈学友;Domain逼近概念格粗糙集与拓扑[D];湖南大学;2007年
8 WAEL M.K.ELFEIL (维尔);鸭、鹅PRRs的克隆、分析及分布研究[D];吉林大学;2012年
9 徐晓泉;完备格的关系表示理论及其应用[D];四川大学;2004年
10 赵涛;标记MMPs阳性细胞的光学成像新方法在肿瘤细胞侵袭和转移活性评价中的应用[D];第四军医大学;2010年
中国硕士学位论文全文数据库 前10条
1 雷银彬;Domain上的测度及拓扑空间的Domain环境相关问题研究[D];四川大学;2004年
2 路秀华;量化Domain中的反向层次收敛[D];首都师范大学;2005年
3 刘敏;FZ-Domain的拓扑与范畴性质[D];陕西师范大学;2010年
4 刘妮;连续Domain的基数函数与若干Domain范畴的笛卡尔闭性[D];陕西师范大学;2002年
5 薛建丽;苏云金芽孢杆菌CrylAa、CrylC的协同作用和同源重组的研究[D];中国科学院研究生院(武汉病毒研究所);2004年
6 王卫民;Web服务可视化的研究[D];广西大学;2004年
7 周纯阳;半群上的拓扑、偏序和相关Domain[D];扬州大学;2009年
8 陈建;基于Xen的domain0内核的研究[D];浙江大学;2008年
9 杨瑞;苹果蠹蛾Cydia pomonella (L.)在中国的适生性研究[D];西北农林科技大学;2008年
10 吴红霞;偏序、拓扑与子代数偏序的结构性质[D];扬州大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026