收藏本站
《2011年中国卫生统计学年会会议论文集》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

随机森林回归分析方法及在代谢组学中的应用

张涛  李贞子  武晓岩  李康  
【摘要】:目的探讨随机森林回归处理非线性、共线和具有交互作用数据的性能,并将随机森林回归应用于高维代谢组学数据的代谢网络构建。方法通过模拟试验验证随机森林回归在线性、交互和非线性(多项式和指数)关系及不同的样本含量条件下回归分析性能,并同多元线性回归分析相比较。针对卵巢癌良恶性肿瘤鉴别的代谢组学数据,在随机森林判别分析确定的51个生物标志物的基础上,应用随机森林回归分析探索生物标志物之间的复杂的相互关系。结果模拟实验结果显示:若自变量与应变量间为线性关系,随机森林回归模型的效果与多元线性回归模型相近;对于具有交互作用及其他非线性关系的模拟数据,随机森林回归模型的效果明显优于多元线性回归模型。实际卵巢癌代谢组学数据分析显示:代谢组学数据具有共线性和交互作用等复杂的非线性关系,我们设定羟丙酮酸(V2409)作为靶向标志物,应用随机森林回归在其他50个代谢标志物中筛选出5个最具有潜在调控作用的代谢物质,进而根据这6个代谢标志物建立了贝叶斯调控网络,结果理想。结论随机森林回归作为一种非参数回归技术,在能够保证具有一定数量的样本含量(n100)的情况下,对复杂数据具有优良的性质,能够在高维数据中有效地分析非线性和具有交互作用的数据,同时对共线性问题不敏感,可以有效地应用于高维代谢组学数据的代谢调控网络分析。
【作者单位】:哈尔滨医科大学卫生统计学教研室
【分类号】:R346

【参考文献】
中国期刊全文数据库 前4条
1 武晓岩;李康;;基因表达数据判别分析的随机森林方法[J];中国卫生统计;2006年06期
2 武晓岩;闫晓光;李康;;基因表达数据的随机森林逐步判别分析方法[J];中国卫生统计;2007年02期
3 武晓岩;李康;;随机森林方法在基因表达数据分析中的应用及研究进展[J];中国卫生统计;2009年04期
4 莫春梅,倪宗瓒,高凤琼;回归树的建模与应用[J];中华预防医学杂志;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期
2 李飞;高小榕;高上凯;;基于随机森林算法的高维脑电特征优选[J];北京生物医学工程;2007年04期
3 陈建新;西广成;王伟;赵慧辉;陈静;;数据挖掘分类算法在冠心病临床应用的比较[J];北京生物医学工程;2008年03期
4 熊文;王枞;;改进粒子群与支持向量机混合的特征变换[J];北京邮电大学学报;2009年06期
5 蔡金锭;鄢仁武;;基于小波分析与随机森林算法的电力电子电路故障诊断[J];电力科学与技术学报;2011年02期
6 胥海威;何宽;;改进随机决策树群算法在监督分类中的应用[J];地理与地理信息科学;2010年06期
7 张郴;张捷;;中国入境旅游需求预测的神经网络集成模型研究[J];地理科学;2011年10期
8 马昕;郭静;孙啸;;蛋白质中RNA-结合残基预测的随机森林模型[J];东南大学学报(自然科学版);2012年01期
9 胡锋;邢洁清;;一种基于小波变换与随机森林的人脸识别方法[J];电脑知识与技术;2011年16期
10 叶圣永;王晓茹;刘志刚;钱清泉;;电力系统暂态稳定评估组合模型的比较[J];电网技术;2008年23期
中国重要会议论文全文数据库 前10条
1 贾少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年
2 李胜朋;王洪礼;冯剑丰;;基于不连续回归树的最大李雅谱诺夫指数计算方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
3 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
4 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
5 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
6 曹东升;许青松;梁逸曾;;Computer-Aided Prediction of Toxicity with Substructure Pattern and Random Forest[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
7 李梦龙;;Systematically analyze and select key features to microRNA precursors identification based on random forests[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
8 秦文丽;李益洲;李娟;余乐正;郭延芝;李梦龙;;基于蛋白质序列信息的信号肽上有害非同义单核苷酸多态性的预测[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
9 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
10 饶国强;冯辅周;江鹏程;靳莹;范结绪;;模糊识别在变速箱状态识别中的应用研究[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
3 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
4 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
5 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
6 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年
7 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
8 田健;计算机辅助分子设计提高蛋白质热稳定性的研究[D];中国农业科学院;2011年
9 戴俊程;基于全基因组关联研究的中国女性乳腺癌风险预测模型研究[D];南京医科大学;2011年
10 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
3 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
4 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年
5 李海燕;互信息特征选择的研究及在代谢组学中的应用[D];大连理工大学;2010年
6 朱新荣;径向基函数神经网络集成算法的研究及应用[D];大连理工大学;2010年
7 严康;基于支持向量机的特征选择算法研究[D];大连理工大学;2010年
8 唐晓敏;基于霍夫变换及条件概率模型的多目标检测[D];大连理工大学;2010年
9 王若飞;基于机器学习的蛋白质折叠预测算法研究[D];湘潭大学;2010年
10 杨向军;Web spam检测系统的设计和实现[D];华南理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 王凯戎,韩素萍;10家大型综合医院平均住院日现状调查[J];中华医院管理杂志;1994年02期
【相似文献】
中国期刊全文数据库 前1条
1 武晓岩;李康;;随机森林方法在基因表达数据分析中的应用及研究进展[J];中国卫生统计;2009年04期
中国重要会议论文全文数据库 前1条
1 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026