权衡网络选择(生信文章分享多组学数据、多重网络、PageRank)

Posted

篇首语:世上最累人的事,莫过于虚伪的过日子。本文由小常识网(cha138.com)小编为大家整理,主要介绍了权衡网络选择(生信文章分享多组学数据、多重网络、PageRank)相关的知识,希望对你有一定的参考价值。

权衡网络选择(生信文章分享多组学数据、多重网络、PageRank)

今天跟大家分享一篇去年发表在Computers in Biology and Medicine期刊上的文章,题目为Network-based prioritization of cancer genes by integrative ranks from multi-omics data


摘要:

作者提出一种整合的基于等级(rank-based)的方法(iRank),通过一个统一的网络框架整合多组学数据来对癌症基因进行优先级排序。应用于TCGA的HCC数据集上。iRank的核心是基于带有约束的改进PageRank算法


数据:

出于概念验证(proof-of-concept,是对某些想法的一个较短而不完整的实现,以证明其可行性,示范其原理,其目的是为了验证一些概念或理论)的考虑,作者优先考虑从KEGG和Malacards汇编的HCC癌基因,共有33个基因与HCC的发生和发展有因果关系。HCC多组学数据从TCGA下载。在匹配一致的样本信息后,最终选择了37个具有对照和肿瘤的样本。

iRank使用数据类型有RNA-Seq,DNA methylation,somatic mutation, miRNA-seq和copy number variant

作者使用多重网络(multiplex network)来组织相应的多组学数据。在跨级交互组(cross-level interactome)中,作者选择基因调控网络(GRN)作为核心层。作者从RegNetwork下载整合的人类GRN,并从miRTarbase下载了miRNA调控相互作用。另外使用STRING, Bind, BioGrid, HPRD, IntAct和MINT数据库构建了蛋白质相互作用网络(PPI)。


iRank框架:

iRank框架示意图

iRank框架,主要包含6步。(a)(b)下载HCC数据,并从各种数据库中构建了多层级的综合生物分子网络。(c)根据正常癌症样本的差异互信息(DMI)衡量边的权重,将网络与多组学数据进行整合。(d)作者在加权多重网络基础上提出了约束PageRank算法(CPR),在每个网络中,节点的PR值通过CPR实现。(e)(f)整合多个网络的等级后,获得每个节点的最终排名。图中R()代表节点在相应层级的排名,α,β,γ是相应权重。

(c)多重网络与多组学数据整合

通过计算一条边上两个节点X和Y之间的互信息,对多重网络边进行加权(weighing),从而将分子数据映射到整合的多重网络上。定义多重网络每个边的差异互信息(DMI)为随后DMI通过min-max方法进行标准化,使用标准化后的DMI来权衡边以获得加权多重网络。

现以ORIrd为例说明(ORIrd代表所用数据为GRN+RNA-Seq+DNA甲基化):

在RNA-Seq数据中找到7391和1843两个基因的37个正常样本数据,37个癌症样本数据。计算差异互信息(权重)。


在DNA甲基化和RNA-Seq数据中找到5934号基因的37个正常样本数据,37个癌症样本数据。计算差异互信息(权重)。

(d)在加权多重网络上实施约束PageRank算法(CPR)

在去除权重为0的边后,加权网络是一种特定内容网络(content-specific network),然后通过CPR算法的PR值获得节点排序。

仍以ORIrd为例说明:

1)基因调控网络(RegNetwork)层面的转移矩阵构建

针对weighted_gene_regulation_network,统计source gene,target gene,再取并集得到基因总数NR。构造转移矩阵(稀疏):首先构造三个全零的NR×NR的稀疏矩阵R, RW, RCS。如果两基因之间有调控关系,R和RCS对应元素为1,RW对应元素对DMI。然后对R每一列求和,如果某列和为n(不为零),则R中该列元素除以n。加权转移矩阵为RTW=R.*RW。

2)DNA到RegNetwork的转移矩阵构建

针对DNA_to_RNA_regulation,统计基因交集个数D。构造转移矩阵(稀疏):首先构造三个全零的NR×D的稀疏矩阵DR, DWR, DRCS。如果甲基化基因与网络基因之间有调控关系,DR和DRCS对应元素为1,DWR对应元素对DMI。然后对DR每一列求和,如果某列和为n(不为零),则DR中该列元素除以n。加权转移矩阵为DRTW=DR.*DWR*(λ/2)。

最终得到(NR+D)长度的PR值。对于33个HCC癌基因,找到每个基因对应的PR值以及在所有基因中的排名。

PageRank算法以前就是Google的网页排序算法。PageRank算法,对每个目标网页进行附上权值,权值大的就靠前显示,权值小的就靠后显示。PageRank算法就是给每个网页附加权值。PageRank算法借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。

PageRank算法的核心思想

(1)如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是PageRank值会相对较高。

(2)如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。

一个网页的PR值,概率上理解就是此网页被访问的概率,PR值越高其排名越高。


结果:

给出了将网络和组学数据结合在一起的不同策略的等级箱型图。ORI代表在原始GRN中获得的等级排名,意味着仅考虑GRN的网络拓扑。ORIr代表通过RNA-Seq数据加权后的GRN基因排名。

还通过添加多级信息(即DNA甲基化(d),体细胞突变(s)和miRNA(m))在多层网络中依次运行iRank。

作者发现,当在优先次序中整合更多分子水平的组学数据时,癌症基因往往会获得更高的排名。并且拥有更小的平均值和标准差。

相关参考

数值变量资料的统计描述(组学数据分析遇难题?SIMCA多元变量统计分析来帮你)

...难题。百趣生物联合赛多利斯特邀资深行业专家来为大家分享,他们是如何在组学数据分析中解决这一问题,快来一起围观学习大咖的数据分析独家秘籍吧。ps:直播间更有福利大放送:SIMCA最新版SIMCA17一个月试用版免费送。报...

怎么用ai作图(AI画图绘画主要步骤,展示AI画的几个漂亮妹妹(三))

...务的需求,选择适合的AI模型。例如,可以使用生成对抗网络(GAN)来生成逼真的图像,或者使用卷积神经网络(CNN)来分类图像。模型训练:使用收集的数据集和选定的模型进行训练。训

投稿直接接收(曾高调拒收国内医院文章的MDPI旗下期刊现已“出狱”,不再拒绝国内医院,生信套路文章可投稿)

瑞士医学-肿瘤学领域期刊Cancers,2017年有首个影响因子,由MDPI出版商以月刊的形式进行出版,ISSN/eISSN号均为2072-6694。官方投稿网站为:https://login.mdpi.com/loginCancers期刊的主编是来自于美国得克萨斯大学安德森癌症中心(Departmento...

智能无线网络摄像机(让你看得更清楚的无线WiFi监控摄像头,大华P20A2-W评测)

随着无线监控摄像头的普及,将传统摄像头复杂的安装步骤化繁为简,几乎做到了即插即用,让普通人也能够便捷地进行监控摄像头的布设工作,轻松完成安防的相关工作。在行业井喷式的发展中,越来越多的无线摄像头产品涌...

思科路由与主机怎么连接上网(网络工程师如何用思科路由器配置GRE Over IPsec)

前面我们分享过在eve模拟器环境下,使用思科路由器配置手工方式的IPsecV-P-N,但现实中往往不是两边站点各只有一个网段,可能会有很多网段,这就需要站点之间跑动态路由协议。但是站点之间通过IPsecV-P-N互联会有个问题:就...

数字IC测试仪(单片机实例分享,简易网络测试仪)

网络已经融入了当今生活的各个方面,成为绝大多数人生活中不可或缺的重要组成部分。因为职业的关系,笔者经常会接触到网线的铺设以及网络的测试等方面工作,在工作中我发现借助专业的网络测试仪,可以极大地减少网络...

漆膜厚度仪(二手车鉴定专业工具(漆膜仪)如何选择,网络购买避免哪些坑)

今天这篇文章是一篇关于二手车鉴定专业工具的文章,俗话说工欲善其事,必先利其器,我们就来聊聊鉴定的专业工具。其实关于漆膜仪的文章,我以前做过一个视频,但是没有给大家推荐具体的型号,后台总有网友问我到底应...

漆膜厚度仪(二手车鉴定专业工具(漆膜仪)如何选择,网络购买避免哪些坑)

今天这篇文章是一篇关于二手车鉴定专业工具的文章,俗话说工欲善其事,必先利其器,我们就来聊聊鉴定的专业工具。其实关于漆膜仪的文章,我以前做过一个视频,但是没有给大家推荐具体的型号,后台总有网友问我到底应...

惠普打印机 p(HP 网络打印机设置方法)

HP网络打印机设置方法HP的一款激光打印机,型号是HP2015N,自带HPJetdirect快速以太网嵌入式打印服务器,支持网络打印功能。现在的情况是,打印机通过网线与局域网里的交换机连接,公司里二十多台电脑也是通过网线与交换机...

有关网络的论文(Arxiv网络科学论文摘要10篇(2022-10-07))

...据中信号选择的多尺度方法;通过重采样减少实验性社会网络中的偏差放大;用于分类的考虑中心的随机游走图嵌入方法;影响最大化:分而治之;大规模综合图数据集生成框架;具有高阶结构的图混合模式;香农熵:加密货币投资组合...