You are on page 1of 8

bioRxiv

Taxonomic vs genomic fungi: contrasting


evolutionary loss of protistan genomic heritage
and emergence of fungal novelties

Summary
这篇⽂章主要通过对123个真菌基因组的⽐较分析,探讨了真菌基因组的进化历程。具体来
说,⽂章使⽤了基因家族的进化分析⽅法,⽐较了不同真菌物种之间的基因家族数量和成
员,并推断出哪些基因家族在进化过程中发⽣了复制或丢失事件。此外,⽂章还使⽤计算⽅
法估计每个节点上的净变化(增益减损),从⽽确定哪些基因家族在进化过程中发⽣了扩张
或收缩。

⽂章还探讨了真菌如何通过进化来适应不同的⽣态环境,并介绍了⼀些真菌在⽣态系统中扮
演的重要⻆⾊。例如,作者指出,真菌可以通过合作形成共⽣关系,与其他⽣物共同利⽤资
源。此外,作者还介绍了⼀些真菌在分解有机物、促进植物⽣⻓和抗病等⽅⾯的重要作⽤。

最后,⽂章还详细讨论了转录因⼦家族的进化动态,并提供了补充数据以⽀持这⼀结论。总
之,本⽂通过对⼤量真菌基因组数据进⾏深⼊分析和⽐较,为我们更好地理解这些重要⽣物
在⾃然界中的作⽤提供了重要的参考。

Highlight
Clustering of Proteins
作者从⽹上下载了123个蛋⽩组,包含106个真菌物种和17个⾮真菌物种(作为外群)。⾸先⽤
MMseqs2迭代了3次,然后根据蛋⽩组的⼤⼩设置了不同的过滤规则(对于较⼤的蛋⽩组要
求相似的覆盖度⼤于20%,⽽较⼩的则要⼤于80%)并进⾏Markov聚类(inflation参数设置为
2.0)。然后再根据MMSeqs和HMM search的结果将某些clusters进⾏合并,得到较完整的
clusters,在⽂中作者把他们称为homologous protein groups(HGs)。

Inference of genome-wide duplication and loss history of clusters


⾸先作者先建了基因树,然后再把根据基因树界定的直系同源基因组⽤Dollo parsimony的
加强版本COMPARE映射到物种树上来推测基因的复制和丢失事件。基因组的复制可能是由
很多事件引起的(de novo origination, duplication, horizontal gene transfer, or the result
of undetectable distant homology),但这篇⽂章中并没有作区分。
Annotation of homologous groups
对HGs的domain content和GO terms进⾏评估,分别⽤了InterProScan和GO富集分析
( ⽤Homo sapiens GO list当作参考 )。总的⼀个原则,如果⼀个HG⾥超过50%的蛋⽩都被
注释为同⼀类型(a specific domain, small secreted proteins, or extracellular
localisation),则这个HG就是这个家族的。这篇⽂章主要鉴定了3个,TF,TRP和EP。不同
家族的鉴定都设置了不同的策略,其中TF的鉴定是通过查阅⽂献后选择了DNA binding
domains (DBDs)。对于某个HG,只要它其中的DBD超过50%就认为它属于TF家族,之后还
会过滤掉⼀些所含的domain特征是⾮TF家族或者和如核糖核酸酶、⾦属肽酶、染⾊质重塑
或剪接等过程相关的HG。总的来说,就是DBD的内容以及⼀些之前的报道来将HGs鉴定到
TF家族中。
Dynamic turnover of transcription factor families
作者根据domain content确定了657个TF HGs,并根据以前的报道将他们分为了52个TF家
族。在早期的真菌演化过程中,⼏乎都是以扩张为主,如Chytrids和Zoopagomycota节
点,⼏乎没有丢失的。这恰好与原⽣动物TF家族的演化过程相似。⽽在Early Diverging
Fungi(EDF)演化的后期,TF家族有较⼤的变化,在Mucoromycota的MRCA和衍⽣真菌中,
获得了87个基因,丢失了43个,在Dikary的MRCA中检测到117个增加184个丢失。在现存
的Mucoromycota中,其含有真菌中最多的TF家族,现存的Dikarya中尤其是Ascomycota的
TF家族有类似的规模,但是多样性⽐较低。这是由于TF家族中trans 2和Zn cluster的扩张以
及某些家族的丢失。

GENOME RESEARCH
Estimating the tempo and mode of gene family
evolution from comparative genomic data

Summary
这篇⽂章主要介绍了⼀种基于随机出⽣和死亡模型的基因家族演化模型,该模型可以有效地
应⽤于多物种基因组⽐较。该模型考虑了系统发育树上的分⽀⻓度、复制和删除速率等因
素,从⽽提供了不同谱系间基因家族⼤⼩差异的预期。⽂章指出,尽管在整个基因组⽐较中
发现了有机体基因家族⼤⼩的变化是相当普遍的,但当时还没有能够估计祖先状态或推断哪
些谱系已经扩张或收缩的基因家族演化模型。具体来说,该模型假设每个基因家族在任何时
刻都有⼀定的概率进⾏复制或删除,并且这些概率可以随着时间和谱系⽽变化。通过对这些
概率进⾏建模,可以计算出在不同谱系间基因家族⼤⼩的期望值。作者还使⽤了⻉叶斯⽅法
来估计模型参数,并使⽤⻢尔科夫链蒙特卡罗⽅法来对参数空间进⾏采样。此外,家族⼤⼩
之间的巨⼤差异通常被归因于⾃然选择的影响,但缺乏强有⼒的统计依据来⽀持这些结论。
作者应⽤他们提出的模型对五种酵⺟物种进⾏数据分析,并展示了其适⽤性。

Highlight

λ
这个λ是系统发育树的出⽣和死亡率参数,它描述了任何基因获得或丢失的概率。这⼀切都
基于⼀个假设,基因家族中每个基因要么出⽣(被复制),要么死亡(通过删除或者假基因化⽽
丢失),⽂章中使⽤的出⽣/死亡这两个词包括了基因起源和固定的过程。则任何基因在相同
时间内被复制的概率为λΔt,被丢失的概率为μΔt,如果假定的初始基因家族的基因数量不为
0且基因丢失和复制的概率相等(λ = μ),则⽤该模型算出来的经过Δt时间后,基因家族的⼤
⼩等于初始时的⼤⼩(在基因丢失和复制的概率相等的时候,如果Δt较⼤,基因家族既不会
持续扩张也不会持续收缩)。
在后⾯跑CAFE的时候,我每⼀轮要跑10遍,并选择具有最⼤似然值的那个λ,如果最⼤似然
值都⼀样的话,我就选中值。此外,还要选择合适的γ值,-k参数2-10都要跑⼀次(选具有最
⼤似然值的γ),所以⼀轮要跑90次。⽬前第⼀个节点跑出来显著收缩或扩张的基因家族数量
太少,和以前的数据不太⼀样,要试试后续节点的情况。

PNAS

Improved global protein homolog detection with


major gains in function identification

Summary
这篇⽂章开发的PRotein Ortholog Search Tool(PROST)依赖于⼀种语⾔模型,其主要是⽤
数字去表示蛋⽩质,并使⽤离散余弦变换来压缩数据去提取最基本的部分。这种做法⼤⼤提
⾼了运算的速度,此外他还计算了匹配到的蛋⽩质序列之间的距离,能产⽣⽐以前序列同⼀
性低得多的homologs。PROST在全局同源性检测⽅⾯表现出⾊,但在检测局部同源性⽅⾯
表现不佳,其可能更适合⽤于全基因组/蛋⽩组的⽐较。

Highligh
The evaluation of the PROST
⽤了Pfam, Gene3D和SUPERFAMILY数据库来做测试,与⽐较常⽤的四个⼯具CSBLAST,
PHMMER, NCBI-BLAST和FASTA进⾏⽐较,⽤AUC1000的得分来当评判的标准。结果显示
不管是⽤的哪⼀个数据库,PROST的AUC和AUC1000得分都是最⾼的。对于confusion
matrix,PROST预测的准确率也达到了96%的⽔平。

Runtime
PROST只需要创建⼀次数据库,然后该数据库可以被反复使⽤。其可以在13.15 s ±60 ms内
创建⼀个从SwissProt随机采样的100个序列的数据库,并在71.89 s ± 347.8 ms内使⽤⼀个
GPU创建1000个序列。对照⾃⼰搜索100个序列的数据库需要519 ms ± 6.3 ms,对照⾃⼰
搜索1000个序列需要976 ms ± 10.6 ms。在预处理的SwissProt PROST数据库中嵌⼊和搜
索⼀个序列只需要1.02 s±7.3 ms。以上数据都是基于NVIDIA A100 GPU和⼀个单核的AMD
EPYC 7543 CPU得出的。PROST也可以只使⽤CPU进⾏运算。

You might also like