跳转至

2020年新发表的文章,把基因渐渗工具分为几类。 - 第一类基于种间群体基因频率变异分析 (Fst, LD, STRUCTURE, AFS, TreeMix)和 - 第二类基于种间DNA序列差异分析(ABBA-BABA, IM, IIM, ABC) 方法, 常用的分析基因渗入的工具有: MixMapper,TreeMix 和 TARGet ,shapiet(人类),Dsuite Dsuite又称为ABBA BABA test。 Dsuite github教程 Dsuite 中文教程 使用plink将vcf转换成treeMix可以使用的格式

1. Dsuite的安装 参考地址

cd ~/software/Dsuite
git clone https://github.com/millanek/Dsuite.git
cd Dsuite
make

测试命令 ./Build/Dsuite 添加环境变量

echo 'export PATH=$HOME/software/Dsuite/Dsuite/Build:$PATH' >>~/.bashrc
source ~/.bashrc
Dsuite #测试命令即可运行

2. 输入文件

  • call snp和indel的vcf文件,可以是压缩后的
  • 群体/物种图(SETS.txt),一个文本文件,每行代表一个个体,和其所属的物种/种群名称,如下所示。

测试文件下载

VCF file (此文件48M,使用XDM下载只要2min)

wget http://cichlid.gurdon.cam.ac.uk/Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz wget下载太慢了。 ##### 群体文件sets.txt wget http://cichlid.gurdon.cam.ac.uk/sets.txt sets.txt的文件格式如下

Placidochromis_cf_longimanus_1  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_2  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_3  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_4  Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_5  Placidochromis_cf_longimanus
Placidochromis_milomo   Placidochromis_milomo
Placidochromis_subocularis_1    Placidochromis_subocularis
Placidochromis_subocularis_2    Placidochromis_subocularis
Placidochromis_subocularis_3    Placidochromis_subocularis
Placidochromis_subocularis_4    Placidochromis_subocularis
Placidochromis_subocularis_5    Placidochromis_subocularis
Placidochromis_subocularis_6    Placidochromis_subocularis
Placidochromis_subocularis_7    Placidochromis_subocularis
Placidochromis_subocularis_8    Placidochromis_subocularis
Nbrichardi      Outgroup
群体文件sets.txt要求

左边是vcf里面对应的样本名称,右边是群体名称/品种名称(Population/species ),必须要有至少一行,右侧是Outgroup,如果vcf里面某个材料不想加入分析,右侧可使用xxx代替群体名称。


可选文件:

  • Newick格式的树。 树应具有与物种/种群名称相对应的叶子标签。分支长度可以存在,但不使用。 有效的例子: (Species2,(Species1,(Species3,Species4))); (Species2:6.0,(Species1:5.0,(Species3:3.0,Species4:4.0)));
  • Dinvestigate使用的test_trios.txt文件。 每行一个三人口/种,由标签按顺序分隔P1 P2 P3: Species1 Species2 Species3 Species1 Species4 Species2 ... ... ...

3. 运行

使用测试文件

3.1 使用Dtrios

Dsuite Dtrios  Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt

生成文件

-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_BBAA.txt -rw-r--r-- 1 chaim bioinf 3.2G Sep 3 23:19 sets_combine_stderr.txt -rw-r--r-- 1 chaim bioinf 8.0M Sep 3 23:19 sets_combine.txt -rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_Dmin.txt

3.2 使用Dinvestigate-对D显着升高的三重奏进行后续分析:在沿基因组的窗口中计算D,f_d和f_dM

(可选工具,需要有可选分组的文件)

Dsuite Dinvestigate [OPTIONS] Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz  sets.txt test_trios.txt

3.3 Fbranch-一种启发式方法,旨在帮助解释许多相关的f4比率结果

(可选工具,需要有可选分组的文件)

Dsuite Fbranch [OPTIONS] TREE_FILE.nwk FVALS_tree.txt > fbranch.txt

4.分析Dtrios的输出文件

查看输出的文件 head -3 sets_Dmin.txt

P1 P2 P3 Dstatistic Z-score p-value f4-ratio BBAA ABBA BABA Alticorpus_macrocleithrum Alticorpus_geoffreyi A_calliptera 0.00562169 0.447147 0.327385 0.00349955 4233.37 1722.86 1703.6 Aulonocara_minutus Alticorpus_geoffreyi A_calliptera 0.0084396 0.694493 0.243687 0.00516657 4314.48 1702.72 1674.22

回到页面顶部