看2020年新发表的文章,把基因渐渗工具分为几类。 - 第一类基于种间群体基因频率变异分析 (Fst, LD, STRUCTURE, AFS, TreeMix)和 - 第二类基于种间DNA序列差异分析(ABBA-BABA, IM, IIM, ABC) 方法, 常用的分析基因渗入的工具有: MixMapper,TreeMix 和 TARGet ,shapiet(人类),Dsuite Dsuite又称为ABBA BABA test。 Dsuite github教程 Dsuite 中文教程 使用plink将vcf转换成treeMix可以使用的格式
1. Dsuite的安装 参考地址
cd ~/software/Dsuite
git clone https://github.com/millanek/Dsuite.git
cd Dsuite
make
测试命令 ./Build/Dsuite
添加环境变量
echo 'export PATH=$HOME/software/Dsuite/Dsuite/Build:$PATH' >>~/.bashrc
source ~/.bashrc
Dsuite #测试命令即可运行
2. 输入文件
- call snp和indel的vcf文件,可以是压缩后的
- 群体/物种图(SETS.txt),一个文本文件,每行代表一个个体,和其所属的物种/种群名称,如下所示。
测试文件下载
VCF file (此文件48M,使用XDM下载只要2min)
wget http://cichlid.gurdon.cam.ac.uk/Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz
wget下载太慢了。
##### 群体文件sets.txt
wget http://cichlid.gurdon.cam.ac.uk/sets.txt
sets.txt的文件格式如下
Placidochromis_cf_longimanus_1 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_2 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_3 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_4 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_5 Placidochromis_cf_longimanus
Placidochromis_milomo Placidochromis_milomo
Placidochromis_subocularis_1 Placidochromis_subocularis
Placidochromis_subocularis_2 Placidochromis_subocularis
Placidochromis_subocularis_3 Placidochromis_subocularis
Placidochromis_subocularis_4 Placidochromis_subocularis
Placidochromis_subocularis_5 Placidochromis_subocularis
Placidochromis_subocularis_6 Placidochromis_subocularis
Placidochromis_subocularis_7 Placidochromis_subocularis
Placidochromis_subocularis_8 Placidochromis_subocularis
Nbrichardi Outgroup
群体文件sets.txt要求
左边是vcf里面对应的样本名称,右边是群体名称/品种名称(Population/species ),必须要有至少一行,右侧是Outgroup,如果vcf里面某个材料不想加入分析,右侧可使用xxx
代替群体名称。
可选文件:
- Newick格式的树。 树应具有与物种/种群名称相对应的叶子标签。分支长度可以存在,但不使用。 有效的例子: (Species2,(Species1,(Species3,Species4))); (Species2:6.0,(Species1:5.0,(Species3:3.0,Species4:4.0)));
- Dinvestigate使用的test_trios.txt文件。 每行一个三人口/种,由标签按顺序分隔P1 P2 P3: Species1 Species2 Species3 Species1 Species4 Species2 ... ... ...
3. 运行
使用测试文件
3.1 使用Dtrios
Dsuite Dtrios Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt
生成文件
-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_BBAA.txt -rw-r--r-- 1 chaim bioinf 3.2G Sep 3 23:19 sets_combine_stderr.txt -rw-r--r-- 1 chaim bioinf 8.0M Sep 3 23:19 sets_combine.txt -rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_Dmin.txt
3.2 使用Dinvestigate-对D显着升高的三重奏进行后续分析:在沿基因组的窗口中计算D,f_d和f_dM
(可选工具,需要有可选分组的文件)
Dsuite Dinvestigate [OPTIONS] Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt test_trios.txt
3.3 Fbranch-一种启发式方法,旨在帮助解释许多相关的f4比率结果
(可选工具,需要有可选分组的文件)
Dsuite Fbranch [OPTIONS] TREE_FILE.nwk FVALS_tree.txt > fbranch.txt
4.分析Dtrios的输出文件
查看输出的文件 head -3 sets_Dmin.txt
P1 P2 P3 Dstatistic Z-score p-value f4-ratio BBAA ABBA BABA Alticorpus_macrocleithrum Alticorpus_geoffreyi A_calliptera 0.00562169 0.447147 0.327385 0.00349955 4233.37 1722.86 1703.6 Aulonocara_minutus Alticorpus_geoffreyi A_calliptera 0.0084396 0.694493 0.243687 0.00516657 4314.48 1702.72 1674.22