24小时热门版块排行榜    

CyRhmU.jpeg
查看: 536  |  回复: 3
【奖励】 本帖被评价3次,作者wjmed增加金币 3
当前主题已经存档。

wjmed

木虫 (正式写手)


[资源] 【原创】并行虚拟筛选软件eHiTS使用札记--庆祝圣诞

前面发的几个帖子受到论坛中朋友的支持,特别时csfn斑竹的鼓励,让我信心大涨。
正赶上圣诞节,把这段时间一直在研究的一个分子对接软件的使用心得拿出来和大家分享,祝大家圣诞快乐。

好了,下面进入正文,期待你们的再次支持:

eHiTS是由SimBioSys, Inc.公司开发的用于快速虚拟筛选的分子对接软件,运行平台为Linux,可以并行化运算。对学术用户免费,下载申请表格,填写协议后,传真返回(或者扫描为图片,通过电子邮件返回),可以使用一年。第二年使用可以如上再次申请。
公司主页:
http://www.simbiosys.ca/ehits/

分为以下几个部分:
        用法
        输入文件要求
        输出文件要求
        结果分析
        其他参数设定
        通过已知活性数据构建并使用训练集
        评分程序
        文件格式转化程序
        安装及常见问题解决方法
       

用法:
在命令行窗口输入ehits.sh,不输入任何参数,回车,ehits会给出各种参数的用法,非常直观。
ehits可以直接输入晶体结构,软件会自动分解蛋白和配体,然后对蛋白和配体进行对接:
$ehits -complex pdb_code.pdb


虚拟筛选的命令输入格式为:
$ehits -receptor rec.mol2 -ligand database.mol2 -clip lig.mol2 -allowflat -param eHiTS_6.2/data/parameters_HTS.cfg -fast -usedb [-out database_ehits.sdf]



------------------------------------
输入文件要求:
---------------------------------------
1.输入格式:
        mol,sd/sdf,pdb,mol2,tma(tagged molecule ascii),tmb(tagged molecule binary)
注:tma,tmb为eHiTS默认格式。

2.文件名中除了后缀前的点(.),不能有其他的点(.)。

3.受体(蛋白质):
"-receptor rec.mol2"
i)不需要加氢
ii)如果受体输入格式为PDB,PDB文件中需要包含“CONECT”信息。PDB数据库中的复合物结构大多需要修正,不过很多软件在修正后保存pdb文件时,不会在文件中保留“CONECT”信息。此时,最好存成其他格式,比如mol2,sd等。
iii)若输入文件为PDB格式,软件可以根据温度因子(temperaturee factor)对残基位置进行变动。

4.配体:
"-ligand lig.mol2"
"-ligand database.mol2"
i)不需要准备质子化状态
ii)如果是数据库,不要提供目录,而是提供包含多个分子的文件,比如multi_mol2或者multi_sdf文件。
iii)必须为3D分子,如果有2D分子则直接剔除。如果有平面的3D分子,则使用"-allowflat"选项避免将之剔除。

5.辅基(co-factor)、水(water)、金属离子(metal ion)的考虑:
"-water" 与"-complex"合用,不删除水分子


6.活性位点的确定:
i)通过"-clip"选项,并加以下任一文件确定:
复合物中共结晶的配体分子文件: "-clip lig.mol2"
包含活性位点氨基酸残基原子的文件: "-clip selected_residues.mol2"
ii)"-margin N"确定活性位点盒子大小,默认"-margin 7"
iii)如果确切知道盒子的范围,可以选取盒子对角两个点所在的原子存为PDB文件,将之作为参照,用"-clip two_corner_atoms.pdb -margin 0"参数定义盒子

7.参照分子(用于计算RMSD)
-rms lig.mol2

--------------------------------------
输出文件要求:
---------------------------------------
1.输出分子文件格式:
        mol,sd/sdf,tma(tagged molecule ascii),tmb(tagged molecule binary)

2.运算路径:
i)默认$HOME/ehits_work
ii)可以通过修改安装目录中的aux.sh文件中的ehits_work路径来修改输出路径;修改后需把grant文件放入新的ehits_work/license目录中。
iii)如果不修改aux.sh文件,则在运算时通过添加 -workdir 参数也可以暂时修改运算路径。
iv)ehits_works/目录包含:
license/
logs/
preprocess/
results/
results/receptor/ligand/
0/,1/,2/,3/,4/,5/,6/,7/,8/,9/
如果分子数为4位数,则生成4层目录:n/n/n/n/(n=0~9),前999个分子位于0/目录中,其中1~9位于0/0/0/n/目录中,10~99位于0/0/n/n/目录中,100~999位于/0/n/n/n/目录中;1000~1999个分子位于1/目录中...
如果分子数为5位数,则生成5层目录:n/n/n/n/n,n=0~9

3.输出分子文件
i)默认$HOME/ehits_work/results/protein/ligand/ehits_best.sdf
通过"-out"选项修改

ii)输出文件中分子的标记
-tagname
对于mol2文件,不要使用该选项,软件会自动从文件内部识别mol2文件名,并将之添加到输出结果中。

4.评分文件
i)评分值以pKi为单位(Kd或Ki的对数值,分值在-6时,活性在uM级别)
ii)评分文件在$HOME/ehits_work/results/中


--------------------------------------
其他参数设定:
---------------------------------------
1.精度
-accuracy N
i)N默认为3
ii)"-accuracy 1"即"-fast"
iii)N越大,采样数越多,运算时间越长,一般,运算时间与精度呈平方增长。

2.参数文件
对接:
-param *.cfg
默认eHiTS/data/parameters.cfg

虚拟筛选:
-param *.cfg
默认eHiTS/data/parameters_HTS.cfg

评分:
-rkb *.rkba
rkb文件可以通过训练(training utility)获得。

3.并行化
-lsf_nodes N 通过LSF运行N个节点
-pbs_nodes N 通过PBS运行N个节点
-proc N 通过SMP机器运行多个进程
-sge_nodes N 通过Sun Grid Engine机器运算并行任务数
注:在SUNWAY,可以通过szrun来进行并行运算:
$szrun 4 2 ehits ...通过4个节点×2个CPU

4.继续上次中断的运行:
"-reuse"

5.结束任务
$stop_ehits.sh

6.构象选择(在输出文件中,每个分子仅能保留一种构象)
-select N 选取每个分子的N个构象进行分析
默认"-select 32"

-toprand N 选取每个分子的N个构象进行分析
如果与"-rms"选项合用,则best.sdf文件中的第一个构象是和参考分子RMS值最小的构象。
eg.
"-toprank 10"

7、受体柔性:通过软对接实现受体的柔性
i)利用PDB文件中的温度因子(temperature factor)信息,预测原子可能位置,产生经验评分函数
ii)旋转Ser,Thr,Tyr的羟基,以及Lys的-NH3+。eHiTS并不移动主/侧链的重原子
iii)在大多数力场中,6-12 potential计算中,并不考虑立体位阻(steric clash)或者van der Waals势能


--------------------------------------
结果分析:
---------------------------------------
图形软件Chevi(eHiTS配套软件,对所有用户免费)和UCSF Chimera都可以进行受体-配体相互作用分析,后者还可以将sdf文件另存为mol2格式,但是不能保留其中的氢原子。
另外,Sybyl(输入格式选择MACCS),Maestro,Pymol,CACTVS也可用于结果分析。
---------------------------------------

---------------------------------------
通过已知活性数据构建并使用训练集
---------------------------------------
eHiTS对已知数据集的训练分为两种情况:
1.VSTS Fliter Utility高通量虚拟筛选过滤规则
分为两个步骤:
i)仅对活性分子和非活性分子通过神经网络(neural net)进行训练,得到filter。
$eHiTS_6.2/filter_training/filter_train.sh activies decoys output [options]
eg.
$eHiTS_6.2/filter_training/filter_train.sh inhibitors_multi.mol2 decoys_multi.mol2 trained_filter.net [-num_act 30] [-num_decoy 200] [-num_round 20]
在当前目录生成trained_filter.net文件,亦即filter,用于下步快速过滤。

参数说明:
-num_act 用于训练的活性分子,默认为全部
-num_decoy 用于训练的非活性分子,默认为全部
-num_round 训练次数,默认为20

ii)正常使用ehits并进行参数设定,以利用filter快速对数据库进行过滤(6~7个分子/min),筛除可能的非活性部分,保留数据库中的一部分分子(一般10%),进行分子对接。
ehits.sh ..... -filter [trained_filter.net] -dock 10
说明:
-filter trained_filter.net 使用trained_filter.net作为filter
-filter 使用ehits默认网络(net)作为filter
-dock 10 保留数据库中的10%分子进行分子对接
-dock 0 仅进行过滤而不对接

一般,过滤后的评分值介于0~1,1表示分子与活性分子非常吻合,而0表示基本不吻合。


2.Traning Utility通过对已知数据训练优化评分函数
除了对活性分子和非活性分子,还加入受体进行训练,得到的参数文件用于考察受体和配体的相互作用及作用强度,分为两种:
i)validation training:PDB复合物以及一组decoys进行训练,用以优化评分函数,更好的预测配体和一个家族内的几个靶点的结合模式。

ii)enrichment training:针对某个受体,利用活性/非活性化合物以及该受体结构进行训练,优化评分函数,以使活性化合物的评分比非活性化合物更高,以提高富集率。(better rank activities over decoys)
eg.
$enrich_training.sh -receptor rec.mol2 -clip lig.mol2 -actives inhibitors_multi.mol2 -decoys decoys_multi.mol2

$enrich_training.sh -complex complex.pdb -actives inhibitors_multi.mol2 -decoys decoys_multi.mol2

在ehits_work/preprocess/receptor/目录中生成WeightsTable.ria文件。由于该文件是针对没个特定受体生成的训练文件,所以在进行虚拟筛选时,eHiTS会自动在ehits_work/preprocess/receptor/目录钟寻找该文件。

注:提供尽可能多的活性化合物和两倍数量的非活性化合物用于训练。运算速度与ehits对接速度相近。

---------------------------------------
score.sh Utility评分程序
---------------------------------------
用法:
$score.sh 回车,给出提示
$score.sh macro.mol2 docked_lig.sdf -clip ref.mol2
-conform 50产生构象数。仅当输入配体为1个分子时,可以产生构象。multi分子文件不能产生构象。
-out lig_conf.sdf 输出的构象集文件
-opt 找出输入结构的局部最低评分函数,选用该参数后,计算时间大大延长。


---------------------------------------
Convert Utility文件格式转化程序
---------------------------------------
$convert infile.tma outfile.sdf [option]
输入格式:mdl,sd/sdf,pdb,mol2,tma,tmb
输出格式:mdl,sd/sdf,tma,tmb
-config ...../data/parameters.cfg
-noLp
-noH
-verify


---------------------------------------
安装:
---------------------------------------
下载安装文件:
        eHiTS_6.2_Linux.bin适用于所有linux平台
        eHiTS_6.2_Linux_Pentium3.bin,适用于P3以上电脑,比前者快30%
#sh eHiTS_6.2_Linux.bin /usr/local/  在/usr/local/目录生成eHiTS_6.2目录,以及两个链接文件:ehits.sh和stop_ehits.sh
#cp ehits.lic /usr/local/eHiTS_6.2  将ehits.lic拷入eHiTS_6.2目录。该lic文件从官方网站申请获得,包括几个字符,如“ucnsyphu23”,用于下面从官方网站服务器获取认可。因而,需要事先签署协议(对于学术用户1年一签),则官方服务器可以通过该lic的申请。

#cd /usr/local/bin
#ln -s ../eHiTS_6.2/ehits.sh ./ehits 创建文件链接
#exit 退出管理员用户

运行时,在$HOME下生成ehits_work,其中的license目录中自动从官方服务器上获得lic文件

修改安装目录中的aux.sh文件,将ehits_work的路径修改为自己的运算路径(默认为$HOME),在新的ehits_work目录中,自动生成license等目录,将从网站上获取的grant文件放入license目录。可以运行。
如果不修改aux.sh文件,则在运算时通过添加 -workdir 参数也可以暂时修改运算路径。

-----------------------------------
不能正确申请lic的解决方法(比如不能链接到官方服务器上):
---------------------------------------
不能获取license时,会在~/ehits_work/license目录中生成eHiTS.*.query文件,通过该文件,有两种方法获取license:
1.通过网站:
   http://www.simbiosys.ca/license/
2.发送电子邮件:
support@simbiosys.ca
在附件中添加文件 eHiTS.*.query

将获得的eHiTS.*.grant文件,放入eHiTS.*.query所在目录,即~/ehits_work/license。

OK!

----------------------------------------
license安装:
----------------------------------------
i)不同用户或者CPU会自动向官方服务器申请不同的license文件,并将之放在$HOME/ehits_work,比如
eHiTS.dell.wjmed.grant 用户wjmed在dell机器上的license

ii)并行linux超级计算机,每个节点均需要license,由于cluster往往有网关保护,所以不能直接链接到官方服务器上,所以按照上面提到的方法,向官方网站上传quer文件,获取grant文件,并将之放入ehits_work/license目录中。比如:
eHiTS.gn012.wjmed.grant
注:gn012为012节点,wjmed为用户名。
-----------------------------------------
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yelverxm

金虫 (小有名气)


★★★★★ 五星级,优秀推荐

支持,学习。。。
2楼2007-12-24 13:26:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yinjj

金虫 (职业作家)


★★★★★ 五星级,优秀推荐

虽然我不用,但这种分享值得顶
3楼2007-12-24 14:36:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xufund

至尊木虫 (知名作家)


★★★★★ 五星级,优秀推荐

非常好的软件,但是俺没有申请到免费使用。遗憾呀
4楼2008-02-11 14:43:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 wjmed 的主题更新
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复(可上传附件)
信息提示
请填处理意见