版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

>论坛更新日志 (5528)
>导师招生 (2062)
>考研 (1856)
>虫友互识 (416)
>文献求助 (396)
>考博 (293)
>硕博家园 (186)
>招聘信息布告栏 (121)
>论文投稿 (99)
>休闲灌水 (82)
>博后之家 (80)
>基金申请 (72)
>公派出国 (43)
>绿色求助(高悬赏) (39)
>找工作 (38)
>教师之家 (35)

北京石油化工学院2026年研究生招生接收调剂公告

返回列表

yjcmwgk

禁虫 (文坛精英)

密度泛函·小卒

QC强帖: 38
应助: 165 (高中生)
贵宾: 16.999
金币: 554.6
散金: 39880
红花: 395
沙发: 2
帖子: 10406
在线: 1528.1小时
虫号: 448368
注册: 2007-11-01
专业: 理论和计算化学
管辖: 科研工具资源

[求助] 用Python读Gaussian的cube文件，速度很慢，怎么破？谢谢！！！已有4人参与

向各位python大侠求教一个问题，谢谢各位！
我正在用python读一个由Gaussian生成的cube文件。但是读文件读得非常慢，读一个6M多的cube文件，居然用了3分钟！

具体问题如下：
用cubefile来打开某个cube文件。然后继续

CODE:

    tmpcubedata = [] !先设一个空列表，待会儿用来存储数据

    tmpcubedata = tmpcubedata + tmpline.split() !tmpline是用来存储某一行的数据的。由于先前已经经过了多次tmpline.split()之后，实际上现在的tmpline存储的就是我已经想要的那些数据的第一行了。所以，先读一下并存入tmpcubedata中。

    i = 1 !这是个计数器。每读一行数据就加1

    tmplines=cubefile.readlines() !把剩下的行全读进来

    for i in range(1,linecount): !linecount就是应该读入的cube文件中数据部分的总行数，一般来说，Gaussian生成的cube文件中，如果生成过程全默认，那么cube文件的数据部分应该是8-9万行的样子。大部分行，每行有6个数字（大概95%的行是这样的），但也不排除只有1-5个数字的情况（大概5%的行是这样的）。

        tmpline = tmplines[i-1] !从tmplines中获得某一行

        if tmpline == 'EOF' : break

        if tmpline == [] : break

        if tmpline == None : break

        if i == linecount: break !如果计数器i达到了总行数，就不读了

        if i%10000 == 0: print "Converting", cubefilename, "......  ", int(100.0*float(i)/float(linecount)), "%" !每读一万行数据，就显示一个进度百分比

        if i == linecount-1 : print "Converting", cubefilename, "...... ", "100 %" !读到最后一行数据的时候，就显示一个百分之百

        i = i+1

        tmpcubedata = tmpcubedata + tmpline.split() !将读进来的数据存入tmpcubedata中

我怀疑tmpline = tmplines[i-1]这句话拖累的速度？应该如何修改？非常感谢高手帮助！！
感谢！！

回复此楼

1楼 2014-10-04 11:04:20

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yjcmwgk

禁虫 (文坛精英)

密度泛函·小卒

QC强帖: 38
应助: 165 (高中生)
贵宾: 16.999
金币: 554.6
散金: 39880
红花: 395
沙发: 2
帖子: 10406
在线: 1528.1小时
虫号: 448368
注册: 2007-11-01
专业: 理论和计算化学
管辖: 科研工具资源

cube文件的基本结构举例如下

CODE:

 Title Card Required mo=1

 MO coefficients

   -1   -2.916225   -2.916225   -2.916225

   80    0.073828    0.000000    0.000000

   80    0.000000    0.073828    0.000000

   80    0.000000    0.000000    0.073828

    2    2.000000    0.000000    0.000000    0.000000

    1    1

  7.36784E-05  8.36290E-05  9.46155E-05  1.06698E-04  1.19934E-04  1.34374E-04

  1.50064E-04  1.67044E-04  1.85341E-04  2.04976E-04  2.25955E-04  2.48274E-04

  2.71913E-04  2.96838E-04  3.22995E-04  3.50318E-04  3.78721E-04  4.08098E-04

  4.38328E-04  4.69271E-04  5.00768E-04  5.32647E-04  5.64718E-04  5.96779E-04

  6.28614E-04  6.60000E-04  6.90707E-04  7.20497E-04  7.49136E-04  7.76386E-04

  8.02019E-04  8.25811E-04  8.47551E-04  8.67043E-04  8.84107E-04  8.98583E-04

  9.10334E-04  9.19248E-04  9.25239E-04  9.28250E-04  9.28250E-04  9.25239E-04

  9.19248E-04  9.10334E-04  8.98583E-04  8.84107E-04  8.67043E-04  8.47551E-04

  8.25811E-04  8.02019E-04  7.76386E-04  7.49136E-04  7.20497E-04  6.90707E-04

  6.60000E-04  6.28614E-04  5.96779E-04  5.64718E-04  5.32647E-04  5.00768E-04

  4.69271E-04  4.38328E-04  4.08098E-04  3.78721E-04  3.50318E-04  3.22995E-04

  2.96838E-04  2.71913E-04  2.48274E-04  2.25955E-04  2.04976E-04  1.85341E-04

  1.67044E-04  1.50064E-04  1.34374E-04  1.19934E-04  1.06698E-04  9.46155E-05

  8.36290E-05  7.36784E-05

  8.36290E-05  9.49233E-05  1.07394E-04  1.21108E-04  1.36131E-04  1.52521E-04

  1.70331E-04  1.89603E-04  2.10372E-04  2.32658E-04  2.56471E-04  2.81805E-04

  3.08636E-04  3.36926E-04  3.66617E-04  3.97630E-04  4.29868E-04  4.63213E-04

下面还有八万多行，略了

对于这个cube文件来说，从第9行开始是第一个数据行，直到文件结束。值得注意的是，绝大多数数据行，每行有6个数字，但第22行就只有2个数字了。

赞一下

回复此楼

2楼2014-10-04 11:08:58

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

frk2008

木虫 (正式写手)

应助: 7 (幼儿园)
金币: 3434.4
红花: 1
帖子: 489
在线: 440.9小时
虫号: 841330
注册: 2009-09-05
专业: 电化学

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与，应助指数 +1
yjcmwgk: 金币+20, ★有帮助, 非常感谢，我后来用tmpp = ((' '.join(cubefile.readlines())).replace("/n"," ")).split()解决了 2014-10-05 16:10:10
gmy1990: 金币+3 2014-10-05 18:49:03

试试这个，看看效果如何：

[ code]

tmplines = cubefile.readlines()
tempstr = "".join(tmplines)          #把list转化为str，形式应该是'num  num  ...num\nnum  ...'
tempstr = tempstr.replace('\n','  ') #把str中的'\n'替换为'  '
tmpcubedata = tempstr.split('  ')    #把str转为list
n=0
numcount=len(tmpcubedata)             #list的数据总数
for i in tmpcubedata:
n+=1
if i%60000==0:
      print "Converting", cubefilename, "......  ", int(100.0*float(i)/float(numcount)), "%"
#if i=="":
      #tmpcubedata.remove(i)       #如果cubefile 文件中中间有空行，则需要这个功能
if tmpcubedata[-1]=="":
del tmpcubedata[-1]                #如果cubefile 文件以‘num\n‘结尾
print "Converting", cubefilename, "...... ", "100 %"

[ /code]

赞一下

回复此楼

3楼2014-10-04 15:23:36

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

rh1127

捐助贵宾 (著名写手)

一名工程师@上海

应助: 2 (幼儿园)
金币: 21406.7
红花: 5
帖子: 1616
在线: 139.5小时
虫号: 116848
注册: 2005-11-25
性别: GG
专业: 胶体与界面化学

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与，应助指数 +1
yjcmwgk: 金币+20, ★有帮助, 非常感谢，我后来用tmpp = ((' '.join(cubefile.readlines())).replace("/n"," ")).split()解决了 2014-10-05 16:10:21
gmy1990: 金币+2 2014-10-05 18:49:14

用numpy和pandas模块儿来处理大型数组，比只用for循环速度快几十倍不止。python自带的循环未经优化，很忌讳来处理大型数组！
希望对你有帮助。

赞一下

回复此楼

Actionnoworachievenever!

4楼2014-10-05 09:21:10

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

magicmonk

至尊木虫 (著名写手)

应助: 172 (高中生)
金币: 11451.3
红花: 24
帖子: 1124
在线: 3108.8小时
虫号: 1191315
注册: 2011-01-17
专业: 理论和计算化学

【答案】应助回帖

感谢参与，应助指数 +1

个人呢建议用fortran或MATLAB

赞一下

回复此楼

我们最深的恐惧不是我们能力不够，我们最深的恐惧是能力超越了极限。

5楼2014-10-05 09:50:45

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

rh1127

捐助贵宾 (著名写手)

一名工程师@上海

应助: 2 (幼儿园)
金币: 21406.7
红花: 5
帖子: 1616
在线: 139.5小时
虫号: 116848
注册: 2005-11-25
性别: GG
专业: 胶体与界面化学

【答案】应助回帖

楼主，我亲自给你code的标准答案：
——————————————————————
import numpy as np
import string

def readCube2Array(cubeFile):
f=open(cubeFile,'r')
lines=f.readlines()

i=-1
for l in lines:
      i=i+1
      if string.find(l,'E-')>0:
         break
print i #找到第一行你需要存的数据

s=(''.join(lines[i:])).replace("  "," "

#将所有双空格换成一个空格
s=s.replace("\n"," "

#把所有换行符换成单个空格
dataArray=np.fromstring(s,dtype=double, sep=' ') #调用numpy把字符串转成double类型的数组
return dataArray #返回你要的数组

filename='test677-ref.cube' #这是我的测试文件，是一个高斯09自带的cube文件，有九万多行数据
dArray=readCube2Array(filename) #这就是你想要的结果，根本不用看进度，瞬间完成

——————————这个程序的执行时间我也看了————————————————

%timeit dArray=readCube2Array(filename)

30
30
30
30
1 loops, best of 3: 380 ms per loop
大概是380ms就能执行完一个cube文件的导出，我觉得绝对比你的程序块不止几十倍。

赶紧给分了，有问题给我留言！

赞一下(1人)

回复此楼

Actionnoworachievenever!

6楼2014-10-05 14:43:33

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

rh1127

捐助贵宾 (著名写手)

一名工程师@上海

应助: 2 (幼儿园)
金币: 21406.7
红花: 5
帖子: 1616
在线: 139.5小时
虫号: 116848
注册: 2005-11-25
性别: GG
专业: 胶体与界面化学

【答案】应助回帖

import numpy as np
import string

def readCube2Array(cubeFile):
f=open(cubeFile,'r')
lines=f.readlines()

i=-1
for l in lines:
      i=i+1
      if string.find(l,'E-')>0:
         break
print i

s=(''.join(lines[i:])).replace("  "," " )
s=s.replace("\n"," " )
dataArray=np.fromstring(s,dtype=double, sep=' ')
return dataArray

filename='test677-ref.cube'
dArray=readCube2Array(filename)

赞一下(1人)

回复此楼

Actionnoworachievenever!

7楼2014-10-05 14:47:08

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

rh1127

捐助贵宾 (著名写手)

一名工程师@上海

应助: 2 (幼儿园)
金币: 21406.7
红花: 5
帖子: 1616
在线: 139.5小时
虫号: 116848
注册: 2005-11-25
性别: GG
专业: 胶体与界面化学

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
yjcmwgk: 金币+50, ★★★★★最佳答案, 非常感谢，我后来自己用tmpp = ((' '.join(cubefile.readlines())).replace("/n"," ")).split()解决了 2014-10-05 16:10:46

第一个论坛自动转成表情了，你用第二个吧，都能运行。赶紧给分哦：）

赞一下

回复此楼

Actionnoworachievenever!

8楼2014-10-05 14:47:46

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

两粒一起吃

金虫 (初入文坛)

应助: 4 (幼儿园)
金币: 788.9
散金: 1042
红花: 2
帖子: 28
在线: 85.5小时
虫号: 2227721
注册: 2013-01-07
性别: GG
专业: 计算机网络

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与，应助指数 +1
yjcmwgk: 金币+10, ★有帮助, 非常感谢，我后来用tmpp = ((' '.join(cubefile.readlines())).replace("/n"," ")).split()解决了 2014-10-05 16:10:53
gmy1990: 金币+3 2014-10-05 18:50:03

你的代码不pythonic，不易读也很低效，
这里给个例子，不知道是不是你要的功能

def readcube(cubefile):
cubedata = []
with open(cubefile) as f:
      lines = f.readlines()  #  if cubefile is large, read it in streaming or blocks
      # handle headers here
      for line in lines[2:]:
         for item in line.split():
            cubedata.append(eval(item))
return cubedata

if __name__ == '__main__':
testfile = 'test.cube'
data = readcube(testfile)
print(len(data))
print(data[:10])
print(data[-10:])

赞一下

回复此楼

9楼2014-10-05 15:29:16

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

rh1127

捐助贵宾 (著名写手)

一名工程师@上海

应助: 2 (幼儿园)
金币: 21406.7
红花: 5
帖子: 1616
在线: 139.5小时
虫号: 116848
注册: 2005-11-25
性别: GG
专业: 胶体与界面化学

引用回帖:

5楼: Originally posted by magicmonk at 2014-10-05 09:50:45
个人呢建议用fortran或MATLAB

fortran和Matlab都太庞大臃肿和不优雅了，python最直接简洁，是未来之星。

赞一下

回复此楼

Actionnoworachievenever!

10楼2014-10-05 19:31:58

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 yjcmwgk 的主题更新

返回列表

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 0703化学321分求调剂 +9	三dd. 2026-03-30	10/500	2026-03-30 18:24 by 544594351
[考研] 085600 材料与化工 329分求调剂 +17	Mr. Z 2026-03-25	18/900	2026-03-30 17:53 by 源_2020
[考研] 一志愿南开大学0710生物学359求调剂 +5	兔兔兔111223314 2026-03-29	5/250	2026-03-30 10:41 by malone0211
[考研] 求调剂 +10	张zz111 2026-03-27	11/550	2026-03-30 09:17 by 无际的草原
[考研] 085600，专业课化工原理，320分求调剂 +4	大馋小子 2026-03-29	4/200	2026-03-29 23:12 by Evan_Liu
[考研] 一志愿武汉理工，总分321，英一数二，求老师收留。 +11	nnnnnnn5 2026-03-25	11/550	2026-03-29 20:42 by 无际的草原
[考研] 081200-11408-276学硕求调剂 +6	崔wj 2026-03-26	6/300	2026-03-29 01:11 by hanserlol
[考研] 085602 化工专硕 338分求调剂 +12	路痴小琪 2026-03-27	12/600	2026-03-28 15:41 by L135790
[考研] 394求调剂 +3	好事多磨静候佳� 2026-03-26	5/250	2026-03-28 14:24 by 唐沐儿
[考研] 304求调剂 +6	曼殊2266 2026-03-27	6/300	2026-03-28 14:10 by 唐沐儿
[考研] 299求调剂 +7	嗯嗯嗯嗯2 2026-03-27	7/350	2026-03-28 13:09 by 唐沐儿
[考研] 0703化学求调剂，各位老师看看我！！！ +5	祁祺祺 2026-03-25	5/250	2026-03-27 21:44 by 东方猪猪
[考研] 308求调剂 +7	墨墨漠 2026-03-25	7/350	2026-03-27 14:47 by 狂炫麦当当
[考研] 085601 材料工程 313分求调剂 +5	Ong3 2026-03-27	5/250	2026-03-27 12:24 by goldfish51
[考研] 316求调剂 +5	Pigcasso 2026-03-24	5/250	2026-03-27 12:10 by zhshch
[考研] 314求调剂 +3	溪云珂 2026-03-26	3/150	2026-03-27 11:20 by sanrepian
[考研] 考研调剂 +9	小蜡新笔 2026-03-26	9/450	2026-03-27 11:10 by 不吃魚的貓
[考研] 总分322求生物学/生化与分子/生物信息学相关调剂 +5	星沉uu 2026-03-26	6/300	2026-03-26 19:02 by macy2011
[考研] 一志愿天津大学339材料与化工求调剂 +3	江往卖鱼 2026-03-26	3/150	2026-03-26 09:42 by 王小欠i
[考研] 085404电子信息284分求调剂 +4	13659058978 2026-03-24	4/200	2026-03-24 12:15 by syl20081243

24小时热门版块排行榜

[求助] 用Python读Gaussian的cube文件，速度很慢，怎么破？谢谢！！！ 已有4人参与

» 收录本帖的淘帖专辑推荐

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

【答案】应助回帖

【答案】应助回帖

【答案】应助回帖

【答案】应助回帖

【答案】应助回帖

【答案】应助回帖

【答案】应助回帖

[求助] 用Python读Gaussian的cube文件，速度很慢，怎么破？谢谢！！！已有4人参与