24小时热门版块排行榜    

查看: 2116  |  回复: 10
本帖产生 1 个 程序强帖 ,点击这里进行查看

盏盏

铜虫 (正式写手)


[交流] 【求助】请问如果数据量很大,如何统计?

如果我的数据有上千万条,如何做统计分析。matlab老是死机。大家有什么高招?谢谢
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xmc21

金虫 (小有名气)



余泽成(金币+1):谢谢参与应助! 2010-12-12 20:53:04
不知道你的是什么数据,如果是随时间变化的某种变量,可以分时间段来分析
2楼2010-12-03 18:36:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hsqlxsz

新虫 (著名写手)


★ ★ ★ ★
余泽成(金币+1):谢谢参与应助! 2010-12-12 20:53:21
zyj8119(金币+3):谢谢。 2010-12-15 12:39:16
数据太多,要么分段,要么精简,别无他法
3楼2010-12-04 03:34:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

1dubo

银虫 (小有名气)


可以减小统计的频率
4楼2010-12-06 09:28:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

holmescn

金虫 (正式写手)


★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
余泽成(金币+3):辛苦了! 2010-12-12 20:56:09
盏盏(金币+1):谢谢 很专业 2010-12-13 05:09:40
zyj8119(金币+10):谢谢。 2010-12-15 12:39:30
上千万条可以:
1、不一次性读入内存, 每次读一部分,统计,释放内存(或者覆盖),读入下一部分。
2、如果统计得比较简单,比如求数据的出现频率,平均值,方差,标准差什么的,可以考虑使用数据库,比如MySQL,Oracle,SQL Server,然后使用SQL语句进行统计
3、尝试使用专业的统计工具:SAS, SPSS等。
5楼2010-12-09 19:17:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

tjyl

金虫 (正式写手)


LZ到是说一下你的到底是怎么样的数据啊
6楼2010-12-11 23:25:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xioooli

金虫 (小有名气)



余泽成(金币+1):谢谢参与应助! 2010-12-13 21:54:00
建议用 awk 语言,人家搞天文的那种海量数据都用这个,很小很快。
7楼2010-12-12 21:44:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

Su47

铁杆木虫 (正式写手)


上个高配置电脑试试看
8楼2010-12-12 22:08:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

holmescn

金虫 (正式写手)



余泽成(金币+1):谢谢参与应助! 2010-12-13 21:54:17
引用回帖:
Originally posted by xioooli at 2010-12-12 21:44:57:
建议用 awk 语言,人家搞天文的那种海量数据都用这个,很小很快。

还不如用Perl 呢。 或者Python。
awk是很小,很小很简单, 但要说快,还算不上。要不就不会有Perl了。:-)
9楼2010-12-13 09:31:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xioooli

金虫 (小有名气)


★ ★ ★ ★ ★ ★
余泽成(金币+1):鼓励讨论交流! 2010-12-13 21:54:44
zyj8119(金币+5):分析的不错。 2010-12-15 12:39:48
引用回帖:
Originally posted by holmescn at 2010-12-13 09:31:29:


还不如用Perl 呢。 或者Python。
awk是很小,很小很简单, 但要说快,还算不上。要不就不会有Perl了。:-)

各种语言的使用范围是不一样的,awk 做简单的数据统计速度是非常快的,当然 perl 和 python 的功能要强大不少。有人做过一个简单的测试,awk 比 perl 要快不少(当然 python 比 perl 还慢些就不说了):
http://dbablog.journalspace.com/?p=233
10楼2010-12-13 16:37:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

linyujack

铜虫 (小有名气)


★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
余泽成(金币+2):谢谢参与应助,欢迎常来程序语言版! 2010-12-13 21:55:24
zyj8119(金币+10, 程序强帖+1):很好的分析。 2010-12-15 12:40:10
[quote]Originally posted by holmescn at 2010-12-09 19:17:17:
上千万条可以:
1、不一次性读入内存, 每次读一部分,统计,释放内存(或者覆盖),读入下一部分。
2、如果统计得比较简单,比如求数据的出现频率,平均值,方差,标准差什么的,可以考虑使用数据库,比如MySQ ...
尝试使用专业的统计工具:SAS, SPSS等.......[/quote]
如楼上所说,建议使用专业的统计学软件进行分析,SAS,SPSS,Minitab等等,matlab毕竟不是专门做统计学的分析,做其他的数学分析运算还可以。
如果非得要编程序做统计分析,而且数据量很大,还是用编译之后生成的二进制程序速度比较快,比如用C、C++编写程序,统计数据单独存储在其他文档中。

[ Last edited by linyujack on 2010-12-13 at 21:51 ]
11楼2010-12-13 21:45:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 盏盏 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 317求调剂 +12 申子申申 2026-03-19 18/900 2026-03-22 22:23 by luoyongfeng
[考研] 招08考数学 +4 laoshidan 2026-03-20 8/400 2026-03-22 19:56 by 小皮蛋酱
[考研] 08工科 320总分 求调剂 +11 梨花珞晚风 2026-03-17 11/550 2026-03-22 17:42 by luoyongfeng
[考研] 求调剂院校信息 +6 CX 330 2026-03-21 6/300 2026-03-22 15:25 by 无懈可击111
[考研] 280求调剂 +11 咕噜晓晓 2026-03-18 12/600 2026-03-21 22:40 by ACS Nano——
[考研] 广西大学材料导师推荐 +3 夏夏夏小正 2026-03-17 5/250 2026-03-21 22:20 by 金昊ML
[考研] 工科0856求调剂 +3 沐析汀汀 2026-03-21 3/150 2026-03-21 18:30 by 学员8dgXkO
[考研] 296求调剂 +4 www_q 2026-03-20 4/200 2026-03-21 17:26 by 学员8dgXkO
[考研] 306求0703调剂一志愿华中师范 +5 纸鱼ly 2026-03-21 5/250 2026-03-21 17:11 by 学员8dgXkO
[考研] 268求调剂 +9 简单点0 2026-03-17 9/450 2026-03-21 15:37 by lature00
[考研] 机械专硕299求调剂至材料 +3 kkcoco25 2026-03-16 4/200 2026-03-21 03:52 by JourneyLucky
[考研] 301求调剂 +10 yy要上岸呀 2026-03-17 10/500 2026-03-21 03:14 by JourneyLucky
[考研] 初始318分求调剂(有工作经验) +3 1911236844 2026-03-17 3/150 2026-03-21 02:33 by JourneyLucky
[考研] 一志愿中国石油大学(华东) 本科齐鲁工业大学 +3 石能伟 2026-03-17 3/150 2026-03-21 02:22 by JourneyLucky
[考研] 324分 085600材料化工求调剂 +4 llllkkkhh 2026-03-18 4/200 2026-03-21 01:24 by JourneyLucky
[考研] 350求调剂 +5 weudhdk 2026-03-19 5/250 2026-03-20 22:04 by luoyongfeng
[考研] 261求B区调剂,科研经历丰富 +3 牛奶很忙 2026-03-20 4/200 2026-03-20 19:34 by JourneyLucky
[论文投稿] 申请回稿延期一个月,编辑同意了。但系统上的时间没变,给编辑又写邮件了,没回复 10+3 wangf9518 2026-03-17 4/200 2026-03-19 23:55 by babero
[考研] 085601材料工程专硕求调剂 +10 慕寒mio 2026-03-16 10/500 2026-03-19 15:26 by 丁丁*
[考研] 0703化学调剂 +3 妮妮ninicgb 2026-03-17 3/150 2026-03-18 10:29 by macy2011
信息提示
请填处理意见