24小时热门版块排行榜    

查看: 2024  |  回复: 10
本帖产生 1 个 程序强帖 ,点击这里进行查看

盏盏

铜虫 (正式写手)


[交流] 【求助】请问如果数据量很大,如何统计?

如果我的数据有上千万条,如何做统计分析。matlab老是死机。大家有什么高招?谢谢
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xmc21

金虫 (小有名气)



余泽成(金币+1):谢谢参与应助! 2010-12-12 20:53:04
不知道你的是什么数据,如果是随时间变化的某种变量,可以分时间段来分析
2楼2010-12-03 18:36:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hsqlxsz

新虫 (著名写手)


★ ★ ★ ★
余泽成(金币+1):谢谢参与应助! 2010-12-12 20:53:21
zyj8119(金币+3):谢谢。 2010-12-15 12:39:16
数据太多,要么分段,要么精简,别无他法
3楼2010-12-04 03:34:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

1dubo

银虫 (小有名气)


可以减小统计的频率
4楼2010-12-06 09:28:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

holmescn

金虫 (正式写手)


★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
余泽成(金币+3):辛苦了! 2010-12-12 20:56:09
盏盏(金币+1):谢谢 很专业 2010-12-13 05:09:40
zyj8119(金币+10):谢谢。 2010-12-15 12:39:30
上千万条可以:
1、不一次性读入内存, 每次读一部分,统计,释放内存(或者覆盖),读入下一部分。
2、如果统计得比较简单,比如求数据的出现频率,平均值,方差,标准差什么的,可以考虑使用数据库,比如MySQL,Oracle,SQL Server,然后使用SQL语句进行统计
3、尝试使用专业的统计工具:SAS, SPSS等。
5楼2010-12-09 19:17:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

tjyl

金虫 (正式写手)


LZ到是说一下你的到底是怎么样的数据啊
6楼2010-12-11 23:25:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xioooli

金虫 (小有名气)



余泽成(金币+1):谢谢参与应助! 2010-12-13 21:54:00
建议用 awk 语言,人家搞天文的那种海量数据都用这个,很小很快。
7楼2010-12-12 21:44:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

Su47

铁杆木虫 (正式写手)


上个高配置电脑试试看
8楼2010-12-12 22:08:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

holmescn

金虫 (正式写手)



余泽成(金币+1):谢谢参与应助! 2010-12-13 21:54:17
引用回帖:
Originally posted by xioooli at 2010-12-12 21:44:57:
建议用 awk 语言,人家搞天文的那种海量数据都用这个,很小很快。

还不如用Perl 呢。 或者Python。
awk是很小,很小很简单, 但要说快,还算不上。要不就不会有Perl了。:-)
9楼2010-12-13 09:31:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xioooli

金虫 (小有名气)


★ ★ ★ ★ ★ ★
余泽成(金币+1):鼓励讨论交流! 2010-12-13 21:54:44
zyj8119(金币+5):分析的不错。 2010-12-15 12:39:48
引用回帖:
Originally posted by holmescn at 2010-12-13 09:31:29:


还不如用Perl 呢。 或者Python。
awk是很小,很小很简单, 但要说快,还算不上。要不就不会有Perl了。:-)

各种语言的使用范围是不一样的,awk 做简单的数据统计速度是非常快的,当然 perl 和 python 的功能要强大不少。有人做过一个简单的测试,awk 比 perl 要快不少(当然 python 比 perl 还慢些就不说了):
http://dbablog.journalspace.com/?p=233
10楼2010-12-13 16:37:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

linyujack

铜虫 (小有名气)


★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
余泽成(金币+2):谢谢参与应助,欢迎常来程序语言版! 2010-12-13 21:55:24
zyj8119(金币+10, 程序强帖+1):很好的分析。 2010-12-15 12:40:10
[quote]Originally posted by holmescn at 2010-12-09 19:17:17:
上千万条可以:
1、不一次性读入内存, 每次读一部分,统计,释放内存(或者覆盖),读入下一部分。
2、如果统计得比较简单,比如求数据的出现频率,平均值,方差,标准差什么的,可以考虑使用数据库,比如MySQ ...
尝试使用专业的统计工具:SAS, SPSS等.......[/quote]
如楼上所说,建议使用专业的统计学软件进行分析,SAS,SPSS,Minitab等等,matlab毕竟不是专门做统计学的分析,做其他的数学分析运算还可以。
如果非得要编程序做统计分析,而且数据量很大,还是用编译之后生成的二进制程序速度比较快,比如用C、C++编写程序,统计数据单独存储在其他文档中。

[ Last edited by linyujack on 2010-12-13 at 21:51 ]
11楼2010-12-13 21:45:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 盏盏 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见