| 查看: 2058 | 回复: 10 | |||
| 本帖产生 1 个 程序强帖 ,点击这里进行查看 | |||
[交流]
【求助】请问如果数据量很大,如何统计?
|
|||
| 如果我的数据有上千万条,如何做统计分析。matlab老是死机。大家有什么高招?谢谢 |
» 猜你喜欢
同年申请2项不同项目,第1个项目里不写第2个项目的信息,可以吗
已经有8人回复
依托企业入选了国家启明计划青年人才。有无高校可以引进的。
已经有7人回复
依托企业入选了国家启明计划青年人才。有无高校可以引进的。
已经有10人回复
天津大学招2026.09的博士生,欢迎大家推荐交流(博导是本人)
已经有9人回复
有院领导为了换新车,用横向课题经费买了俩车
已经有10人回复
AI 太可怕了,写基金时,提出想法,直接生成的文字比自己想得深远,还有科学性
已经有6人回复
酰胺脱乙酰基
已经有13人回复
有时候真觉得大城市人没有县城人甚至个体户幸福
已经有10人回复
» 本主题相关价值贴推荐,对您同样有帮助:
如何XPS和BET数据计算活性位的数量
已经有9人回复
【教程】个人大量珍藏数据统计分析软件SPSS教程(全力助力科研数据分析)
已经有1122人回复
Gaussian计算和其他方法得到的热力学数据哪个更准确呢
已经有11人回复
gaussian03计算出的拉曼光谱数据怎么在orgin中作图?
已经有6人回复
请问如何统计数据聚类的结果?
已经有5人回复
【软件】一个科研数据处理软件和一个化学分子量,元素含量,配平等计算软件
已经有83人回复
【请教】两种混合晶型的产物,如何通过XRD数据计算两种不同晶体所占的比例
已经有10人回复
【求助】为什么XRD数据希尔公式计算的晶粒尺寸和HR-TEM照出来差别很大?
已经有7人回复
【求助】想问一下我想查国内外肉类产量消费量的最新统计数据,在哪查?
已经有6人回复
【求助】请问如果数据量很大,如何统计?
已经有6人回复
» 抢金币啦!回帖就可以得到:
西南科技大学曹克课题组招收2026级申请考核制有机化学博士研究生
+1/176
华南师范大学(211)- 光电科学与工程学院 - 申请审核制(2026年4-5月份面试考核)
+2/116
澳洲西澳大学Dr Yiran Liu招全额奖学金和CSC奖学金博士生(3.8万澳币/年)
+1/115
人间烟火,实则就是追求最简单的快乐
+1/87
威格焊接手套箱:稳定惰性环境,实现节能降本
+1/83
山东征女友,坐标济南
+1/80
澳大利亚麦考瑞大学(Macquarie University)国际博士硕士全额奖学金-计算机-26年中开学
+1/46
罗格斯大学纽瓦克校区(Rutgers-Newark) 招收 PHD,计算材料物理方向
+1/42
中国科学院深圳先进技术研究院——招聘博士后
+2/36
同济大学脑机智能团队脑机接口方向招生招聘
+1/32
湘潭大学“过程强化与绿色化工”创新团队补招2026年秋入学博士生
+2/30
26储能博士申请自荐
+1/18
上海工程技术大学张培磊教授团队招收博士生
+1/10
化学行业,研发出创新的东西是做成项目给公司吃提成,还是自己搞小作坊倒卖?
+1/5
澳科大招收2026年秋季药剂学/生物材料方向全奖博士研究生(春节不打烊)
+1/5
国家“双一流”建设高校-南京林业大学-国家级青年人才团队招聘 2026级博士研究生
+1/3
美国密苏里大学“柔性电子”课题组诚招博士研究生
+1/2
澳科大招收2026年秋季入学生物材料方向全奖博士研究生(3月5日截止)
+1/1
求助化学专业科技论文写作的课件及电子版教材
+1/1
广东工业大学-化学工程专业博士生招生1-2名
+1/1
2楼2010-12-03 18:36:34
3楼2010-12-04 03:34:45
4楼2010-12-06 09:28:05
★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
余泽成(金币+3):辛苦了! 2010-12-12 20:56:09
盏盏(金币+1):谢谢 很专业 2010-12-13 05:09:40
zyj8119(金币+10):谢谢。 2010-12-15 12:39:30
余泽成(金币+3):辛苦了! 2010-12-12 20:56:09
盏盏(金币+1):谢谢 很专业 2010-12-13 05:09:40
zyj8119(金币+10):谢谢。 2010-12-15 12:39:30
|
上千万条可以: 1、不一次性读入内存, 每次读一部分,统计,释放内存(或者覆盖),读入下一部分。 2、如果统计得比较简单,比如求数据的出现频率,平均值,方差,标准差什么的,可以考虑使用数据库,比如MySQL,Oracle,SQL Server,然后使用SQL语句进行统计 3、尝试使用专业的统计工具:SAS, SPSS等。 |
5楼2010-12-09 19:17:17
6楼2010-12-11 23:25:05
7楼2010-12-12 21:44:57
8楼2010-12-12 22:08:30
9楼2010-12-13 09:31:29
★ ★ ★ ★ ★ ★
余泽成(金币+1):鼓励讨论交流! 2010-12-13 21:54:44
zyj8119(金币+5):分析的不错。 2010-12-15 12:39:48
余泽成(金币+1):鼓励讨论交流! 2010-12-13 21:54:44
zyj8119(金币+5):分析的不错。 2010-12-15 12:39:48
|
各种语言的使用范围是不一样的,awk 做简单的数据统计速度是非常快的,当然 perl 和 python 的功能要强大不少。有人做过一个简单的测试,awk 比 perl 要快不少(当然 python 比 perl 还慢些就不说了): http://dbablog.journalspace.com/?p=233 |
10楼2010-12-13 16:37:44
★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
余泽成(金币+2):谢谢参与应助,欢迎常来程序语言版! 2010-12-13 21:55:24
zyj8119(金币+10, 程序强帖+1):很好的分析。 2010-12-15 12:40:10
余泽成(金币+2):谢谢参与应助,欢迎常来程序语言版! 2010-12-13 21:55:24
zyj8119(金币+10, 程序强帖+1):很好的分析。 2010-12-15 12:40:10
|
[quote]Originally posted by holmescn at 2010-12-09 19:17:17: 上千万条可以: 1、不一次性读入内存, 每次读一部分,统计,释放内存(或者覆盖),读入下一部分。 2、如果统计得比较简单,比如求数据的出现频率,平均值,方差,标准差什么的,可以考虑使用数据库,比如MySQ ... 、尝试使用专业的统计工具:SAS, SPSS等.......[/quote] 如楼上所说,建议使用专业的统计学软件进行分析,SAS,SPSS,Minitab等等,matlab毕竟不是专门做统计学的分析,做其他的数学分析运算还可以。 如果非得要编程序做统计分析,而且数据量很大,还是用编译之后生成的二进制程序速度比较快,比如用C、C++编写程序,统计数据单独存储在其他文档中。 [ Last edited by linyujack on 2010-12-13 at 21:51 ] |
11楼2010-12-13 21:45:55













回复此楼
