24小时热门版块排行榜    

查看: 1717  |  回复: 10

hqy278

铁虫 (初入文坛)

[求助] 云计算环境下的海量数据挖掘研究步骤是什么?从何处着手?先做什么后做什么? 已有3人参与

最近想做“元计算环境下的海量数据挖掘”研究,可是找不到头绪,不懂该从何处着手。是要先搭建云平台,然后从网络上获取海量数据,然后数据清理再把数据弄到云平台进行挖掘?
感觉做这个课题要做的事情好多哦,也不知道该找什么点来研究有价值。有没有办法做个算法研究然后用一个编程软件就可以实现验证的?或者拿到实际的海量数据之后用一个编程软件
就挖掘出想要的结果?
久了不搞科研,真的是一个头两个大,毫无头绪,不知道该做什么研究好。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

越努力就越幸运!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

难写啊

新虫 (正式写手)

【答案】应助回帖

其实需要你所在的单位或学校提供研究条件,否则你需要自己搭建环境。
目前热门的环境是hadoop,他支持分布式并行计算的任务分派和分布式文件管理,解决了云计算的基础环境问题,
二就是你选择一个研究题目,然后从网上用爬虫程序爬取大量相关信息。
三就是你要对这些信息进行各种预处理,以便于你使用,
四就是用你设计的算法,在这个云平台环境下,对你下载的数据进行分析处理,为到达你的研究目标而努力
如果你关注的是云系统结构,最好自己动手一步一步搭建环境
如果你关注的是数据挖掘算法,可以基于已有的云环境,把你的算法运行于其上来做研究等工作,
其实这个题目看你怎么限定,云计算大数据方向的题也并不需要你做很大呀

» 本帖已获得的红花(最新10朵)

email:myronsaga1@sohu.com.qq:89260998
4楼2015-06-25 15:46:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

windoi

捐助贵宾 (著名写手)

机器学习爱好者

【答案】应助回帖

首先学下Hadoop,找几台机子搭建个环境(新手需要两天时间吧,感觉比较简单);
学下Python,非常有用,上手容易;
最后,找数据集可以到加州大学尔湾分校UCI:http://archive.ics.uci.edu/ml/
学点机器学习更好不过了。
乐观,努力。
5楼2015-06-26 19:10:19
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

闲云野鹤_

木虫 (正式写手)

建议:
1.搭建海量数据存储的平台,支撑技术理论
2. 有平台之后怎么处理数据(Hadoop,spark...)
3. 数据是什么?应用,问题抽样

总的来说过程就是:平台---数据---问题抽样

我也是做相关工作的,上面这是以前导师给我们建议的,和你分享,你看有没有用,只是一个抛砖引玉的作用,其他问题咱可以交流讨论
心如潭水静无风,一坐数千息!!!
6楼2015-06-27 17:32:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hqy278

铁虫 (初入文坛)

引用回帖:
5楼: Originally posted by windoi at 2015-06-26 19:10:19
首先学下Hadoop,找几台机子搭建个环境(新手需要两天时间吧,感觉比较简单);
学下Python,非常有用,上手容易;
最后,找数据集可以到加州大学尔湾分校UCI:http://archive.ics.uci.edu/ml/
学点机器学习更好 ...

谢谢,菜鸟表示搭建环境搭了一个暑假
越努力就越幸运!
10楼2016-09-28 08:07:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzhlgzz

木虫 (正式写手)

【答案】应助回帖

开源Hadoop?!商业......
2楼2015-06-24 10:12:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

论文ok

新虫 (初入文坛)

楼主  你研究怎么样了  我也是这个方向的  已经搭建好环境,学习了一些聚类分析算法K-means算法等,对web日志进行挖掘分析,能否交流一下呢   我的QQ 549371744
7楼2015-07-20 12:46:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

曲梦瑶11

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by 难写啊 at 2015-06-25 15:46:37
其实需要你所在的单位或学校提供研究条件,否则你需要自己搭建环境。
目前热门的环境是hadoop,他支持分布式并行计算的任务分派和分布式文件管理,解决了云计算的基础环境问题,
二就是你选择一个研究题目,然后从 ...

您好,您说数据挖掘算法,可以基于已有的云环境,请问怎么寻找
8楼2015-07-21 14:24:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

zzhlgzz

木虫 (正式写手)

好大的题目呀
3楼2015-06-24 10:13:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hqy278

铁虫 (初入文坛)

送红花一朵
引用回帖:
4楼: Originally posted by 难写啊 at 2015-06-25 15:46:37
其实需要你所在的单位或学校提供研究条件,否则你需要自己搭建环境。
目前热门的环境是hadoop,他支持分布式并行计算的任务分派和分布式文件管理,解决了云计算的基础环境问题,
二就是你选择一个研究题目,然后从 ...

非常感谢。以为没人回复,好久没进论坛了。对不起了
越努力就越幸运!
9楼2016-09-28 08:05:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 hqy278 的主题更新
信息提示
请填处理意见