24小时热门版块排行榜    

查看: 1779  |  回复: 10

hqy278

铁虫 (初入文坛)

[求助] 云计算环境下的海量数据挖掘研究步骤是什么?从何处着手?先做什么后做什么? 已有3人参与

最近想做“元计算环境下的海量数据挖掘”研究,可是找不到头绪,不懂该从何处着手。是要先搭建云平台,然后从网络上获取海量数据,然后数据清理再把数据弄到云平台进行挖掘?
感觉做这个课题要做的事情好多哦,也不知道该找什么点来研究有价值。有没有办法做个算法研究然后用一个编程软件就可以实现验证的?或者拿到实际的海量数据之后用一个编程软件
就挖掘出想要的结果?
久了不搞科研,真的是一个头两个大,毫无头绪,不知道该做什么研究好。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

越努力就越幸运!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

难写啊

新虫 (正式写手)

【答案】应助回帖

其实需要你所在的单位或学校提供研究条件,否则你需要自己搭建环境。
目前热门的环境是hadoop,他支持分布式并行计算的任务分派和分布式文件管理,解决了云计算的基础环境问题,
二就是你选择一个研究题目,然后从网上用爬虫程序爬取大量相关信息。
三就是你要对这些信息进行各种预处理,以便于你使用,
四就是用你设计的算法,在这个云平台环境下,对你下载的数据进行分析处理,为到达你的研究目标而努力
如果你关注的是云系统结构,最好自己动手一步一步搭建环境
如果你关注的是数据挖掘算法,可以基于已有的云环境,把你的算法运行于其上来做研究等工作,
其实这个题目看你怎么限定,云计算大数据方向的题也并不需要你做很大呀

» 本帖已获得的红花(最新10朵)

email:myronsaga1@sohu.com.qq:89260998
4楼2015-06-25 15:46:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

windoi

捐助贵宾 (著名写手)

机器学习爱好者

【答案】应助回帖

首先学下Hadoop,找几台机子搭建个环境(新手需要两天时间吧,感觉比较简单);
学下Python,非常有用,上手容易;
最后,找数据集可以到加州大学尔湾分校UCI:http://archive.ics.uci.edu/ml/
学点机器学习更好不过了。
乐观,努力。
5楼2015-06-26 19:10:19
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

闲云野鹤_

木虫 (正式写手)

建议:
1.搭建海量数据存储的平台,支撑技术理论
2. 有平台之后怎么处理数据(Hadoop,spark...)
3. 数据是什么?应用,问题抽样

总的来说过程就是:平台---数据---问题抽样

我也是做相关工作的,上面这是以前导师给我们建议的,和你分享,你看有没有用,只是一个抛砖引玉的作用,其他问题咱可以交流讨论
心如潭水静无风,一坐数千息!!!
6楼2015-06-27 17:32:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hqy278

铁虫 (初入文坛)

引用回帖:
5楼: Originally posted by windoi at 2015-06-26 19:10:19
首先学下Hadoop,找几台机子搭建个环境(新手需要两天时间吧,感觉比较简单);
学下Python,非常有用,上手容易;
最后,找数据集可以到加州大学尔湾分校UCI:http://archive.ics.uci.edu/ml/
学点机器学习更好 ...

谢谢,菜鸟表示搭建环境搭了一个暑假
越努力就越幸运!
10楼2016-09-28 08:07:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzhlgzz

木虫 (正式写手)

【答案】应助回帖

开源Hadoop?!商业......
2楼2015-06-24 10:12:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

论文ok

新虫 (初入文坛)

楼主  你研究怎么样了  我也是这个方向的  已经搭建好环境,学习了一些聚类分析算法K-means算法等,对web日志进行挖掘分析,能否交流一下呢   我的QQ 549371744
7楼2015-07-20 12:46:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

曲梦瑶11

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by 难写啊 at 2015-06-25 15:46:37
其实需要你所在的单位或学校提供研究条件,否则你需要自己搭建环境。
目前热门的环境是hadoop,他支持分布式并行计算的任务分派和分布式文件管理,解决了云计算的基础环境问题,
二就是你选择一个研究题目,然后从 ...

您好,您说数据挖掘算法,可以基于已有的云环境,请问怎么寻找
8楼2015-07-21 14:24:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

zzhlgzz

木虫 (正式写手)

好大的题目呀
3楼2015-06-24 10:13:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hqy278

铁虫 (初入文坛)

送红花一朵
引用回帖:
4楼: Originally posted by 难写啊 at 2015-06-25 15:46:37
其实需要你所在的单位或学校提供研究条件,否则你需要自己搭建环境。
目前热门的环境是hadoop,他支持分布式并行计算的任务分派和分布式文件管理,解决了云计算的基础环境问题,
二就是你选择一个研究题目,然后从 ...

非常感谢。以为没人回复,好久没进论坛了。对不起了
越努力就越幸运!
9楼2016-09-28 08:05:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 hqy278 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 302材料工程求调剂 +4 Doleres 2026-03-01 5/250 2026-03-01 11:52 by liqiongjy
[考研] 0856材料专业298分有科研经历 硕士研究生调剂自荐信 +5 zyf上岸 2026-03-01 5/250 2026-03-01 11:50 by ms629
[考研] 321求调剂一志愿东北林业大学材料与化工英二数二 +3 虫虫虫虫虫7 2026-03-01 6/300 2026-03-01 11:50 by gaoxiaoniuma
[考研] 调剂 +3 简木ChuFront 2026-02-28 3/150 2026-03-01 11:46 by 王伟要上岸啊
[考研] 材料类求调剂 +8 wana_kiko 2026-02-28 8/400 2026-03-01 11:44 by 王伟要上岸啊
[考研] 求调剂 +5 repeatt?t 2026-02-28 5/250 2026-03-01 11:43 by 王伟要上岸啊
[考研] 311求调剂 +9 南迦720 2026-02-28 10/500 2026-03-01 10:55 by sunny81
[考博] 博士自荐 +4 kkluvs 2026-02-28 4/200 2026-03-01 10:19 by 馥安馥安
[论文投稿] Optics letters投稿被拒求助 30+3 luckyry 2026-02-26 4/200 2026-03-01 09:06 by babero
[考研] 284求调剂 +5 天下熯 2026-02-28 5/250 2026-03-01 08:49 by ms629
[考研] 298求调剂 +5 axyz3 2026-02-28 5/250 2026-03-01 06:45 by 刘兵
[考研] 272求调剂 +4 田智友 2026-02-28 4/200 2026-03-01 06:43 by 刘兵
[考研] 285求调剂 +6 满头大汗的学生 2026-02-28 6/300 2026-03-01 06:29 by Trying]
[基金申请] 面上模板改不了页边距吧? +5 ieewxg 2026-02-25 6/300 2026-03-01 00:10 by addressing
[考研] 化工专硕348,一志愿985求调剂 +4 弗格个 2026-02-28 6/300 2026-02-28 22:00 by wang_dand
[考研] 264求调剂 +3 巴拉巴拉根556 2026-02-28 3/150 2026-02-28 21:31 by gaoxiaoniuma
[考研] 276求调剂 +3 路lyh123 2026-02-28 4/200 2026-02-28 19:45 by 路lyh123
[考研] 0856调剂 +3 刘梦微 2026-02-28 3/150 2026-02-28 13:22 by houyaoxu
[考研] 304求调剂 +5 曼殊2266 2026-02-28 6/300 2026-02-28 12:44 by 迷糊CCPs
[硕博家园] 【博士招生】太原理工大学2026化工博士 +4 N1ce_try 2026-02-24 8/400 2026-02-26 08:40 by N1ce_try
信息提示
请填处理意见