| 查看: 2467 | 回复: 6 | ||
[求助]
关于语义特征提取的问题 已有2人参与
|
|
求解答!拜谢 老板提了这样一个课题,比如给你一百句话,将他们聚类成几个簇,使得每个簇的语义相近。 当然可能实际的数据大小不止一百句。 我想知道如何将一句话当中的词汇转换为一组特征 这个怎么用matlab实现? 总不能是一句话一句话的分词吧。。。 我自己找了一些文本相关的论文 很多都是对文档当中的词频进行统计 感觉这种方法对语句这种不太行,同一个意思可能有多种表达方式,如果纯用词频可能并不精确 |
» 猜你喜欢
国自然申请面上模板最新2026版出了吗?
已经有10人回复
推荐一本书
已经有12人回复
基金申报
已经有4人回复
计算机、0854电子信息(085401-058412)调剂
已经有4人回复
溴的反应液脱色
已经有6人回复
纳米粒子粒径的测量
已经有7人回复
常年博士招收(双一流,工科)
已经有4人回复
参与限项
已经有5人回复
有没有人能给点建议
已经有5人回复
假如你的研究生提出不合理要求
已经有12人回复
» 本主题相关价值贴推荐,对您同样有帮助:
CV牛人牛事简介之一(转载)
已经有22人回复
★
babaozhu(conanwj代发): 金币+1, 感谢应助 2016-12-01 08:11:42
babaozhu(conanwj代发): 金币+1, 感谢应助 2016-12-01 08:11:42
|
MATLAB不是干这个的,spark mlib机器学习,有相关的处理,只能帮你到这了 发自小木虫Android客户端 |
2楼2016-11-17 11:38:44
wake_up
木虫 (著名写手)
- 应助: 124 (高中生)
- 金币: 4001.5
- 散金: 1654
- 红花: 24
- 帖子: 1113
- 在线: 424.2小时
- 虫号: 670119
- 注册: 2008-12-08
- 性别: GG
- 专业: 医学图像数据处理与分析
【答案】应助回帖
★ ★
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:49
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:49
|
你这个是要分词的,先用分词包。然后用自然语言处理的工具包nltk做相似度。以及词典工具有近义词那种woednet做相似。你全是句子,就不方便用tf-idf来衡量。可以考虑用用语义模型,lda什么的。 你这个就是自然语言处理。看看最新的谷歌,微软它们怎么做的。 我不做NLP多的也建议不了了。good lick 发自小木虫Android客户端 |

3楼2016-11-22 01:30:03
xinlixi1997
铁虫 (著名写手)
- 应助: 4 (幼儿园)
- 金币: 3023.8
- 红花: 1
- 帖子: 1071
- 在线: 158.5小时
- 虫号: 1016248
- 注册: 2010-05-11
- 性别: GG
- 专业: 教育心理学
4楼2016-11-24 13:00:30
FMStation
至尊木虫 (知名作家)
- 信息EPI: 1
- 应助: 591 (博士)
- 贵宾: 0.03
- 金币: 18173.2
- 红花: 97
- 帖子: 8891
- 在线: 1487.4小时
- 虫号: 2400059
- 注册: 2013-04-04
- 专业: 计算机应用技术
【答案】应助回帖
★ ★
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:59
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:59
|
1. Text Processing http://gnosis.cx/TPiP/ Text Processing in Python 2. Clustering https://www.mathworks.com/help/stats/kmeans.html k-means clustering (MATLAB) |
5楼2016-11-30 10:01:49
6楼2016-11-30 11:35:52
胡不归
木虫 (正式写手)
- 应助: 44 (小学生)
- 金币: 3839.3
- 红花: 2
- 帖子: 623
- 在线: 173.2小时
- 虫号: 781388
- 注册: 2009-05-28
- 性别: GG
- 专业: 信号理论与信号处理
7楼2016-12-24 11:59:56












回复此楼