24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2428  |  回复: 6

babaozhu

新虫 (初入文坛)

[求助] 关于语义特征提取的问题已有2人参与

求解答!拜谢

老板提了这样一个课题,比如给你一百句话,将他们聚类成几个簇,使得每个簇的语义相近。
当然可能实际的数据大小不止一百句。
我想知道如何将一句话当中的词汇转换为一组特征
这个怎么用matlab实现?
总不能是一句话一句话的分词吧。。。

我自己找了一些文本相关的论文
很多都是对文档当中的词频进行统计
感觉这种方法对语句这种不太行,同一个意思可能有多种表达方式,如果纯用词频可能并不精确
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

纠结帝II

新虫 (初入文坛)


babaozhu(conanwj代发): 金币+1, 感谢应助 2016-12-01 08:11:42
MATLAB不是干这个的,spark mlib机器学习,有相关的处理,只能帮你到这了

发自小木虫Android客户端
2楼2016-11-17 11:38:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wake_up

木虫 (著名写手)

【答案】应助回帖

★ ★
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:49
你这个是要分词的,先用分词包。然后用自然语言处理的工具包nltk做相似度。以及词典工具有近义词那种woednet做相似。你全是句子,就不方便用tf-idf来衡量。可以考虑用用语义模型,lda什么的。 你这个就是自然语言处理。看看最新的谷歌,微软它们怎么做的。   我不做NLP多的也建议不了了。good lick

发自小木虫Android客户端
扫地扫地扫心地,心地不扫空扫地,人人都把心地扫,世上无处不净地.
3楼2016-11-22 01:30:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xinlixi1997

铁虫 (著名写手)

4楼2016-11-24 13:00:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

FMStation

至尊木虫 (知名作家)

【答案】应助回帖

★ ★
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:59
1. Text Processing

http://gnosis.cx/TPiP/
Text Processing in Python

2. Clustering

https://www.mathworks.com/help/stats/kmeans.html
k-means clustering (MATLAB)
5楼2016-11-30 10:01:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

苹果桔子

新虫 (初入文坛)

http://docs.bosonnlp.com/cluster.html               这个可不可以有用

发自小木虫Android客户端
6楼2016-11-30 11:35:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

胡不归

木虫 (正式写手)

用word2vect对分词后的每个词建立一个对应的矢量,再利用相似性原则判断句子之间的接近程度,即分簇。
7楼2016-12-24 11:59:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 babaozhu 的主题更新
信息提示
请填处理意见