24小时热门版块排行榜    

Znn3bq.jpeg
查看: 2597  |  回复: 6

babaozhu

新虫 (初入文坛)

[求助] 关于语义特征提取的问题 已有2人参与

求解答!拜谢

老板提了这样一个课题,比如给你一百句话,将他们聚类成几个簇,使得每个簇的语义相近。
当然可能实际的数据大小不止一百句。
我想知道如何将一句话当中的词汇转换为一组特征
这个怎么用matlab实现?
总不能是一句话一句话的分词吧。。。

我自己找了一些文本相关的论文
很多都是对文档当中的词频进行统计
感觉这种方法对语句这种不太行,同一个意思可能有多种表达方式,如果纯用词频可能并不精确
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

纠结帝II

新虫 (初入文坛)


babaozhu(conanwj代发): 金币+1, 感谢应助 2016-12-01 08:11:42
MATLAB不是干这个的,spark mlib机器学习,有相关的处理,只能帮你到这了

发自小木虫Android客户端
2楼2016-11-17 11:38:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wake_up

木虫 (著名写手)

【答案】应助回帖

★ ★
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:49
你这个是要分词的,先用分词包。然后用自然语言处理的工具包nltk做相似度。以及词典工具有近义词那种woednet做相似。你全是句子,就不方便用tf-idf来衡量。可以考虑用用语义模型,lda什么的。 你这个就是自然语言处理。看看最新的谷歌,微软它们怎么做的。   我不做NLP多的也建议不了了。good lick

发自小木虫Android客户端
扫地扫地扫心地,心地不扫空扫地,人人都把心地扫,世上无处不净地.
3楼2016-11-22 01:30:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xinlixi1997

铁虫 (著名写手)

4楼2016-11-24 13:00:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

FMStation

至尊木虫 (知名作家)

【答案】应助回帖

★ ★
babaozhu(conanwj代发): 金币+2, 感谢应助 2016-12-01 08:11:59
1. Text Processing

http://gnosis.cx/TPiP/
Text Processing in Python

2. Clustering

https://www.mathworks.com/help/stats/kmeans.html
k-means clustering (MATLAB)
5楼2016-11-30 10:01:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

苹果桔子

新虫 (初入文坛)

http://docs.bosonnlp.com/cluster.html               这个可不可以有用

发自小木虫Android客户端
6楼2016-11-30 11:35:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

胡不归

木虫 (正式写手)

用word2vect对分词后的每个词建立一个对应的矢量,再利用相似性原则判断句子之间的接近程度,即分簇。
7楼2016-12-24 11:59:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 babaozhu 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[基金申请] 河北省自然科学基金 +5 Peterchao 2026-05-18 8/400 2026-05-24 11:58 by 晓晓爱翠翠
[基金申请] 西安交大新媒学院副院长用撤稿论文结题 +3 bjvtcliu 2026-05-24 5/250 2026-05-24 10:16 by kudofaye
[教师之家] 论文撤稿了 +3 bjvtcliu 2026-05-24 5/250 2026-05-24 10:06 by Equinoxhua
[教师之家] 某211大学教师把个人教师官方主页改成:我跑了我跑了我跑了!官宣跑路! +4 zju2000 2026-05-21 5/250 2026-05-24 09:35 by songwz
[考博] 26/27申博自荐 10+4 ZXW0202 2026-05-22 9/450 2026-05-24 08:47 by bjvtcliu
[硕博家园] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 hvkbtfonbv 2026-05-23 3/150 2026-05-24 08:01 by 9ps9vgkqva
[硕博家园] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 pmo95bazuy 2026-05-23 7/350 2026-05-24 06:35 by fpo5ljpv91
[基金申请] 揭秘青基评审内幕:几个A才能顺利中标 +3 国自然国社科中 2026-05-23 4/200 2026-05-23 15:37 by 2000zf36392
[基金申请] 青B发送上会通知了吗 +5 chemBioBro 2026-05-22 7/350 2026-05-23 12:35 by zhuifengzhy
[考博] 博士申请 +3 焦晓明 2026-05-21 3/150 2026-05-23 11:26 by mlc840311
[论文投稿] 投稿求助,期刊 +4 希冀,有书读 2026-05-20 8/400 2026-05-22 10:16 by 希冀,有书读
[文学芳草园] 献血感触 +7 呀呀好傻 2026-05-19 13/650 2026-05-21 20:15 by 呀呀好傻
[基金申请] 面上本子正文33页,违规吗?会被低分嘛? +14 1234567wang 2026-05-17 16/800 2026-05-21 17:58 by 脆脆的饼干
[基金申请] 国自然评分 +4 无名者登山 2026-05-20 5/250 2026-05-21 16:35 by swuq
[基金申请] 国自然上会要求 +7 无名者登山 2026-05-18 11/550 2026-05-21 15:50 by draco1987
[基金申请] 评审有感 +15 popular289 2026-05-18 26/1300 2026-05-21 10:35 by 西葫芦炒鸡蛋
[有机交流] 反应很差,大量原料没有反应 5+3 Mr.Zot 2026-05-19 8/400 2026-05-20 22:19 by Equinoxhua
[考博] 如果工作了想读博,可以边工作边读全日制嘛? 30+3 铁达火车 2026-05-18 5/250 2026-05-20 09:33 by tfang
[考博] 博士申请 +5 星…… 2026-05-18 6/300 2026-05-18 23:49 by 糊糊涂涂好
[硕博家园] 我在等一个没有答案的答案 +3 Love_MH 2026-05-17 3/150 2026-05-18 02:22 by 竹林孤影
信息提示
请填处理意见