查看: 107|回复: 2

大规模主题模型:对Spark LDA算法的改进

[复制链接]
论坛徽章:
181
Oracle研习者中级
日期:2013-08-25 14:25:49spss初级
日期:2012-10-11 16:17:06R研习者中级
日期:2013-06-13 19:02:32Hadoop研习者初级
日期:2012-08-20 22:35:19Oracle研习者高级
日期:2013-08-25 14:24:26Oracle研习者高级
日期:2013-08-25 14:23:53nosql徽章
日期:2013-05-09 17:05:06Openstack徽章
日期:2013-05-09 17:03:52EBS制造徽章
日期:2013-05-09 13:15:37EBS财务徽章
日期:2013-05-09 13:13:47股票徽章
日期:2018-06-29 11:14:50知识图谱徽章
日期:2018-06-15 13:47:21
发表于 2019-5-14 19:24 | 显示全部楼层 |阅读模式

算法 模型 Spark

回复

使用道具 举报

论坛徽章:
181
Oracle研习者中级
日期:2013-08-25 14:25:49spss初级
日期:2012-10-11 16:17:06R研习者中级
日期:2013-06-13 19:02:32Hadoop研习者初级
日期:2012-08-20 22:35:19Oracle研习者高级
日期:2013-08-25 14:24:26Oracle研习者高级
日期:2013-08-25 14:23:53nosql徽章
日期:2013-05-09 17:05:06Openstack徽章
日期:2013-05-09 17:03:52EBS制造徽章
日期:2013-05-09 13:15:37EBS财务徽章
日期:2013-05-09 13:13:47股票徽章
日期:2018-06-29 11:14:50知识图谱徽章
日期:2018-06-15 13:47:21
 楼主| 发表于 2019-5-14 19:25 | 显示全部楼层
运行LDA的小技巧
确保迭代次数足够多。前期的迭代返回一些无用的(极其相似的)话题,但是继续迭代多次后结果明显改善。我们注意到这对EM算法尤其有效。
对于数据中特殊停用词的处理方法,通常的做法是运行一遍LDA,观察各个话题,挑出各个话题中的停用词,把他们滤除,再运行一遍LDA。
确定话题的个数是一门艺术。有些算法可以自动选择话题个数,但是领域知识对得到好的结果至关重要。
特征变换类的Pipeline API对于LDA的文字预处理工作极其有用;重点查看Tokenizer,StopwordsRemover和CountVectorizer接口。
下一步是什么?
Spark贡献者正在积极地优化我们的LDA实现方式。正在进行的工作有: 吉布斯采样(一种更慢但是有时更准确的算法), 流式LDA算法和 分层狄利克雷处理(自动选择话题个数)。
回复 支持 反对

使用道具 举报

论坛徽章:
35
树莓派
日期:2015-04-10 15:20:01python徽章
日期:2017-08-17 17:09:36python徽章
日期:2017-10-20 16:37:41区块链徽章
日期:2018-01-18 18:02:56金融徽章
日期:2018-03-01 16:43:15Hadoop研习者初级
日期:2018-03-29 16:08:43R研习者中级
日期:2018-04-26 15:27:36python徽章
日期:2018-06-21 17:15:38股票徽章
日期:2018-08-24 10:51:37计算徽章
日期:2018-09-21 16:51:47股票徽章
日期:2018-11-01 14:04:25股票徽章
日期:2019-01-10 14:04:57
发表于 2019-5-19 15:32 | 显示全部楼层
运行LDA的小技巧
确保迭代次数足够多。前期的迭代返回一些无用的(极其相似的)话题,但是继续迭代多次后结果明显改善。我们注意到这对EM算法尤其有效。
对于数据中特殊停用词的处理方法,通常的做法是运行一遍LDA,观察各个话题,挑出各个话题中的停用词,把他们滤除,再运行一遍LDA。
确定话题的个数是一门艺术。有些算法可以自动选择话题个数,但是领域知识对得到好的结果至关重要。
特征变换类的Pipeline API对于LDA的文字预处理工作极其有用;重点查看Tokenizer,StopwordsRemover和CountVectorizer接口。
下一步是什么?
Spark贡献者正在积极地优化我们的LDA实现方式。正在进行的工作有: 吉布斯采样(一种更慢但是有时更准确的算法), 流式LDA算法和 分层狄利克雷处理(自动选择话题个数)。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2019-6-25 03:16 , Processed in 0.120664 second(s), 34 queries .

关闭

扫一扫加入
本版微信群