查看: 211|回复: 2

Spark在处理停用词的时候有什么好的方法

[复制链接]
论坛徽章:
0
发表于 2018-6-10 21:36 | 显示全部楼层 |阅读模式

Spark 方法

新手一枚,希望大家能给一些处理停用词的方法和技巧,能有优化的思想较好了
回复

使用道具 举报

论坛徽章:
0
 楼主| 发表于 2018-6-10 21:37 | 显示全部楼层
我开始只是把停用词读成一个list,然后处理RDD的时候一个个的取判断的,不知道这样是否有问题
回复 支持 反对

使用道具 举报

论坛徽章:
6
Hadoop研习者初级
日期:2014-09-19 14:12:21比特币徽章
日期:2014-11-06 14:54:26scala徽章
日期:2014-11-06 14:55:58scala徽章
日期:2014-11-27 15:51:52搜索引擎徽章
日期:2016-08-18 11:36:51计算徽章
日期:2018-07-17 16:42:49
发表于 2018-6-10 23:54 | 显示全部楼层
如果你用sql用的多,停用词看做一个表,单词次数看做一个表,可以用 单词次数表 left join 停用词表 on 单词次数表.单词 = 停用词表.单词 where 停用词表.单词 = null ,把这个sql转成spark sql即可
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-7-22 20:50 , Processed in 0.119011 second(s), 33 queries .