查看: 430|回复: 4

Spark在处理停用词的时候有什么好的方法

[复制链接]
论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
发表于 2018-6-10 21:36 | 显示全部楼层 |阅读模式

Spark 方法

新手一枚,希望大家能给一些处理停用词的方法和技巧,能有优化的思想较好了
回复

使用道具 举报

论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
 楼主| 发表于 2018-6-10 21:37 | 显示全部楼层
我开始只是把停用词读成一个list,然后处理RDD的时候一个个的取判断的,不知道这样是否有问题
回复 支持 反对

使用道具 举报

论坛徽章:
8
Hadoop研习者初级
日期:2014-09-19 14:12:21比特币徽章
日期:2014-11-06 14:54:26scala徽章
日期:2014-11-06 14:55:58scala徽章
日期:2014-11-27 15:51:52搜索引擎徽章
日期:2016-08-18 11:36:51计算徽章
日期:2018-07-17 16:42:49spark徽章
日期:2018-08-24 10:52:07spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-10 23:54 | 显示全部楼层
如果你用sql用的多,停用词看做一个表,单词次数看做一个表,可以用 单词次数表 left join 停用词表 on 单词次数表.单词 = 停用词表.单词 where 停用词表.单词 = null ,把这个sql转成spark sql即可
回复 支持 反对

使用道具 举报

论坛徽章:
3
mahout徽章
日期:2014-11-06 14:57:37Excel徽章
日期:2016-03-10 10:21:15机器学习徽章
日期:2017-04-20 17:20:56
发表于 2018-8-20 21:04 | 显示全部楼层
学习了,第一课的作业正好不知道怎么下手
回复 支持 反对

使用道具 举报

新浪微博达人勋 xenron  实名认证
论坛徽章:
136
智慧眼徽章
日期:2018-11-01 14:18:00人工智能徽章
日期:2018-11-01 14:20:32机器学习徽章
日期:2018-11-08 16:28:02Java徽章
日期:2018-11-09 10:58:32架构徽章
日期:2018-11-09 11:08:07
发表于 2018-8-21 23:39 | 显示全部楼层
借助外部csv,可以实现动态修改。
借助hive,进行数据库查询,这样在大量停用词的时候,速度快些。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-11-13 03:56 , Processed in 0.122010 second(s), 43 queries .