查看: 74|回复: 1

Spark ML第一课技巧总结

[复制链接]
论坛徽章:
0
发表于 2018-6-10 20:42 | 显示全部楼层 |阅读模式

Spark 正则表达式

  其实对于文本中标点符号的处理可以借助正则表达式,而停用词可以从文件读取,再转为list,在DataSet的filter中使用。
回复

使用道具 举报

论坛徽章:
0
发表于 2018-6-10 21:44 | 显示全部楼层
停用词转化为list,使用的是什么方式呢?用collectAsList吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-7-22 20:57 , Processed in 0.114996 second(s), 30 queries .