查看: 137|回复: 1

Spark ML第一课技巧总结

[复制链接]
论坛徽章:
1
spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-10 20:42 | 显示全部楼层 |阅读模式

Spark 正则表达式

  其实对于文本中标点符号的处理可以借助正则表达式,而停用词可以从文件读取,再转为list,在DataSet的filter中使用。
回复

使用道具 举报

论坛徽章:
2
spark徽章
日期:2018-08-24 10:52:51Kaggle徽章
日期:2018-09-13 15:33:11
发表于 2018-6-10 21:44 | 显示全部楼层
停用词转化为list,使用的是什么方式呢?用collectAsList吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-21 04:09 , Processed in 0.101656 second(s), 31 queries .