查看: 297|回复: 6

mllib 作业--去停用词不会

[复制链接]
论坛徽章:
10
Oracle研习者初级
日期:2013-03-02 10:06:43spark徽章
日期:2018-05-03 15:46:21spark徽章
日期:2018-04-26 15:29:14Oracle研习者高级
日期:2013-08-25 14:26:25Oracle研习者中级
日期:2013-08-25 14:25:49Oracle研习者初级
日期:2013-08-08 23:04:01Oracle研习者高级
日期:2013-10-21 22:32:52Oracle研习者初级
日期:2013-06-19 14:31:10Oracle研习者初级
日期:2013-04-18 13:19:15Kafka徽章
日期:2018-06-07 16:22:12
发表于 2018-1-28 09:40 | 显示全部楼层 |阅读模式

MLlib

mllib 第一课的作业:去停用词不会,作业完成的同学能提示一下吗?
回复

使用道具 举报

论坛徽章:
5
spark徽章
日期:2018-04-26 15:29:14spark徽章
日期:2018-05-03 15:46:21机器学习徽章
日期:2018-05-03 15:46:42机器学习徽章
日期:2018-05-17 15:59:37机器学习徽章
日期:2018-08-24 10:51:47
发表于 2018-1-28 16:20 | 显示全部楼层
其实我也没明白是啥意思
回复 支持 反对

使用道具 举报

论坛徽章:
2
linux徽章
日期:2018-04-02 15:18:51spark徽章
日期:2018-04-26 15:29:14
发表于 2018-1-28 20:01 | 显示全部楼层
我现在还没做出来,快急死了啊
回复 支持 反对

使用道具 举报

论坛徽章:
10
数据陷阱解读徽章
日期:2016-06-16 10:34:33股票徽章
日期:2018-08-24 10:51:37区块链徽章
日期:2018-08-03 13:40:42Julia徽章
日期:2018-05-17 15:58:56金融徽章
日期:2018-04-20 15:27:58金融徽章
日期:2017-12-08 10:41:29python徽章
日期:2017-11-03 16:08:15比特币徽章
日期:2017-09-28 17:18:05抽样调查徽章
日期:2016-07-21 11:16:17股票徽章
日期:2018-08-30 15:33:52
发表于 2018-1-28 21:34 | 显示全部楼层
其他做了,就这点没做。。。
回复 支持 反对

使用道具 举报

论坛徽章:
17
Hadoop研习者初级
日期:2014-01-28 12:16:34spark徽章
日期:2018-05-03 15:46:22spark徽章
日期:2018-04-26 15:29:14数据展示徽章
日期:2018-04-12 14:26:20金融徽章
日期:2018-03-01 16:44:04Java徽章
日期:2018-02-08 16:11:57安全徽章
日期:2018-01-11 17:39:54Mycat徽章
日期:2016-08-11 11:03:51数据陷阱解读徽章
日期:2016-08-11 11:02:12Hadoop研习者初级
日期:2016-07-14 11:07:35抽样调查徽章
日期:2016-05-12 11:57:26R研习者中级
日期:2015-04-10 15:08:07
发表于 2018-1-29 05:34 | 显示全部楼层
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。 不要把停用词与安全口令混淆。 这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。

停用词
http://blog.csdn.net/shijiebei2009/article/details/39696571
回复 支持 反对

使用道具 举报

论坛徽章:
19
投资理财徽章
日期:2017-08-03 18:14:36Keras徽章
日期:2018-07-26 15:36:38人工智能徽章
日期:2018-07-19 15:00:17知识图谱徽章
日期:2018-06-15 13:47:21python徽章
日期:2018-05-24 16:09:52Tensorflow徽章
日期:2018-03-01 16:44:34Java徽章
日期:2018-01-04 17:15:14Julia徽章
日期:2017-12-25 17:39:24Git徽章
日期:2017-12-25 17:35:54Hadoop研习者初级
日期:2017-11-09 17:07:34Oracle研习者初级
日期:2017-10-26 15:09:26R研习者中级
日期:2017-10-26 15:08:38
发表于 2018-6-9 11:14 | 显示全部楼层
停用词就是一个集合,把集合中的词去掉不要统计就可以了
回复 支持 反对

使用道具 举报

新浪微博达人勋 ojsl 实名认证
论坛徽章:
9
比特币徽章
日期:2017-09-28 17:18:05Oracle研习者初级
日期:2017-10-26 15:09:26spark徽章
日期:2017-11-23 16:58:48机器学习徽章
日期:2017-11-30 15:59:35算法导论徽章
日期:2017-12-28 17:08:38智慧眼徽章
日期:2018-03-19 15:05:00spark徽章
日期:2018-06-14 15:36:26spark徽章
日期:2018-08-24 10:52:51人工智能徽章
日期:2018-09-03 15:45:32
发表于 2018-6-10 17:18 | 显示全部楼层
就是一些符号信息,和常规单词不同,会干扰信息,所以需要去掉。具体是使用replace替换掉即可。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-21 03:56 , Processed in 0.138062 second(s), 56 queries .