查看: 105|回复: 4

自定义停用词

[复制链接]
论坛徽章:
1
矩阵计算徽章
日期:2018-07-19 15:02:10
发表于 2018-6-2 20:30 | 显示全部楼层 |阅读模式
第一周作业的自定义停用词这里卡住了, 其他都能实现, 做出来的同学可以分享一下思路吗?
回复

使用道具 举报

论坛徽章:
1
spark徽章
日期:2018-06-14 15:36:26
发表于 2018-6-5 11:21 | 显示全部楼层
the,we,you,a,'d,'s都算是停用此
回复 支持 反对

使用道具 举报

论坛徽章:
6
Hadoop研习者初级
日期:2014-09-19 14:12:21比特币徽章
日期:2014-11-06 14:54:26scala徽章
日期:2014-11-06 14:55:58scala徽章
日期:2014-11-27 15:51:52搜索引擎徽章
日期:2016-08-18 11:36:51计算徽章
日期:2018-07-17 16:42:49
发表于 2018-6-8 09:55 | 显示全部楼层
英文停用词大全:
'd  
'll  
'm  
're  
's  
't  
've  
ZT  
ZZ  
a  
a's  
able  
about  
above  
abst  
accordance  
according  
accordingly  
across  
act  
actually  
added  
adj  
adopted  
affected  
affecting  
affects  
after  
afterwards  
again  
against  
ah  
ain't  
all  
allow  
allows  
almost  
alone  
along  
already  
also  
although  
always  
am  
among  
amongst  
an  
and  
announce  
another  
any  
anybody  
anyhow  
anymore  
anyone  
anything  
anyway  
anyways  
anywhere  
apart  
apparently  
appear  
appreciate  
appropriate  
approximately  
are  
area  
areas  
aren  
aren't  
arent  
arise  
around  
as  
aside  
ask  
asked  
asking  
asks  
associated  
at  
auth  
available  
away  
awfully  
b  
back  
backed  
backing  
backs  
be  
became  
because  
become  
becomes  
becoming  
been  
before  
beforehand  
began  
begin  
beginning  
beginnings  
begins  
behind  
being  
beings  
believe  
below  
beside  
besides  
best  
better  
between  
beyond  
big  
biol  
both  
brief  
briefly  
but  
by  
c  
c'mon  
c's  
ca  
came  
can  
can't  
cannot  
cant  
case  
cases  
cause  
causes  
certain  
certainly  
changes  
clear  
clearly  
co  
com  
come  
comes  
concerning  
consequently  
consider  
considering  
contain  
containing  
contains  
corresponding  
could  
couldn't  
couldnt  
course  
currently  
d  
date  
definitely  
describe  
described  
despite  
did  
didn't  
differ  
different  
differently  
discuss  
do  
does  
doesn't  
doing  
don't  
done  
down  
downed  
downing  
downs  
downwards  
due  
during  
e  
each  
early  
ed  
edu  
effect  
eg  
eight  
eighty  
either  
else  
elsewhere  
end  
ended  
ending  
ends  
enough  
entirely  
especially  
et  
et-al  
etc  
even  
evenly  
ever  
every  
everybody  
everyone  
everything  
everywhere  
ex  
exactly  
example  
except  
f  
face  
faces  
fact  
facts  
far  
felt  
few  
ff  
fifth  
find  
finds  
first  
five  
fix  
followed  
following  
follows  
for  
former  
formerly  
forth  
found  
four  
from  
full  
fully  
further  
furthered  
furthering  
furthermore  
furthers  
g  
gave  
general  
generally  
get  
gets  
getting  
give  
given  
gives  
giving  
go  
goes  
going  
gone  
good  
goods  
got  
gotten  
great  
greater  
greatest  
greetings  
group  
grouped  
grouping  
groups  
h  
had  
hadn't  
happens  
hardly  
has  
hasn't  
have  
haven't  
having  
he  
he's  
hed  
hello  
help  
hence  
her  
here  
here's  
hereafter  
hereby  
herein  
heres  
hereupon  
hers  
herself  
hes  
hi  
hid  
high  
higher  
highest  
him  
himself  
his  
hither  
home  
hopefully  
how  
howbeit  
however  
hundred  
i  
i'd  
i'll  
i'm  
i've  
id  
ie  
if  
ignored  
im  
immediate  
immediately  
importance  
important  
in  
inasmuch  
inc  
include  
indeed  
index  
indicate  
indicated  
indicates  
information  
inner  
insofar  
instead  
interest  
interested  
interesting  
interests  
into  
invention  
inward  
is  
isn't  
it  
it'd  
it'll  
it's  
itd  
its  
itself  
j  
just  
k  
keep  
keeps  
kept  
keys  
kg  
kind  
km  
knew  
know  
known  
knows  
l  
large  
largely  
last  
lately  
later  
latest  
latter  
latterly  
least  
less  
lest  
let  
let's  
lets  
like  
liked  
likely  
line  
little  
long  
longer  
longest  
look  
looking  
looks  
ltd  
m  
made  
mainly  
make  
makes  
making  
man  
many  
may  
maybe  
me  
mean  
means  
meantime  
meanwhile  
member  
members  
men  
merely  
mg  
might  
million  
miss  
ml  
more  
moreover  
most  
mostly  
mr  
mrs  
much  
mug  
must  
my  
myself  
n  
n't  
na  
name  
namely  
nay  
nd  
near  
nearly  
necessarily  
necessary  
need  
needed  
needing  
needs  
neither  
never  
nevertheless  
new  
newer  
newest  
next  
nine  
ninety  
no  
nobody  
non  
none  
nonetheless  
noone  
nor  
normally  
nos  
not  
noted  
nothing  
novel  
now  
nowhere  
number  
numbers  
o  
obtain  
obtained  
obviously  
of  
off  
often  
oh  
ok  
okay  
old  
older  
oldest  
omitted  
on  
once  
one  
ones  
only  
onto  
open  
opened  
opening  
opens  
or  
ord  
order  
ordered  
ordering  
orders  
other  
others  
otherwise  
ought  
our  
ours  
ourselves  
out  
outside  
over  
overall  
owing  
own  
p  
page  
pages  
part  
parted  
particular  
particularly  
parting  
parts  
past  
per  
perhaps  
place  
placed  
places  
please  
plus  
point  
pointed  
pointing  
points  
poorly  
possible  
possibly  
potentially  
pp  
predominantly  
present  
presented  
presenting  
presents  
presumably  
previously  
primarily  
probably  
problem  
problems  
promptly  
proud  
provides  
put  
puts  
q  
que  
quickly  
quite  
qv  
r  
ran  
rather  
rd  
re  
readily  
really  
reasonably  
recent  
recently  
ref  
refs  
regarding  
regardless  
regards  
related  
relatively  
research  
respectively  
resulted  
resulting  
results  
right  
room  
rooms  
run  
s  
said  
same  
saw  
say  
saying  
says  
sec  
second  
secondly  
seconds  
section  
see  
seeing  
seem  
seemed  
seeming  
seems  
seen  
sees  
self  
selves  
sensible  
sent  
serious  
seriously  
seven  
several  
shall  
she  
she'll  
shed  
shes  
should  
shouldn't  
show  
showed  
showing  
shown  
showns  
shows  
side  
sides  
significant  
significantly  
similar  
similarly  
since  
six  
slightly  
small  
smaller  
smallest  
so  
some  
somebody  
somehow  
someone  
somethan  
something  
sometime  
sometimes  
somewhat  
somewhere  
soon  
sorry  
specifically  
specified  
specify  
specifying  
state  
states  
still  
stop  
strongly  
sub  
substantially  
successfully  
such  
sufficiently  
suggest  
sup  
sure  
t  
t's  
take  
taken  
taking  
tell  
tends  
th  
than  
thank  
thanks  
thanx  
that  
that'll  
that's  
that've  
thats  
the  
their  
theirs  
them  
themselves  
then  
thence  
there  
there'll  
there's  
there've  
thereafter  
thereby  
thered  
therefore  
therein  
thereof  
therere  
theres  
thereto  
thereupon  
these  
they  
they'd  
they'll  
they're  
they've  
theyd  
theyre  
thing  
things  
think  
thinks  
third  
this  
thorough  
thoroughly  
those  
thou  
though  
thoughh  
thought  
thoughts  
thousand  
three  
throug  
through  
throughout  
thru  
thus  
til  
tip  
to  
today  
together  
too  
took  
toward  
towards  
tried  
tries  
truly  
try  
trying  
ts  
turn  
turned  
turning  
turns  
twice  
two  
u  
un  
under  
unfortunately  
unless  
unlike  
unlikely  
until  
unto  
up  
upon  
ups  
us  
use  
used  
useful  
usefully  
usefulness  
uses  
using  
usually  
uucp  
v  
value  
various  
very  
via  
viz  
vol  
vols  
vs  
w  
want  
wanted  
wanting  
wants  
was  
wasn't  
way  
ways  
we  
we'd  
we'll  
we're  
we've  
wed  
welcome  
well  
wells  
went  
were  
weren't  
what  
what'll  
what's  
whatever  
whats  
when  
whence  
whenever  
where  
where's  
whereafter  
whereas  
whereby  
wherein  
wheres  
whereupon  
wherever  
whether  
which  
while  
whim  
whither  
who  
who'll  
who's  
whod  
whoever  
whole  
whom  
whomever  
whos  
whose  
why  
widely  
will  
willing  
wish  
with  
within  
without  
won't  
wonder  
words  
work  
worked  
working  
works  
world  
would  
wouldn't  
www  
x  
y  
year  
years  
yes  
yet  
you  
you'd  
you'll  
you're  
you've  
youd  
young  
younger  
youngest  
your  
youre  
yours  
yourself  
yourselves  
z  
zero  
zt  
zz  
回复 支持 反对

使用道具 举报

论坛徽章:
9
JVM徽章
日期:2014-12-24 15:14:33python徽章
日期:2017-01-06 10:51:34python徽章
日期:2017-03-02 16:34:48机器学习徽章
日期:2017-05-18 16:19:25spark徽章
日期:2017-11-23 16:58:47Java徽章
日期:2018-01-04 17:15:14R研习者高级
日期:2018-01-18 18:00:50Kafka徽章
日期:2018-03-23 10:45:46架构徽章
日期:2018-05-03 15:48:06
发表于 2018-6-8 10:56 | 显示全部楼层
qq741437829 发表于 2018-6-8 09:55
英文停用词大全:
'd  
'll  

竟然有如此多的停用词!
回复 支持 反对

使用道具 举报

新浪微博达人勋 ojsl 实名认证
论坛徽章:
7
比特币徽章
日期:2017-09-28 17:18:05Oracle研习者初级
日期:2017-10-26 15:09:26spark徽章
日期:2017-11-23 16:58:48机器学习徽章
日期:2017-11-30 15:59:35算法导论徽章
日期:2017-12-28 17:08:38智慧眼徽章
日期:2018-03-19 15:05:00spark徽章
日期:2018-06-14 15:36:26
发表于 2018-6-10 17:19 | 显示全部楼层
我是这么定义的,根据老师给的文件。val listpoint = List("|",",","-",".","!","“","”")
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-7-22 20:57 , Processed in 0.173558 second(s), 47 queries .