查看: 151|回复: 1

求使用es实现个性化搜索的一个简单的具体实例

[复制链接]
论坛徽章:
8
Hadoop研习者初级
日期:2014-09-19 14:12:21比特币徽章
日期:2014-11-06 14:54:26scala徽章
日期:2014-11-06 14:55:58scala徽章
日期:2014-11-27 15:51:52搜索引擎徽章
日期:2016-08-18 11:36:51计算徽章
日期:2018-07-17 16:42:49spark徽章
日期:2018-08-24 10:52:07spark徽章
日期:2018-08-24 10:52:51
发表于 2018-6-29 00:51 | 显示全部楼层 |阅读模式
求使用es实现个性化搜索的一个简单的具体实例
回复

使用道具 举报

论坛徽章:
40
Hadoop研习者初级
日期:2013-10-21 22:46:16matlab徽章
日期:2016-01-21 11:02:13matlab徽章
日期:2016-01-21 11:01:46投资理财徽章
日期:2015-11-12 14:25:33cognos徽章
日期:2015-10-14 17:39:01Excel徽章
日期:2015-09-24 16:21:34数据陷阱解读徽章
日期:2015-08-13 15:21:45spss初级
日期:2015-08-13 12:05:22nosql徽章
日期:2015-07-16 10:57:52Hadoop研习者初级
日期:2016-02-01 16:30:08搜索引擎徽章
日期:2016-03-03 14:51:18知识图谱徽章
日期:2018-06-15 13:47:21
发表于 2018-6-30 17:31 | 显示全部楼层

基本概念:

  索引Index

    es吧数据放到一个或者多个索引中,如果用关系型数据库模型对比,索引的地位与数据库实例(db)相当。索引存放和读取的基本单元是文档(document)。es内部使用的是apache lucene实现的索引中数据的读写。(es被视为单独的一个索引,在lucene中不止一个,因为分布式中,es会用到分区shards和备份replicas机制讲一个索引存储多份)。

  文档document

    在es中,文档主要是存储实体。所有的es应用需求最后都需要统一建成一个检索模型:检索相关文档。

文档由一个或多个域,每个域field由一个域名或多个值组成(有多个值的称为多值域)。

在es中每个文档都可能会有不同的域field集合;也就是说文档是没有固定的模式和同意的结构的。文档之间保持的相似性即可。

在客户端角度来看,文档就是一个json对象。

参数映射  所有的文档在存储之前都必须分析(analyze)流程,用户可以配置输入文本分解成token的方式:哪些token呗滤掉;或者其它的处理流程,比如去除html标签。

  文档类型(type)

    每个文档在es中都必须设定它的类型。文档类型使得同一个索引中在存储结构不同文档时,只需根据文档类型就可以找到对应的参数映射信息,方便文档的存取。

   节点Node

     单独es服务器实例成为一个节点。

    集群Cluster

      集群能够存储超出单机容量的信息。由于目前单点就可以满足咱们的需求,就不详细介绍了。

    索引副本Replica

      通过索引分片机制可以想es集群中导入超过单机容量的数据,客户端操作任意一个节点接口实现对集群数据的读写。(不做详细解释了)

    时间之门gateway

      在运行的过程中,es会收到集群的状态,索引的参数等信息。这些呗存储在gateway中。


  es背后核心理念:

    es是构造极少数的几个极少数的概念之上的。

    开箱急用。

    天生集群。

    自动容错。

    扩展性强。


  es工作原理:

    启动过程:

    当es节点启动后,会利用 多播(multicast)或单播(别问我什么是单播,多播,没必要纠结这些)寻找病简历链接。

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-21 04:18 , Processed in 0.096223 second(s), 32 queries .