elasticsearch Categories

# 原理剖析

1）写数据

客户端选择一个 node 发送请求过去，这个 node 就是 coordinating node（协调节点）。
coordinating node 对 document 进行路由，将请求转发给对应的 node（有 primary shard）。
实际的 node 上的 primary shard 处理请求，然后将数据同步到 replica node。
coordinating node 如果发现 primary node 和所有 replica node 都搞定之后，就返回响应结果给客户端。

2）读数据。

客户端发送请求到任意一个 node，成为 coordinate node。
coordinate node 对 doc id 进行哈希路由，将请求转发到对应的 node，此时会使用 round-robin - - 随机轮询算法，在 primary shard 以及其所有 replica 中随机选择一个，让读请求负载均衡。
接收请求的 node 返回 document 给 coordinate node。 coordinate node 返回 document 给客户端。

写数据，实际上都写到磁盘文件里去了，查询的时候，操作系统会将磁盘文件里的数据自动缓存到 filesystem cache 里面去。es 的搜索引擎严重依赖于底层的 filesystem cache，你如果给 filesystem cache 更多的内存，尽量让内存可以容纳所有的 idx segment file 索引数据文件，那么你搜索的时候就基本都是走内存的，性能会非常高。所以，最佳的情况下，就是你的机器的内存，至少可以容纳你的总数据量的一半。建议用 es + hbase 这么一个架构。

3）搜索数据。

客户端发送请求到一个 coordinate node。
协调节点将搜索请求转发到所有的 shard 对应的 primary shard 或 replica shard，都可以。
query phase：每个 shard 将自己的搜索结果（其实就是一些 doc id）返回给协调节点，由协调节点进行数据的合并、排序、分页等操作，产出最终结果。
fetch phase：接着由协调节点根据 doc id 去各个节点上拉取实际的 document 数据，最终返回给客户端。

其实 es 第一是准实时的，数据写入 1 秒后可以搜索到；可能会丢失数据的。有 5 秒的数据，停留在 buffer、translog os cache、segment file os cache 中，而不在磁盘上，此时如果宕机，会导致 5 秒的数据丢失。数据写入 segment file 之后，同时就建立好了倒排索引。

4）删除/更新数据如果是删除操作，commit 的时候会生成一个 .del 文件，里面将某个 doc 标识为 deleted 状态，那么搜索的时候根据 .del 文件就知道这个 doc 是否被删除了。

如果是更新操作，就是将原来的 doc 标识为 deleted 状态，然后新写入一条数据。

buffer 每次 refresh 一次，就会产生一个 segment file，所以默认情况下是 1 秒钟一个 segment file，这样下来 segment file 会越来越多，此时会定期执行 merge。每次 merge 的时候，会将多个 segment file 合并成一个，同时这里会将标识为 deleted 的 doc 给物理删除掉，然后将新的 segment file 写入磁盘，这里会写一个 commit point，标识所有新的 segment file，然后打开 segment file 供搜索使用，同时删除旧的 segment file。

# 常见错误以及解决方案

# 采用动态Mapping

1、1.5.x版本之后，需要分词的字段需要设定text类型和对应的analyzer ；仅需要精确匹配的可直接设置为keyword类型。 2、长文本高亮需要在text类型的基础上，设置fast-vector-highlighter高亮方式，高亮效率能提升20倍以上。

gqsu 2019/2/18下午5:47:15 elasticsearch

ES之从mysql中获取数据导入至ES

# elasticsearch-jdbc

官网下载地址：官网

# 方式一，手动编写配置文件操作

1、安装elasticsearch-jdbc中间键

wget http://xbib.org/repository/org/xbib/elasticsearch/importer/elasticsearch-jdbc/2.3.4.0/elasticsearch-jdbc-2.3.4.0-dist.zip 
unzip elasticsearch-jdbc-2.3.4.0-dist.zip

2、安装dos2unix

yum install dos2unix

gqsu 2018/7/27上午10:12:00 elasticsearch

ES 6.x新版本特性

# 6.3版本新特性

参考：https://www.elastic.co/guide/en/elasticsearch/reference/6.3/sql-getting-started.html

# 一、支持Sql语句：

命令	说明
DESC table	查看该索引的字段和元数据
SHOW COLUMNS	功能同上，只是别名
SHOW FUNCTIONS	列出支持的函数列表，支持通配符过滤
SHOW TABLES	返回索引列表
SELECT .. FROM table_name WHERE .. GROUP BY .. HAVING .. ORDER BY .. LIMIT ..	用来执行查询的命令

此外，还支持通配符查询，只是通配符目前只支持%和 _

gqsu 2018/6/15下午2:13:50 elasticsearch

ES 6.x新版本特性

# 6.3版本新特性

参考：https://www.elastic.co/guide/en/elasticsearch/reference/6.3/sql-getting-started.html

# 一、支持Sql语句：

命令	说明
DESC table	查看该索引的字段和元数据
SHOW COLUMNS	功能同上，只是别名
SHOW FUNCTIONS	列出支持的函数列表，支持通配符过滤
SHOW TABLES	返回索引列表
SELECT .. FROM table_name WHERE .. GROUP BY .. HAVING .. ORDER BY .. LIMIT ..	用来执行查询的命令

此外，还支持通配符查询，只是通配符目前只支持%和 _

gqsu 2018/6/15下午2:13:50 elasticsearch

ES之案例分析

# 创建索引

PUT demo
{
"mappings":{
    "doc":{
        "properties":{
            "title":{
                "type":"text",
                 "analyzer": "ik_max_word"
            },
            "content":{
                "type":"text",
                 "analyzer": "ik_max_word"
            },
            "uniqueId":{
                "type":"keyword",
                "index":"not_analyzed"
            },
            "created":  {
                "type":   "date", 
                "format": "strict_date_optional_time||epoch_millis"
            }
        }
    }
},
"settings":{
        "number_of_shards":3,
        "number_of_replicas":1
	}
}

gqsu 2018/4/3上午9:45:29 elasticsearch

ES之Java High Level REST Client使用

本文用到的_*只是用来代指某一个值，没有特殊含义。

# 查询

# 一般的查询

查询里面必须的两个东西是SearchRequest和 SearchSourceBuilder，且必须将SearchSourceBuilder加入到SearchRequest

最简单的查询所有：

SearchRequest searchRequest = new SearchRequest（）;    //定义查询请求，可带索引参数
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder（）;   //定义请求体
searchSourceBuilder.query（QueryBuilders.matchAllQuery（））;     //请求体内容为 match_all
searchRequest.source（searchSourceBuilder）;     //将请求体放入查询请求中
searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));    //设置超时时间，60s

gqsu 2018/3/30上午9:11:36 elasticsearch

ES之数据格式

# range类型

支持的范围类型：

integer_range --- 一系列带符号的32位整数，其范围在 -2^31 ~ 2^31-1

float_range --- 一系列单精度32位的浮点值。

long_range --- 一系列带符号的64位整数，其范围在 -2^63 ~ 2^63-1

double_range --- 一系列双精度64位的浮点值。

date_range --- 一系列日期值,无符号64位整数,单位毫秒。

ip_range --- 支持IPv4或 IPv6（或混合）地址的一系列ip值。

可接受的参数：

coerce --- 尝试将字符串转换为数字并截断整数的分数。接受true（默认）和false。

boost --- 映射字段级查询时间提升。接受一个浮点数，默认为 1.0。

include_in_all --- 字段值是否应该包含在 all 字段中？接受 true 或 false。默认为 false 。if index 设置为 false，或者父 object 字段设置 include_in_all 为 false。否则，默认为 true。

index --- 该字段是否应该搜索？接受 true（默认）和 false。

store --- 字段值是否应该与 source 字段分开存储和检索。接受 true 或 false （默认）。

gqsu 2018/3/29上午10:25:16 elasticsearch

ES之性能调优

# 实时性能

不同分片之间的数据同步是一个很大的花费，默认是1s同步，如果我们不要求实时性，可以执行如下:

PUT twitter 
{
    "settings" : {
        "index" : {
         "refresh_interval":"60s"
        }
    }
}

设置为 -1s ，即不刷新。

gqsu 2018/3/28上午11:00:32 elasticsearch

ES高级篇 --- 地理位置

# 地理坐标

地理坐标点不能被动态映射自动检测，需要显式声明对应字段类型为geo-point

PUT /attractions
{
  "mappings": {
    "restaurant": {
      "properties": {
        "name": {
          "type": "text"
        },
        "location": {
          "type": "geo_point"
        }
      }
    }
  }
}

经纬度信息的形式可以是字符串、数组、对象或者geohash,所以对应有四种插入方法：

PUT /attractions/restaurant/1
{
  "name": "Chipotle Mexican Grill",
  "location": "40.715, -74.011"               #字符串形式
}

PUT /attractions/restaurant/2
{
  "name": "Pala Pizza",
  "location": {                             #对象形式
    "lat":  40.722,
    "lon":  -73.989
  }
}

PUT /attractions/restaurant/3
{
  "name": "Mini Munchies Pizza",
  "location": [ -73.983, 40.719 ]             #数组形式
}

PUT /attractions/restaurant/4
{ 
  "name": "Geo-point as a geohash",
  "location": "drm3btev3e86"                    #geohash形式
}

gqsu 2018/3/27下午5:52:15 elasticsearch

ES高级篇 --- 聚合（下）

gqsu 2018/3/27下午1:46:21 elasticsearch

12 Next Jump To Go

天玑阁

Choose mode