了得網計算機/網絡_Elasticsearch 7.0實例精解

編輯推薦

如果你是軟件工程師、大數據基礎架構工程師或Elasticsearch開發人員，你會發現本書對你很有用。本書還將幫助在電子商務和快速消費品（FMCG）行業工作的數據專業人員，他們可以使用Elastic進行指標評估和搜索分析，以獲取更深刻的見解，從而做出更好的業務決策。
如果你已經擁有使用Elasticsearch的經驗，那麼這將有助於你充分利用本書。

內容簡介

本書詳細闡述了與Elasticsearch 7.0相關的基本解決方案，主要包括管理映射、搜索功能詳解、文本和數字查詢、關繫和地理查詢、聚合、Elasticsearch中的腳本、管理集群、備份和還原數據、用戶界面、使用采集模塊、Java集成、Scala集成、Python集成、插件開發、大數據集成等內容。此外，本書還提供了相應的示例、代碼，以幫助讀者進一步理解相關方案的實現過程。本書適合作為高等院校計算機及相關專業的教材和教學參考書，也可作為相關開發人員的自學教材和參考手冊。

第1章入門 1
1.1 技術要求 1
1.2 下載並安裝Elasticsearch 1
1.3 設置網絡 6
1.4 設置節點 9
1.5 設置Linux繫統 11
1.6 設置不同的節點類型 13
1.7 設置協調器節點 14
1.8 設置采集節點 15
1.9 在Elasticsearch中安裝插件 18
1.10 刪除插件 21
1.11 更改日志記錄設置 22
1.12 通過Docker設置節點 23
1.13 在Elasticsearch Cloud Enterprise上部署 26

第1章 入門 1

1.1 技術要求 1

1.2 下載並安裝Elasticsearch 1

1.3 設置網絡 6

1.4 設置節點 9

1.5 設置Linux繫統 11

1.6 設置不同的節點類型 13

1.7 設置協調器節點 14

1.8 設置采集節點 15

1.9 在Elasticsearch中安裝插件 18

1.10 刪除插件 21

1.11 更改日志記錄設置 22

1.12 通過Docker設置節點 23

1.13 在Elasticsearch Cloud Enterprise上部署 26

第2章 管理映射 35

2.1 使用顯式映射創建方法 36

2.2 映射基本類型 39

2.3 映射數組 43

2.4 映射對像 44

2.5 映射文檔 46

2.6 在文檔映射中使用動態模板 48

2.7 管理嵌套對像 50

2.8 使用連接字段管理子文檔 52

2.9 添加具有多個映射的字段 56

2.10 映射GeoPoint字段 58

2.11 映射GeoShape字段 60

2.12 映射IP字段 61

2.13 映射別名字段 62

2.14 映射Percolator字段 64

2.15 映射特征和特征向量字段 67

2.16 數據添加到映射 69

2.17 指定不同的分析器 70

2.18 映射完成字段 72

第3章 基本操作 75

3.1 創建索引 76

3.2 刪除索引 79

3.3 打開或關閉索引 81

3.4 將映射放入索引 83

3.5 獲取映射 85

3.6 重建索引 87

3.7 刷新索引 90

3.8 衝洗索引 92

3.9 強制合並索引 93

3.10 縮小索引 95

3.11 檢查索引是否存在 99

3.12 管理索引設置 100

3.13 使用索引別名 103

3.14 滾動索引 106

3.15 建立文檔索引 108

3.16 獲取文檔 112

3.17 刪除文檔 115

3.18 更新文檔 117

3.19 加快原子操作（批量操作） 121

3.20 加快GET操作（多個GET） 124

第4章 搜索功能詳解 127

4.1 技術要求 127

4.2 執行搜索 128

4.3 對結果進行排序 136

4.4 突出顯示結果 141

4.5 執行滾動查詢 145

4.6 使用search_after功能 149

4.7 返回結果中的內部匹配 152

4.8 建議正確的查詢 154

4.9 匹配結果計數 157

4.10 解釋查詢 159

4.11 查詢性能分析 161

4.12 通過查詢刪除 163

4.13 通過查詢更新 166

4.14 匹配所有文檔 169

4.15 使用布爾查詢 171

4.16 使用搜索模板 175

第5章 文本和數字查詢 179

5.1 使用詞條查詢 179

5.2 使用多詞條查詢 184

5.3 使用前綴查詢 187

5.4 使用通配符查詢 191

5.5 使用正則表達式查詢 194

5.6 使用跨度查詢 196

5.7 使用匹配查詢 204

5.8 使用查詢字符串查詢 207

5.9 使用簡單的查詢字符串查詢 211

5.10 使用範圍查詢 214

5.11 常用詞條查詢 217

5.12 使用ID查詢 220

5.13 使用函數評分查詢 222

5.14 使用存在查詢 227

第6章 關繫和地理查詢 231

6.1 使用has_child查詢 231

6.2 使用has_parent查詢 235

6.3 使用嵌套查詢 238

6.4 使用geo_bounding_box查詢 241

6.5 使用geo_polygon查詢 243

6.6 使用geo_distance查詢 245

第7章 聚合 249

7.1 執行聚合 250

7.2 執行統計聚合 255

7.3 執行詞條聚合 257

7.4 執行重要詞條聚合 261

7.5 執行範圍聚合 264

7.6 執行直方圖聚合 269

7.7 執行日期直方圖聚合 274

7.8 執行過濾器聚合 278

7.9 執行多過濾器聚合 281

7.10 執行全局聚合 284

7.11 執行地理距離聚合 286

7.12 執行子級聚合 289

7.13 執行嵌套聚合 292

7.14 執行命中聚合 295

7.15 執行矩陣統計聚合 298

7.16 執行地理邊界聚合 300

7.17 執行地理質心聚合 302

7.18 執行管道聚合 304

第8章 Elasticsearch中的腳本 309

8.1 關於Painless腳本 309

8.2 安裝其他腳本插件 314

8.3 管理腳本 317

8.4 使用腳本對數據進行排序 321

8.5 使用腳本計算返回字段 326

8.6 使用腳本過濾搜索 328

8.7 在聚合中使用腳本 331

8.8 使用腳本更新文檔 335

8.9 使用腳本重建索引 339

第9章 管理集群 343

9.1 使用API控制集群的運行狀況 344

9.2 使用API控制集群的狀態 347

9.3 使用API獲取集群節點信息 352

9.4 通過API獲取節點統計信息 358

9.5 使用任務管理API 365

9.6 使用熱點線程API 368

9.7 管理分片分配 370

9.8 使用段API監控段 373

9.9 清理緩存 375

第10章 備份和還原數據 377

10.1 管理存儲庫 377

10.2 執行快照 380

10.3 還原快照 385

10.4 設置NFS共享進行備份 387

10.5 從遠程集群重建索引 389

第11章 用戶界面 393

11.1 安裝和使用Cerebro 394

11.2 安裝和使用ElasticHQ 401

11.3 安裝Kibana 408

11.4 管理Kibana發現 413

11.5 使用Kibana可視化數據 417

11.6 使用Kibana開發工具 422

第12章 使用采集模塊 425

12.1 管道定義 425

12.2 插入采集管道 428

12.3 獲取采集管道 430

12.4 刪除采集管道 431

12.5 模擬采集管道 432

12.6 內置處理器 437

12.7 Grok處理器 441

12.8 使用采集附件插件 445

12.9 使用采集GeoIP插件 448

第13章 Java集成 451

13.1 創建標準的Java HTTP客戶端 452

13.2 創建HTTP Elasticsearch客戶端 456

13.3 創建高級REST客戶端 461

13.4 管理索引 463

13.5 管理映射 466

13.6 管理文檔 470

13.7 管理批量操作 475

13.8 建立查詢 479

13.9 執行標準搜索 482

13.10 使用聚合執行搜索 485

13.11 執行滾動搜索 490

13.12 集成DeepLearning4J 492

第14章 Scala集成 499

14.1 在Scala中創建客戶端 500

14.2 管理索引 503

14.3 管理映射 505

14.4 管理文檔 508

14.5 執行標準搜索 512

14.6 使用聚合執行搜索 514

14.7 集成DeepLearning.scala 517

第15章 Python集成 523

15.1 創建客戶端 524

15.2 管理索引 526

15.3 管理映射 529

15.4 管理文檔 532

15.5 執行標準搜索 536

15.6 使用聚合執行搜索 539

15.7 與NumPy和scikit-learn集成 542

第16章 插件開發 547

16.1 創建插件 547

16.2 創建分析器插件 552

16.3 創建REST插件 556

16.4 創建集群操作 561

16.5 創建采集插件 569

第17章 大數據集成 577

17.1 安裝Apache Spark 577

17.2 使用Apache Spark索引數據 580

17.3 使用Apache Spark索引包含meta的數據 582

17.4 使用Apache Spark讀取數據 586

17.5 使用Spark SQL讀取數據 587

17.6 使用Apache Pig索引數據 589

17.7 結合使用Elasticsearch和Alpakka 593

17.8 結合使用Elasticsearch和MongoDB 598

前言

Elasticsearch是基於Lucene的分布式搜索服務器，它允許用戶使用PB級的數據對非結構化內容進行索引和搜索。在本書中，讀者將學習到有關Elasticsearch 7.0的全面操作秘笈，並了解如何創建和運行復雜的查詢和分析。
本書是Elasticsearch Cookbook一書的第4版，包含有關使用Elasticsearch執行索引映射、聚合和腳本編寫的秘笈，以幫助讀者掌握用於執行日常任務和非常規任務（例如，部署Elasticsearch節點、集成其他工具到Elasticsearch，以及創建不同的可視化結果等）的眾多解決方案和快速技術。讀者將學習到如何安裝Kibana來監視集群，以及如何使用各種插件對Elasticsearch進行擴展。後，本書還介紹了如何將Java、Scala、Python和大數據應用程序（例如Apache Spark和Pig）與Elasticsearch集成在一起，從而創建由增強功能和自定義插件提供支持的高效數據應用程序。
通讀本書之後，你將獲得有關實現Elasticsearch架構的深入知識，並且能夠使用Elasticsearch有效地管理、搜索和存儲數據。
本書讀者

Elasticsearch是基於Lucene的分布式搜索服務器，它允許用戶使用PB級的數據對非結構化內容進行索引和搜索。在本書中，讀者將學習到有關Elasticsearch 7.0的全面操作秘笈，並了解如何創建和運行復雜的查詢和分析。
本書是Elasticsearch Cookbook一書的第4版，包含有關使用Elasticsearch執行索引映射、聚合和腳本編寫的秘笈，以幫助讀者掌握用於執行日常任務和非常規任務（例如，部署Elasticsearch節點、集成其他工具到Elasticsearch，以及創建不同的可視化結果等）的眾多解決方案和快速技術。讀者將學習到如何安裝Kibana來監視集群，以及如何使用各種插件對Elasticsearch進行擴展。後，本書還介紹了如何將Java、Scala、Python和大數據應用程序（例如Apache Spark和Pig）與Elasticsearch集成在一起，從而創建由增強功能和自定義插件提供支持的高效數據應用程序。
通讀本書之後，你將獲得有關實現Elasticsearch架構的深入知識，並且能夠使用Elasticsearch有效地管理、搜索和存儲數據。
本書讀者
如果你是軟件工程師、大數據基礎架構工程師或Elasticsearch開發人員，你會發現本書對你很有用。本書還將幫助在電子商務和快速消費品（FMCG）行業工作的數據專業人員，他們可以使用Elastic進行指標評估和搜索分析，以獲取更深刻的見解，從而做出更好的業務決策。
如果你已經擁有使用Elasticsearch的經驗，那麼這將有助於你充分利用本書。
內容介紹
第1章“入門”，討論了使用Elasticsearch的基本步驟，包括簡單安裝和雲端部署。本章還介紹了若干種設置案例。
第2章“管理映射”，詳細介紹了數據字段的正確定義，以提高索引和搜索的質量。
第3章“基本操作”，介紹了在Elasticsearch中提取數據並進行管理所需的常見操作。
第4章“搜索功能詳解”，討論了執行搜索、排序和相關API調用。本章討論的API是必不可少的。
第5章 “文本和數字查詢”，介紹了文本和數字字段的Search DSL部分，這是Elasticsearch
搜索功能的核心。
第6章“關繫和地理查詢”，討論了可在相關文檔（子文檔/父文檔和嵌套文檔）和地理位置字段上使用的查詢。
第7章“聚合”，詳細介紹了Elasticsearch的另一功能，即可以對搜索結果執行分析以改善用戶體驗，並深入研究Elasticsearch中包含的信息。
第8章“Elasticsearch中的腳本”，演示了如何使用腳本自定義Elasticsearch，以及如何使用不同的語言在Elasticsearch的不同部分（搜索、聚合和采集）使用腳本功能。本章的重點是Elastic團隊開發的新腳本語言Painless。
第9章“管理集群”，顯示了如何分析集群/節點的行為以了解常見的陷阱。
第10章“備份和還原數據”，討論了管理數據中重要的組成部分之一：備份。它顯示了如何管理分布式備份和快照的還原。
第11章“用戶界面”，介紹了Elasticsearch兩個常見的用戶界面：Cerebro（主要用於管理活動）和Kibana，另外，X-Pack是Elasticsearch的常見UI擴展。
第12章“使用采集模塊”，討論了通過采集管道在Elasticsearch中導入數據的采集功能。
第13章“Java集成”，介紹了如何使用REST和原生協議將Elasticsearch集成到Java應用程序中。
第14章“Scala集成”，介紹了如何使用elastic4s將Elasticsearch集成到Scala中。
elastic4s是一種基於原生Java API的高級類型安全且功能豐富的Scala庫。
第15章“Python集成”，介紹了官方Elasticsearch Python客戶端的用法。
第16章“插件開發”，討論了如何創建原生插件以擴展Elasticsearch功能。本章通過一些示例顯示了插件框架、設置過程以及它們的構建。
第17章“大數據集成”，介紹了如何將Elasticsearch集成到常見的大數據工具中，例如Apache Spark和Apache Pig。
充分利用本書
如果讀者對Java、Scala和Python有基本了解，那麼這對於充分利用本書將是有益的。

下載示例代碼文件
讀者可以從www.packtpub.com下載本書的示例代碼文件。具體步驟如下。
（1）登錄或注冊www.packtpub.com。
（2）選擇Support（支持）選項卡。
（3）單擊Code Downloads&Errata（代碼下載和勘誤表）。
（4）在Search（搜索）框中輸入圖書名稱Elasticsearch 7.0 Cookbook，然後按照屏幕上的說明進行操作。
下載文件後，請確保使用版本解壓縮或解壓縮文件夾：
? WinRAR/7-Zip（Windows繫統）。
? Zipeg/iZip/UnRarX（Mac繫統）。
? 7-Zip/PeaZip（Linux繫統）。
本書的代碼包也已經在GitHub上托管，網址如下，歡迎訪問：

https://github.com/PacktPublishing/Elasticsearch-7.0-Cookbook

如果代碼有更新，則也會在現有GitHub存儲庫上更新。
下載彩色圖像
我們還提供了一個PDF文件，其中包含本書中使用的屏幕截圖/圖表的彩色圖像。可以通過以下地址下載：

https://www.packtpub.com/sites/default/files/downloads/9781789956504_ColorImages.pdf
本書約定
本書中使用了許多文本約定。
（1）CodeInText：表示文本中的代碼字、數據庫表名、文件夾名、文件名、文件擴展名、路徑名、虛擬URL、用戶輸入和Twitter句柄等。以下段落就是一個示例：

有關Python Elasticsearch客戶端的官方說明文檔提供了有關可用於初始化客戶端的多個選項的更詳細說明。其網址如下：
https://elasticsearch-py.readthedocs.io/en/master/index.html

（2）有關代碼塊的設置如下所示：

PUT /myindex
{
"settings": {
"index": {
"number_of_shards": 2,
"number_of_replicas": 1
}
}
}

（3）當希望引起讀者對代碼塊的特定部分的注意時，相關的行或項目以粗體顯示：

searchSourceBuilder.query(query).size(30);
SearchRequest searchRequest = new SearchRequest()
.indices(index).source(searchSourceBuilder)
.scroll(TimeValue.timeValueMinutes(2));

（4）任何命令行輸入或輸出都采用如下所示的粗體代碼形式：

[2019-02-05T21:15:36,311][INFO ][o.e.p.PluginsService ]
[iMacParo.local] loaded plugin [rest-plugin]
[2019-02-05T21:15:38,736][INFO ][o.e.x.s.a.s.FileRolesStore]
[iMacParo.local]
parsed [0] roles from file [/Users/alberto/elasticsear

（5）粗體：術語或重要單詞使用粗體顯示，並且在括號內保留其英文原文。對於菜單或對話框中的界面詞彙，則以原文形式出現，並使用括號添加其中文翻譯，方便讀者對照查看。示例如下：

傳輸操作通常定義為映射（Map）和歸約（Reduce）作業。
在使用Kibana之前，建議加載一些數據集，這些數據集是在安裝中提供的。隻需單擊Add sample data（添加樣本數據）標題下的Load a data set and a Kibana dashboard（加載數據集和Kibana儀表盤）即可打開Add Data to Kibana（添加數據到Kibana）頁面。

（6）本書還使用了以下兩個圖標。
表示警告或重要的注意事項。
表示提示或小技巧。
關於作者
Alberto Paro是一名工程師、項目經理和軟件開發人員。他目前在意大利NTTDATA擔任大數據實踐負責人，負責大數據技術、本地雲和NoSQL解決方案。他喜歡研究與雲和大數據處理、NoSQL數據庫、自然語言處理（NLP）和神經網絡有關的新興解決方案和應用程序。2000年，他畢業於米蘭理工大學計算機科學工程繫。他曾經在多家公司工作，主要使用Scala/Java和Python來開發知識管理解決方案，並使用的大數據軟件開發高級數據挖掘產品。他還花費了大量的時間講授如何有效使用大數據解決方案、NoSQL數據存儲和相關技術。
“如果沒有很多人的支持，那麼我將很難完成這本書。首先，我要感謝我的妻子、孩子（Andrea和Giulia）以及全家人對我的支持。我還要對我好的朋友Mauro和Michele、我的同事以及所有幫助過我和我的家人的人們表示感謝。我要感謝Packt Publishing出版社參與本書開發和制作的每個人。感謝Athikho Sapuni Rishana對於本書給予的指導，感謝審稿人耐心地閱讀了初稿並提供了寶貴的反饋意見。他們的專業精神、謙遜有禮、良好的判斷力和對書籍的熱情令人深表感佩。”
關於審稿人
Craig Brown是一名獨立顧問，為Elasticsearch和其他大數據軟件提供服務。他擁有25年以上的Java核心開發經驗，以及十多年的Elasticsearch經驗。他在機器學習、Hadoop和Apache Spark方面也有良好的實踐經驗，並且是美國猶他州Big Mountain Data用戶組的聯合創始人。他是Elasticsearch和其他大數據主題的發言人。Craig創立了NosqlRevolution LLC，專注於Elasticsearch和大數據服務。他還創立了PicoCluster LLC，這是一個桌面數據中心，致力於對集群計算和大數據框架進行原型化。

商品搜索

商品分类

【醫學】

【各大出版社】