更新時(shí)間:2017年12月18日16時(shí)32分 來源:傳智播客 瀏覽次數(shù):
一、 ELK工作棧簡(jiǎn)介
1. 簡(jiǎn)介
ELK Stack 是 Elasticsearch、Logstash、Kibana 三個(gè)開源軟件的組合。在實(shí)時(shí)數(shù)據(jù)檢索和分析場(chǎng)合,三者通常是配合共用,而且又都先后歸于 Elastic.co 公司名下,故有此簡(jiǎn)稱。
ELK Stack 在最近兩年迅速崛起,成為機(jī)器數(shù)據(jù)分析,或者說實(shí)時(shí)日志處理領(lǐng)域,開源界的第一選擇。和傳統(tǒng)的日志處理方案相比,ELK Stack 具有如下幾個(gè)優(yōu)點(diǎn):
處理方式靈活。Elasticsearch 是實(shí)時(shí)全文索引,不需要像 storm 那樣預(yù)先編程才能使用;
配置簡(jiǎn)易上手。Elasticsearch 全部采用 JSON 接口,Logstash 是 Ruby DSL 設(shè)計(jì),都是目前業(yè)界最通用的配置語法設(shè)計(jì);
檢索性能高效。雖然每次查詢都是實(shí)時(shí)計(jì)算,但是優(yōu)秀的設(shè)計(jì)和實(shí)現(xiàn)基本可以達(dá)到全天數(shù)據(jù)查詢的秒級(jí)響應(yīng);
集群線性擴(kuò)展。不管是 Elasticsearch 集群還是 Logstash 集群都是可以線性擴(kuò)展的;
前端操作炫麗。Kibana 界面上,只需要點(diǎn)擊鼠標(biāo),就可以完成搜索、聚合功能,生成炫麗的儀表板。
當(dāng)然,ELK Stack 也并不是實(shí)時(shí)數(shù)據(jù)分析界的靈丹妙藥。在不恰當(dāng)?shù)膱?chǎng)景,反而會(huì)事倍功半。我自 2014 年初開 QQ 群交流 ELK Stack,發(fā)現(xiàn)網(wǎng)友們對(duì) ELK Stack 的原理概念,常有誤解誤用;對(duì)實(shí)現(xiàn)的效果,又多有不能理解或者過多期望而失望之處。更令我驚奇的是,網(wǎng)友們廣泛分布在傳統(tǒng)企業(yè)和互聯(lián)網(wǎng)公司、開發(fā)和運(yùn)維領(lǐng)域、Linux 和 Windows 平臺(tái),大家對(duì)非專精領(lǐng)域的知識(shí),一般都缺乏了解,這也成為使用 ELK Stack 時(shí)的一個(gè)障礙。
二、 Logstash數(shù)據(jù)采集工具安裝和使用
1. 官方網(wǎng)站
https://www.elastic.co/products/logstash#
2. 簡(jiǎn)介
Logstash是一款輕量級(jí)的日志搜集處理框架,可以方便的把分散的、多樣化的日志搜集起來,并進(jìn)行自定義的處理,然后傳輸?shù)街付ǖ奈恢?,比如某個(gè)服務(wù)器或者文件。
3. 安裝
下載后直接解壓,就可以了。
4. helloword使用
通過命令行,進(jìn)入到logstash/bin目錄,執(zhí)行下面的命令:
logstash -e ""
可以看到提示下面信息(這個(gè)命令稍后介紹),輸入hello world!
可以看到logstash尾我們自動(dòng)添加了幾個(gè)字段,時(shí)間戳@timestamp,版本@version,輸入的類型type,以及主機(jī)名host。
4.1. 簡(jiǎn)單的工作原理
Logstash使用管道方式進(jìn)行日志的搜集處理和輸出。有點(diǎn)類似*NIX系統(tǒng)的管道命令 xxx | ccc | ddd,xxx執(zhí)行完了會(huì)執(zhí)行ccc,然后執(zhí)行ddd。
在logstash中,包括了三個(gè)階段:
輸入input --> 處理filter(不是必須的) --> 輸出output
每個(gè)階段都由很多的插件配合工作,比如file、elasticsearch、redis等等。
每個(gè)階段也可以指定多種方式,比如輸出既可以輸出到elasticsearch中,也可以指定到stdout在控制臺(tái)打印。
由于這種插件式的組織方式,使得logstash變得易于擴(kuò)展和定制。
4.2. 命令行中常用的命令
-f:通過這個(gè)命令可以指定Logstash的配置文件,根據(jù)配置文件配置logstash
-e:后面跟著字符串,該字符串可以被當(dāng)做logstash的配置(如果是“” 則默認(rèn)使用stdin作為輸入,stdout作為輸出)
-l:日志輸出的地址(默認(rèn)就是stdout直接在控制臺(tái)中輸出)
-t:測(cè)試配置文件是否正確,然后退出。
4.3. 配置文件說明
前面介紹過logstash基本上由三部分組成,input、output以及用戶需要才添加的filter,因此標(biāo)準(zhǔn)的配置文件格式如下:
input {...}
filter {...}
output {...}
在每個(gè)部分中,也可以指定多個(gè)訪問方式,例如我想要指定兩個(gè)日志來源文件,則可以這樣寫:
input {
file { path =>"/var/log/messages" type =>"syslog"}
file { path =>"/var/log/apache/access.log" type =>"apache"}
}
類似的,如果在filter中添加了多種處理規(guī)則,則按照它的順序一一處理,但是有一些插件并不是線程安全的。
比如在filter中指定了兩個(gè)一樣的的插件,這兩個(gè)任務(wù)并不能保證準(zhǔn)確的按順序執(zhí)行,因此官方也推薦避免在filter中重復(fù)使用插件。
說完這些,簡(jiǎn)單的創(chuàng)建一個(gè)配置文件的小例子看看:
input {
file {
#指定監(jiān)聽的文件路徑,注意必須是絕對(duì)路徑
path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/test.log"
start_position => beginning
}
}
filter {
}
output {
stdout {}
}
日志大致如下:注意最后有一個(gè)空行。
1 hello,this is first line in test.log!
2 hello,my name is xingoo!
3 goodbye.this is last line in test.log!
4
執(zhí)行命令得到如下信息:
5. 最常用的input插件——file。
這個(gè)插件可以從指定的目錄或者文件讀取內(nèi)容,輸入到管道處理,也算是logstash的核心插件了,大多數(shù)的使用場(chǎng)景都會(huì)用到這個(gè)插件,因此這里詳細(xì)講述下各個(gè)參數(shù)的含義與使用。
5.1. 最小化的配置文件
在Logstash中可以在 input{} 里面添加file配置,默認(rèn)的最小化配置如下:
input {
file {
path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/*"
}
}
filter {
}
output {
stdout {}
}
當(dāng)然也可以監(jiān)聽多個(gè)目標(biāo)文件:
input {
file {
path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]
}
}
filter {
}
output {
stdout {}
}
5.2. 其他的配置
另外,處理path這個(gè)必須的項(xiàng)外,file還提供了很多其他的屬性:
input {
file {
#監(jiān)聽文件的路徑
path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]
#排除不想監(jiān)聽的文件
exclude => "1.log"
#添加自定義的字段
add_field => {"test"=>"test"}
#增加標(biāo)簽
tags => "tag1"
#設(shè)置新事件的標(biāo)志
delimiter => "\n"
#設(shè)置多長(zhǎng)時(shí)間掃描目錄,發(fā)現(xiàn)新文件
discover_interval => 15
#設(shè)置多長(zhǎng)時(shí)間檢測(cè)文件是否修改
stat_interval => 1
#監(jiān)聽文件的起始位置,默認(rèn)是end
start_position => beginning
#監(jiān)聽文件讀取信息記錄的位置
sincedb_path => "E:/software/logstash-1.5.4/logstash-1.5.4/test.txt"
#設(shè)置多長(zhǎng)時(shí)間會(huì)寫入讀取的位置信息
sincedb_write_interval => 15
}
}
filter {
}
output {
stdout {}
}
其中值得注意的是:
1 path
是必須的選項(xiàng),每一個(gè)file配置,都至少有一個(gè)path
2 exclude
是不想監(jiān)聽的文件,logstash會(huì)自動(dòng)忽略該文件的監(jiān)聽。配置的規(guī)則與path類似,支持字符串或者數(shù)組,但是要求必須是絕對(duì)路徑。
3 start_position
是監(jiān)聽的位置,默認(rèn)是end,即一個(gè)文件如果沒有記錄它的讀取信息,則從文件的末尾開始讀取,也就是說,僅僅讀取新添加的內(nèi)容。對(duì)于一些更新的日志類型的監(jiān)聽,通常直接使用end就可以了;相反,beginning就會(huì)從一個(gè)文件的頭開始讀取。但是如果記錄過文件的讀取信息,這個(gè)配置也就失去作用了。
4 sincedb_path
這個(gè)選項(xiàng)配置了默認(rèn)的讀取文件信息記錄在哪個(gè)文件中,默認(rèn)是按照文件的inode等信息自動(dòng)生成。其中記錄了inode、主設(shè)備號(hào)、次設(shè)備號(hào)以及讀取的位置。因此,如果一個(gè)文件僅僅是重命名,那么它的inode以及其他信息就不會(huì)改變,因此也不會(huì)重新讀取文件的任何信息。類似的,如果復(fù)制了一個(gè)文件,就相當(dāng)于創(chuàng)建了一個(gè)新的inode,如果監(jiān)聽的是一個(gè)目錄,就會(huì)讀取該文件的所有信息。
5 其他的關(guān)于掃描和檢測(cè)的時(shí)間,按照默認(rèn)的來就好了,如果頻繁創(chuàng)建新的文件,想要快速監(jiān)聽,那么可以考慮縮短檢測(cè)的時(shí)間。
6 add_field
就是增加一個(gè)字段,例如:
file {
add_field => {"test"=>"test"}
path => "D:/tools/logstash/path/to/groksample.log"
start_position => beginning
}
6. Kafka與Logstash的數(shù)據(jù)采集對(duì)接
基于Logstash跑通Kafka還是需要注意很多東西,最重要的就是理解Kafka的原理。
6.1. Logstash工作原理
由于Kafka采用解耦的設(shè)計(jì)思想,并非原始的發(fā)布訂閱,生產(chǎn)者負(fù)責(zé)產(chǎn)生消息,直接推送給消費(fèi)者。而是在中間加入持久化層——broker,生產(chǎn)者把數(shù)據(jù)存放在broker中,消費(fèi)者從broker中取數(shù)據(jù)。這樣就帶來了幾個(gè)好處:
1 生產(chǎn)者的負(fù)載與消費(fèi)者的負(fù)載解耦
2 消費(fèi)者按照自己的能力fetch數(shù)據(jù)
3 消費(fèi)者可以自定義消費(fèi)的數(shù)量
另外,由于broker采用了主題topic-->分區(qū)的思想,使得某個(gè)分區(qū)內(nèi)部的順序可以保證有序性,但是分區(qū)間的數(shù)據(jù)不保證有序性。這樣,消費(fèi)者可以以分區(qū)為單位,自定義讀取的位置——offset。
Kafka采用zookeeper作為管理,記錄了producer到broker的信息,以及consumer與broker中partition的對(duì)應(yīng)關(guān)系。因此,生產(chǎn)者可以直接把數(shù)據(jù)傳遞給broker,broker通過zookeeper進(jìn)行l(wèi)eader-->followers的選舉管理;消費(fèi)者通過zookeeper保存讀取的位置offset以及讀取的topic的partition分區(qū)信息。
由于上面的架構(gòu)設(shè)計(jì),使得生產(chǎn)者與broker相連;消費(fèi)者與zookeeper相連。有了這樣的對(duì)應(yīng)關(guān)系,就容易部署logstash-->kafka-->logstash的方案了。
接下來,按照下面的步驟就可以實(shí)現(xiàn)logstash與kafka的對(duì)接了。
6.2. 啟動(dòng)kafka
啟動(dòng)zookeeper:
$zookeeper/bin/zkServer.sh start
啟動(dòng)kafka:
$kafka/bin/kafka-server-start.sh $kafka/config/server.properties &
6.3. 創(chuàng)建主題
創(chuàng)建主題:
$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --create --topic hello --replication-factor 1 --partitions 1
查看主題:
$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --describe
6.4. 測(cè)試環(huán)境
執(zhí)行生產(chǎn)者腳本:
$kafka/bin/kafka-console-producer.sh --broker-list 10.0.67.101:9092 --topic hello
執(zhí)行消費(fèi)者腳本,查看是否寫入:
$kafka/bin/kafka-console-consumer.sh --zookeeper 127.0.0.1:2181 --from-beginning --topic hello
6.5. 向kafka中輸出數(shù)據(jù)
input{
stdin{}
}
output{
kafka{
topic_id => "hello"
bootstrap_servers => "192.168.0.4:9092,172.16.0.12:9092"
# kafka的地址
batch_size => 5
codec => plain {
format => "%{message}"
charset => "UTF-8"
}
}
stdout{
codec => rubydebug
}
}
6.6. 從kafka中讀取數(shù)據(jù)
logstash配置文件:
input{
kafka {
codec => "plain"
group_id => "logstash1"
auto_offset_reset => "smallest"
reset_beginning => true
topic_id => "hello"
zk_connect => "192.168.0.5:2181"
}
}
output{
stdout{
codec => rubydebug
}
}
7. Filter
7.1. 過濾插件grok組件
#日志
55.3.244.1 GET /index.html 15824 0.043
bin/logstash -e '
input { stdin {} }
filter {
grok {
match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
}
}
output { stdout {codec => rubydebug} }'
7.2. 分割插件split
filter {
mutate {
split => { "message" => " " }
add_field => {
"event_type" => "%{message[3]}"
"current_map" => "%{message[4]}"
"current_X" => "%{message[5]}"
"current_y" => "%{message[6]}"
"user" => "%{message[7]}"
"item" => "%{message[8]}"
"item_id" => "%{message[9]}"
"current_time" => "%{message[12]}"
}
remove_field => [ "message" ]
}
}
三、 ElasticSearch索引服務(wù)安裝和使用
1. 簡(jiǎn)介
ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器。它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級(jí)搜索引擎。設(shè)計(jì)用于云計(jì)算中,能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速,安裝使用方便。
我們建立一個(gè)網(wǎng)站或應(yīng)用程序,并要添加搜索功能,令我們受打擊的是:搜索工作是很難的。我們希望我們的搜索解決方案要快,我們希望有一個(gè)零配置和一個(gè)完全免費(fèi)的搜索模式,我們希望能夠簡(jiǎn)單地使用JSON通過HTTP的索引數(shù)據(jù),我們希望我們的搜索服務(wù)器始終可用,我們希望能夠一臺(tái)開始并擴(kuò)展到數(shù)百,我們要實(shí)時(shí)搜索,我們要簡(jiǎn)單的多租戶,我們希望建立一個(gè)云的解決方案。Elasticsearch旨在解決所有這些問題和更多的問題。
2. ES概念
cluster
代表一個(gè)集群,集群中有多個(gè)節(jié)點(diǎn),其中有一個(gè)為主節(jié)點(diǎn),這個(gè)主節(jié)點(diǎn)是可以通過選舉產(chǎn)生的,主從節(jié)點(diǎn)是對(duì)于集群內(nèi)部來說的。es的一個(gè)概念就是去中心化,字面上理解就是無中心節(jié)點(diǎn),這是對(duì)于集群外部來說的,因?yàn)閺耐獠縼砜磂s集群,在邏輯上是個(gè)整體,你與任何一個(gè)節(jié)點(diǎn)的通信和與整個(gè)es集群通信是等價(jià)的。
shards
代表索引分片,es可以把一個(gè)完整的索引分成多個(gè)分片,這樣的好處是可以把一個(gè)大的索引拆分成多個(gè),分布到不同的節(jié)點(diǎn)上。構(gòu)成分布式搜索。分片的數(shù)量只能在索引創(chuàng)建前指定,并且索引創(chuàng)建后不能更改。
replicas
代表索引副本,es可以設(shè)置多個(gè)索引的副本,副本的作用一是提高系統(tǒng)的容錯(cuò)性,當(dāng)某個(gè)節(jié)點(diǎn)某個(gè)分片損壞或丟失時(shí)可以從副本中恢復(fù)。二是提高es的查詢效率,es會(huì)自動(dòng)對(duì)搜索請(qǐng)求進(jìn)行負(fù)載均衡。
recovery
代表數(shù)據(jù)恢復(fù)或叫數(shù)據(jù)重新分布,es在有節(jié)點(diǎn)加入或退出時(shí)會(huì)根據(jù)機(jī)器的負(fù)載對(duì)索引分片進(jìn)行重新分配,掛掉的節(jié)點(diǎn)重新啟動(dòng)時(shí)也會(huì)進(jìn)行數(shù)據(jù)恢復(fù)。
river
代表es的一個(gè)數(shù)據(jù)源,也是其它存儲(chǔ)方式(如:數(shù)據(jù)庫)同步數(shù)據(jù)到es的一個(gè)方法。它是以插件方式存在的一個(gè)es服務(wù),通過讀取river中的數(shù)據(jù)并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。
gateway
代表es索引快照的存儲(chǔ)方式,es默認(rèn)是先把索引存放到內(nèi)存中,當(dāng)內(nèi)存滿了時(shí)再持久化到本地硬盤。gateway對(duì)索引快照進(jìn)行存儲(chǔ),當(dāng)這個(gè)es集群關(guān)閉再重新啟動(dòng)時(shí)就會(huì)從gateway中讀取索引備份數(shù)據(jù)。es支持多種類型的gateway,有本地文件系統(tǒng)(默認(rèn)),分布式文件系統(tǒng),Hadoop的HDFS和amazon的s3云存儲(chǔ)服務(wù)。
discovery.zen
代表es的自動(dòng)發(fā)現(xiàn)節(jié)點(diǎn)機(jī)制,es是一個(gè)基于p2p的系統(tǒng),它先通過廣播尋找存在的節(jié)點(diǎn),再通過多播協(xié)議來進(jìn)行節(jié)點(diǎn)之間的通信,同時(shí)也支持點(diǎn)對(duì)點(diǎn)的交互。
Transport
代表es內(nèi)部節(jié)點(diǎn)或集群與客戶端的交互方式,默認(rèn)內(nèi)部是使用tcp協(xié)議進(jìn)行交互,同時(shí)它支持http協(xié)議(json格式)、thrift、servlet、memcached、zeroMQ等的傳輸協(xié)議(通過插件方式集成)。
3. 安裝
1、 創(chuàng)建用戶
es啟動(dòng)時(shí)需要使用非root用戶,所以創(chuàng)建一個(gè)鈹銅用戶
2、 安裝jdk(jdk要求1.8.20或1.7.55以上)
3、 上傳es安裝包
4、 tar -zxvf elasticsearch-2.3.1.tar.gz -C /bigdata/
5、 修改配置
vi /bigdata/elasticsearch-2.3.1/config/elasticsearch.yml
#集群名稱,通過組播的方式通信,通過名稱判斷屬于哪個(gè)集群
cluster.name: bigdata
#節(jié)點(diǎn)名稱,要唯一
node.name: es-1
#數(shù)據(jù)存放位置
path.data: /data/es/data
#日志存放位置
path.logs: /data/es/logs
#es綁定的ip地址
network.host: 172.16.0.14
#初始化時(shí)可進(jìn)行選舉的節(jié)點(diǎn)
discovery.zen.ping.unicast.hosts: ["node-4.itcast.cn", "node-5.itcast.cn", "node-6.itcast.cn"]
6、 使用scp拷貝到其他節(jié)點(diǎn)
scp -r elasticsearch-2.3.1/ node-5.itcast.cn:$PWD
scp -r elasticsearch-2.3.1/ node-6.itcast.cn:$PWD
7、 在其他節(jié)點(diǎn)上修改es配置,需要修改的有node.name和network.host
8、 啟動(dòng)es(/bigdata/elasticsearch-2.3.1/bin/elasticsearch -h查看幫助文檔)
/bigdata/elasticsearch-2.3.1/bin/elasticsearch –d
9、 用瀏覽器訪問es所在機(jī)器的9200端口
http://172.16.0.14:9200/
{
"name" : "es-1",
"cluster_name" : "bigdata",
"version" : {
"number" : "2.3.1",
"build_hash" : "bd980929010aef404e7cb0843e61d0665269fc39",
"build_timestamp" : "2016-04-04T12:25:05Z",
"build_snapshot" : false,
"lucene_version" : "5.5.0"
},
"tagline" : "You Know, for Search"
}
kill `ps -ef | grep Elasticsearch | grep -v grep | awk '{print $2}'`
4. es安裝插件下載es插件
/bigdata/elasticsearch-2.3.1/bin/plugin install mobz/elasticsearch-head
#本地方式安裝head插件
./plugin install file:///home/bigdata/elasticsearch-head-master.zip
#訪問head管理頁面
http://172.16.0.14:9200/_plugin/head
5. es的RESTful接口操作
RESTful接口URL的格式:
http://localhost:9200/
其中index、type是必須提供的。
id是可選的,不提供es會(huì)自動(dòng)生成。
index、type將信息進(jìn)行分層,利于管理。
index可以理解為數(shù)據(jù)庫;type理解為數(shù)據(jù)表;id相當(dāng)于數(shù)據(jù)庫表中記錄的主鍵,是唯一的。
#向store索引中添加一些書籍
curl -XPUT 'http://172.16.0.14:9200/store/books/1' -d '{
"title": "Elasticsearch: The Definitive Guide",
"name" : {
"first" : "Zachary",
"last" : "Tong"
},
"publish_date":"2015-02-06",
"price":"49.99"
}'
#通過瀏覽器查詢
http://172.16.0.14:9200/store/books/1
#在linux中通過curl的方式查詢
curl -XGET 'http://172.16.0.14:9200/store/books/1'
#在添加一個(gè)書的信息
curl -XPUT 'http://172.16.0.14:9200/store/books/2' -d '{
"title": "Elasticsearch Blueprints",
"name" : {
"first" : "Vineeth",
"last" : "Mohan"
},
"publish_date":"2015-06-06",
"price":"35.99"
}'
# 通過ID獲得文檔信息
curl -XGET 'http://172.16.0.14:9200/bookstore/books/1'
#在瀏覽器中查看
http://172.16.0.14:9200/bookstore/books/1
# 通過_source獲取指定的字段
curl -XGET 'http://172.16.0.14:9200/store/books/1?_source=title'
curl -XGET 'http://172.16.0.14:9200/store/books/1?_source=title,price'
curl -XGET 'http://172.16.0.14:9200/store/books/1?_source'
#可以通過覆蓋的方式更新
curl -XPUT 'http://172.16.0.14:9200/store/books/1' -d '{
"title": "Elasticsearch: The Definitive Guide",
"name" : {
"first" : "Zachary",
"last" : "Tong"
},
"publish_date":"2016-02-06",
"price":"99.99"
}'
# 或者通過 _update API的方式單獨(dú)更新你想要更新的
curl -XPOST 'http://172.16.0.14:9200/store/books/1/_update' -d '{
"doc": {
"price" : 88.88
}
}'
curl -XGET 'http://172.16.0.14:9200/store/books/1'
#刪除一個(gè)文檔
curl -XDELETE 'http://172.16.0.14:9200/store/books/1'
# 最簡(jiǎn)單filter查詢
# SELECT * FROM books WHERE price = 35.99
# filtered 查詢價(jià)格是35.99的
curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{
"query" : {
"filtered" : {
"query" : {
"match_all" : {}
},
"filter" : {
"term" : {
"price" : 35.99
}
}
}
}
}'
#指定多個(gè)值
curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{
"query" : {
"filtered" : {
"filter" : {
"terms" : {
"price" : [35.99, 88.88]
}
}
}
}
}'
# SELECT * FROM books WHERE publish_date = "2015-02-06"
curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{
"query" : {
"filtered" : {
"filter" : {
"term" : {
"publish_date" : "2015-02-06"
}
}
}
}
}'
# bool過濾查詢,可以做組合過濾查詢
# SELECT * FROM books WHERE (price = 35.99 OR price = 99.99) AND (publish_date != "2016-02-06")
# 類似的,Elasticsearch也有 and, or, not這樣的組合條件的查詢方式
# 格式如下:
# {
# "bool" : {
# "must" : [],
# "should" : [],
# "must_not" : [],
# }
# }
#
# must: 條件必須滿足,相當(dāng)于 and
# should: 條件可以滿足也可以不滿足,相當(dāng)于 or
# must_not: 條件不需要滿足,相當(dāng)于 not
curl -XGET 'http://172.16.0.14:9200/bookstore/books/_search' -d '{
"query" : {
"filtered" : {
"filter" : {
"bool" : {
"should" : [
{ "term" : {"price" : 35.99}},
{ "term" : {"price" : 99.99}}
],
"must_not" : {
"term" : {"publish_date" : "2016-02-06"}
}
}
}
}
}
}'
# 嵌套查詢
# SELECT * FROM books WHERE price = 35.99 OR ( publish_date = "2016-02-06" AND price = 99.99 )
curl -XGET 'http://172.16.0.14:9200/bookstore/books/_search' -d '{
"query" : {
"filtered" : {
"filter" : {
"bool" : {
"should" : [
{ "term" : {"price" : 35.99}},
{ "bool" : {
"must" : [
{"term" : {"publish_date" : "2016-02-06"}},
{"term" : {"price" : 99.99}}
]
}}
]
}
}
}
}
}'
# range范圍過濾
# SELECT * FROM books WHERE price >= 20 AND price < 100
# gt : > 大于
# lt : < 小于
# gte : >= 大于等于
# lte : <= 小于等于
curl -XGET 'http://172.16.0.14:9200/store/books/_search' -d '{
"query" : {
"filtered" : {
"filter" : {
"range" : {
"price" : {
"gt" : 20.0,
"lt" : 100
}
}
}
}
}
}'
# 另外一種 and, or, not查詢
# 沒有bool, 直接使用and , or , not
# 注意: 不帶bool的這種查詢不能利用緩存
# 查詢價(jià)格既是35.99,publish_date又為"2015-02-06"的結(jié)果
curl -XGET 'http://172.16.0.14:9200/bookstore/books/_search' -d '{
"query": {
"filtered": {
"filter": {
"and": [
{
"term": {
"price":59.99
}
},
{
"term": {
"publish_date":"2015-02-06"
}
}
]
},
"query": {
"match_all": {}
}
}
}
}'
6. Logstash讀取file寫入es
input {
file {
path => "/var/nginx_logs/*.log"
codec => "json"
discover_interval => 5
start_position => "beginning"
}
}
output {
elasticsearch {
index => "flow-%{+YYYY.MM.dd}"
hosts => ["172.16.0.14:9200", "172.16.0.15:9200", "172.16.0.16:9200"]
}
}
7. Logstash+kafka+es
input {
kafka {
type => "accesslogs"
codec => "plain"
auto_offset_reset => "smallest"
group_id => "elas1"
topic_id => "accesslogs"
zk_connect => "172.16.0.11:2181,172.16.0.12:2181,172.16.0.13:2181"
}
kafka {
type => "gamelogs"
auto_offset_reset => "smallest"
codec => "plain"
group_id => "elas2"
topic_id => "gamelogs"
zk_connect => "172.16.0.11:2181,172.16.0.12:2181,172.16.0.13:2181"
}
}
filter {
if [type] == "accesslogs" {
json {
source => "message"
remove_field => [ "message" ]
target => "access"
}
}
if [type] == "gamelogs" {
mutate {
split => { "message" => " " }
add_field => {
"event_type" => "%{message[3]}"
"current_map" => "%{message[4]}"
"current_X" => "%{message[5]}"
"current_y" => "%{message[6]}"
"user" => "%{message[7]}"
"item" => "%{message[8]}"
"item_id" => "%{message[9]}"
"current_time" => "%{message[12]}"
}
remove_field => [ "message" ]
}
}
}
output {
if [type] == "accesslogs" {
elasticsearch {
index => "accesslogs"
codec => "json"
hosts => ["172.16.0.14:9200", "172.16.0.15:9200", "172.16.0.16:9200"]
}
}
if [type] == "gamelogs" {
elasticsearch {
index => "gamelogs"
codec => plain {
charset => "UTF-16BE"
}
hosts => ["172.16.0.14:9200", "172.16.0.15:9200", "172.16.0.16:9200"]
}
}
}
四、 Kibana報(bào)表工具的安裝和使用
1. 簡(jiǎn)介
Logstash 早期曾經(jīng)自帶了一個(gè)特別簡(jiǎn)單的 logstash-web 用來查看 ES 中的數(shù)據(jù)。其功能太過簡(jiǎn)單,于是 Rashid Khan 用 PHP 寫了一個(gè)更好用的 web,取名叫 Kibana。這個(gè) PHP 版本的 Kibana 發(fā)布時(shí)間是 2011 年 12 月 11 日。
Kibana 迅速流行起來,不久的 2012 年 8 月 19 日,Rashid Khan 用 Ruby 重寫了 Kibana,也被叫做 Kibana2。因?yàn)?Logstash 也是用 Ruby 寫的,這樣 Kibana 就可以替代原先那個(gè)簡(jiǎn)陋的 logstash-web 頁面了。
目前我們看到的 angularjs 版本 kibana 其實(shí)原名叫 elasticsearch-dashboard,但跟 Kibana2 作者是同一個(gè)人,換句話說,kibana 比 logstash 還早就進(jìn)了 elasticsearch 名下。這個(gè)項(xiàng)目改名 Kibana 是在 2014 年 2 月,也被叫做 Kibana3。全新的設(shè)計(jì)一下子風(fēng)靡 DevOps 界。隨后其他社區(qū)紛紛借鑒,Graphite 目前最流行的 Grafana 界面就是由此而來,至今代碼中還留存有十余處 kbn 字樣。
2014 年 4 月,Kibana3 停止開發(fā),ES 公司集中人力開始 Kibana4 的重構(gòu),在 2015 年初發(fā)布了使用 JRuby 做后端的 beta 版后,于 3 月正式推出使用 node.js 做后端的正式版。由于設(shè)計(jì)思路上的差別,一些 K3 適宜的場(chǎng)景并不在 K4 考慮范圍內(nèi),所以,至今 K3 和 K4 并存使用。
2. 安裝
解壓后,修改kibanna.yml,添加elasticsearch.url: "http://172.16.0.14:9200"信息,然后啟動(dòng)。
3. 導(dǎo)入數(shù)據(jù)
我們將使用莎士比亞全集作為我們的示例數(shù)據(jù)。要更好的使用 Kibana,你需要為自己的新索引應(yīng)用一個(gè)映射集(mapping)。我們用下面這個(gè)映射集創(chuàng)建"莎士比亞全集"索引。實(shí)際數(shù)據(jù)的字段比這要多,但是我們只需要指定下面這些字段的映射就可以了。注意到我們?cè)O(shè)置了對(duì) speaker 和 play_name 不分析。原因會(huì)在稍后講明。
在終端運(yùn)行下面命令:
curl -XPUT http://localhost:9200/shakespeare -d '
{
"mappings" : {
"_default_" : {
"properties" : {
"speaker" : {"type": "string", "index" : "not_analyzed" },
"play_name" : {"type": "string", "index" : "not_analyzed" },
"line_id" : { "type" : "integer" },
"speech_number" : { "type" : "integer" }
}
}
}
}
';
我們這就創(chuàng)建好了索引?,F(xiàn)在需要做的時(shí)導(dǎo)入數(shù)據(jù)。莎士比亞全集的內(nèi)容我們已經(jīng)整理成了 elasticsearch 批量 導(dǎo)入所需要的格式,你可以通過shakeseare.json下載。
用如下命令導(dǎo)入數(shù)據(jù)到你本地的 elasticsearch 進(jìn)程中。
curl -XPUT localhost:9200/_bulk --data-binary @shakespeare.json
4. 訪問 Kibana 界面
打開瀏覽器,訪問已經(jīng)發(fā)布了 Kibana 的本地服務(wù)器。
如果你解壓路徑無誤(譯者注:使用 github 源碼的讀者記住發(fā)布目錄應(yīng)該是 kibana/src/ 里面),你已經(jīng)就可以看到上面這個(gè)可愛的歡迎頁面。點(diǎn)擊 Sample Dashboard 鏈接
好了,現(xiàn)在顯示的就是你的 sample dashboard!如果你是用新的 elasticsearch 進(jìn)程開始本教程的,你會(huì)看到一個(gè)百分比占比很重的餅圖。這里顯示的是你的索引中,文檔類型的情況。如你所見,99% 都是 lines,只有少量的 acts 和scenes。
再下面,你會(huì)看到一長(zhǎng)段 JSON 格式的莎士比亞詩文。
5. 第一次搜索
Kibana 允許使用者采用 Lucene Query String 語法搜索 Elasticsearch 中的數(shù)據(jù)。請(qǐng)求可以在頁面頂部的請(qǐng)求輸入框中書寫。
在請(qǐng)求框中輸入如下內(nèi)容。然后查看表格中的前幾行內(nèi)容。
friends, romans, countrymen
關(guān)于搜索請(qǐng)求的語法,請(qǐng)閱讀稍后 Query 和 Filtering 小節(jié)。
6. 配置另一個(gè)索引
目前 Kibana 指向的是 Elasticsearch 一個(gè)特殊的索引叫 _all。 _all 可以理解為全部索引的大集合。目前你只有一個(gè)索引, shakespeare,但未來你會(huì)有更多其他方面的索引,你肯定不希望 Kibana 在你只想搜《麥克白》里心愛的句子的時(shí)候還要搜索全部?jī)?nèi)容。
配置索引,點(diǎn)擊右上角的配置按鈕:
在這里,你可以設(shè)置你的索引為 shakespeare ,這樣 Kibana 就只會(huì)搜索 shakespeare 索引的內(nèi)容了。
這是因?yàn)?ES1.4 增強(qiáng)了權(quán)限管理。你需要在 ES 配置文件 elasticsearch.yml 中添加下列配置并重啟服務(wù)后才能正常訪問:
http.cors.enabled: true
http.cors.allow-origin: "*"
記住 kibana3 頁面也要刷新緩存才行。
此外,如果你可以很明確自己 kibana 以外沒有其他 http 訪問,可以把 kibana 的網(wǎng)址寫在http.cors.allow-origin 參數(shù)的值中。比如:
http.cors.allow-origin: "/https?:\/\/kbndomain/"
北京校區(qū)