图片 14

搭建大规模日志实时处理系统,Kibana搭建实时日志收集

ELKstack 是 Elasticsearch、Logstash、Kibana
三个开源软件的组合。在实时数据检索和分析场合,三者通常是配合共用,而且又都先后归于
Elastic.co 公司名下,故有此简称。

ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成
ELK官网地址:https://www.elastic.co/products
最新版本5.3.1

一、背景

ELK Stack 是软件集合 Elasticsearch、Logstash、Kibana
的简称,由这三个软件及其相关的组件可以打造大规模日志实时处理系统。

其中,Elasticsearch 是一个基于 Lucene
的、支持全文索引的分布式存储和索引引擎,主要负责将日志索引并存储起来,方便业务方检索查询。

Logstash
是一个日志收集、过滤、转发的中间件,主要负责将各条业务线的各类日志统一收集、过滤后,转发给
Elasticsearch 进行下一步处理。

Kibana 是一个可视化工具,主要负责查询 Elasticsearch
的数据并以可视化的方式展现给业务方,比如各类饼图、直方图、区域图等。

所谓“大规模”,指的是 ELK Stack
组成的系统以一种水平扩展的方式支持每天收集、过滤、索引和存储 TB
规模以上的各类日志。

通常,各类文本形式的日志都在处理范围,包括但不限于 Web 访问日志,如
Nginx/Apache Access Log 。

基于对日志的实时分析,可以随时掌握服务的运行状况、统计
PV/UV、发现异常流量、分析用户行为、查看热门站内搜索关键词等。

ELKstack 具有如下几个优点:

ELK包括

  • Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。
  • Logstash是一个完全开源的工具,他可以对你的日志进行收集、分析,并将其存储供以后使用(如,搜索)。
    Logstash在其过程中担任搬运工的角色,它为数据存储,报表查询和日志解析创建了一个功能强大的管道链。Logstash提供了多种多样的input,filters,codecs和output组件,让使用者轻松实现强大的功能。
  • kibana 也是一个开源和免费的工具,他Kibana可以为 Logstash 和
    ElasticSearch 提供的日志分析友好的 Web
    界面,可以帮助您汇总、分析和搜索重要数据日志。
    Kibana作为ELK的最后一个步骤,可以在ES的存取数据中通过一定的设置规则,对需要的数据进行展示,支持布尔查询,正则表达式和过滤查询等功能。Kibana本身不支持集群,若是期望达到集群的效果,可以使用Apache或者Nginx做负载均衡。同样,若是想做身份验证,Kibana本身也不支持,同样需要Apache或者Nginx来实现。

图片 1

image.png

在需要收集日志的所有服务上部署logstash,作为logstash agent(logstash
shipper)用于监控并过滤收集日志,将过滤后的内容发送到logstash
indexer,logstash
indexer将日志收集在一起交给全文搜索服务ElasticSearch,可以用ElasticSearch进行自定义搜索通过Kibana
来结合自定义搜索进行页面展示。

二、架构

ELK Stack 系统应用架构

上图是 ELK Stack 实际应用中典型的一种架构,其中 filebeat
部署在具体的业务机器上,通过定时监控的方式获取增量的日志,并转发到 Kafka
消息系统暂存。

Kafka 以高吞吐量的特征,作为一个消息系统的角色,接收从 filebeat
收集转发过来的日志,通常以集群的形式提供服务。

然后,Logstash 从 Kafka 中获取日志,并通过 Input-Filter-Output
三个阶段的处理,更改或过滤日志,最终输出我们感兴趣的数据。通常,根据
Kafka 集群上分区(Partition)的数量,1:1 确定 Logstash 实例的数量,组成
Consumer Group 进行日志消费。

最后,Elasticsearch 存储并索引 Logstash 转发过来的数据,并通过 Kibana
查询和可视化展示,达到实时分析日志的目的。

Elasticsearch/Kibana 还可以通过安装 x-pack 插件实现扩展功能,比如监控
Elasticsearch 集群状态、数据访问授权等。

  • 处理方式灵活。Elasticsearch 是实时全文索引,不需要像 storm
    那样预先编程才能使用;
  • 配置简易上手。Elasticsearch 全部采用 JSON 接口,Logstash 是 Ruby DSL
    设计,是目前最通用的配置语法设计;
  • 检索性能高效。虽然每次查询都是实时计算,但是优秀的设计和实现基本可以达到百亿级数据查询的秒级响应;
  • 集群线性扩展。不管是 Elasticsearch 集群还是 Logstash
    集群都是可以线性扩展的;
  • 前端操作炫丽。Kibana
    界面上,只需要点击鼠标,就可以完成搜索、聚合功能,生成炫丽的仪表板。

使用ELKstack的好处

1、开发人员不能登录线上服务器查看详细日志。使用ELKstack,他们查看日志非常方便和高效。
2、各个系统都有日志,日志数据分散难以查找。使用ELKstack集中展示日志,展现和搜索更加友好和方便。
3、日志数据量大,查询速度慢,或者数据不够实时。使用ELKstack,日志可由高性能服务器集中处理和展示。
4、一个调用会涉及多个系统,难以在这些系统的日志中快速定位数据。使用ELKstack,集中管理展示日志。

图片 2

image.png

Logstash进程先收集日志,把收集到的东西放转存到 Redis
里面存储,然后又一个 Logstash 进程从 Redis 里面读取数据,写入
ElasticSearch 中存储,最后 Kibana 从 ElasticSearch 里面获取日志。

三、实现

我们一步步安装部署 ELK Stack
系统的各个组件,然后以网站访问日志为例进行数据实时分析。

首先,到 ELK
官网 下载需要用到的
Filebeat/Logstash/Elasticsearch/Kibana
软件安装包。(推荐下载编译好的二进制可执行文件,直接解压执行就可以部署)


安装

ElasticSearch,LogStash需要java环境。java环境安装具体过程略。
在官网下载最新应用包:

图片 3

image.png

安装Logstash
安装logstash只需将它解压的对应目录即可,例如:/usr/local下:

tar –zxf logstash-1.5.2.tar.gz -C /usr/local/

图片 4

image.png

使用CTRL-C命令可以退出之前运行的Logstash。

图片 5

image.png

这时候,在/usr/local/logstash-5.3.2/logs目录会有日志文件

图片 6

image.png

查看日志内容

vi logstash-plain.log

图片 7

image.png

logstash文档地址:
http://udn.yyuap.com/doc/logstash-best-practice-cn/index.html

安装Elasticsearch
解压到对应的目录就完成Elasticsearch的安装

unzip elasticsearch-5.3.2.zip -d /usr/local/

logstash Hello World

  • 运行
    在终端中,像下面这样运行命令来启动 Logstash 进程:

bin/logstash -e 'input{stdin{}}output{stdout{codec=>rubydebug}}'

然后你会发现终端在等待你的输入。没问题,敲入 Hello
World,回车,然后看看会返回什么结果!

  • 结果

{
       "message" => "Hello World",
      "@version" => "1",
    "@timestamp" => "2014-08-07T10:30:59.937Z",
          "host" => "raochenlindeMacBook-Air.local",
}

图片 8

image.png

通过配置文件启动logstash

/usr/local/logstash/bin/logstash -f /usr/local/logstash/etc/central.conf

图片 9

image.png

启动Elasticsearch

/usr/local/elasticsearch-5.3.2/bin/elasticsearch

确认elasticsearch的9200端口已监听,说明elasticsearch已成功运行

netstat -na |grep :9200

为了操作方便,/usl/local目录软连接下

cd /usr/local/
ln -s elasticsearch-5.3.2 elasticsearch 
ln -s logstash-5.3.2 logstash
ln -s kibana-5.3.2-darwin-x86_64 kibana

以上操作完成后,在/usr/local 目录下执行 ls -trl 命令

图片 10

image.png

接下来我们在logstash安装目录下创建一个用于测试logstash使用elasticsearch作为logstash的后端的测试文件logstash-es-simple.conf,该文件中定义了stdout和elasticsearch作为output,这样的“多重输出”即保证输出结果显示到屏幕上,同时也输出到elastisearch中。
创建测试文件logstash-es-simple.conf

vi logstash-es-simple.conf

其内容:

input { stdin { } }
output {
   elasticsearch {host => "localhost" }
   stdout { codec=> rubydebug }
}

启动kibana

 /usr/local/kibana/bin/kibana

图片 11

image.png

访问链接http://localhost:5601

图片 12

image.png

1、下载并配置 Filebeat,开启日志增量监控

本文使用的版本是 5.2.2,解压 Filebeat ,修改其中 filebeat.yml
的内容为:(详细内容参见本文附录链接)

filebeat.yml 配置文件示例

上述配置表示,Filebeat 定期监控:

/path/to/my/nginx/access/*.log

目录下所有以 .log 结尾的文件,并且将增量日志转发到 Kafka 集群。

然后,后台启动 Filebeat 进程:

nohup ./filebeat -c ./filebeat.yml &

这时候,在浏览器上访问 Nginx 服务器并生成访问日志后,Filebeat
会及时的将日志转发到 Kafka 集群。转发的时候,Filebeat 会传输 JOSN
对象,而且原生的 Nginx 日志文本会作为 message 字段,示例如下:

filebeat 传输内容

[Elasticsearch]

2、下载并配置 Kafka 集群

到 Kafka 官网
下载安装包,本文使用的版本是 0.10.2.0,确认已安装 java 运行环境

解压后,编辑配置文件
conf/server.properties:(详细内容参见本文附录链接)

Kafka server configuration

启动 Zookeeper:

nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties &

启动 Kafka Server:(指定 JMX_PORT 端口,可以通过 Kafka-manager
获取统计信息)

JMX_PORT=9001

nohup ./bin/kafka-server-start.sh config/server.properties &

2.1、安装 Kafka-Manager

kafka-manager 是 Yahoo 公司开源的一个 kafka 集群管理工具。

可以在 Github
上下载安装:https://github.com/yahoo/kafka-manager

如果你通过 sbt
编译太慢的话,可以直接下载本文附件,这是一个编译好的安装包,解压后,修改配置文件
conf/application.conf 即可运行:

bin/kafka-manager -Dconfig.file=/path/to/application.conf
-Dhttp.port=8080

然后,通过浏览器访问:

Kafka-manager 界面

Elasticsearch是一个分布式实时搜索分析引擎,其搜索引擎基于Lucene。
ES官网再三强调自己不仅仅是一个Lucence,再Lucence之上还可以做到:

3、下载并配置 Logstash

本文使用的版本是 5.2.2,创建 logstash.conf
文件:(详细内容参见本文附录链接)

Logstash configuration

配置文件主要分为三大部分: Input / Filter /
Output,对应收集、过滤、转发三个阶段。显然,Input 阶段只需要指定 Kafka
集群相关信息即可,Output 阶段只需要指定 Elasticsearch
服务器相关的信息即可,比较复杂的是 Filter 过滤阶段。

可以看到,上述配置中,grok 插件使用正则表达式将 Nginx
日志的各个字段匹配出来,包括访问用户 ip
地址、请求时间和地址、服务器响应字节以及用户标示 User-Agent 等。

关于 Grok
的语法,可以参考:https://grokdebug.herokuapp.com/

然后,mutate、ruby、useragent、date、kv
等插件配合使用,过滤并获取到感兴趣的字段,最后输出如下示例的 JOSN 对象:

Logstash 转换后输出的 JSON 对象

这就是最终存储在 Elasticsearch 中的文档内容。

如果你想自定义开发插件,参见:https://juejin.im/post/58ca9d47570c3500589206d5

接下来,就可以启动 Logstash 进程了:

nohup ./bin/logstash -f ./logstash.conf &

  • A distributed real-time document store where every field is indexed
    and searchable
  • A distributed search engine with real-time analytics
  • Capable of scaling to hundreds of servers and petabytes of
    structured and unstructured data

4、配置并启动 Elasticsearch 服务

本文使用的是 5.2.2 版本,下载并解压后,修改 conf/elasticsearch.yml
内容如下:(详细内容参见本文附录链接)

Elasticsearch configuration

指定文档和日志的存储路径以及监听的地址和端口。

注意,应当保证有足够的磁盘空间来存储文档,否则 ES 将拒绝写入新数据。

安装 x-pack 插件:

bin/elasticsearch-plugin install x-pack

另外,不能使用 root 用户启动 Elasticsearch 进程,建议新建账户
elasticsearch。

环境变量 ES_JAVA_OPTS 被读取为 Elasticsearch
的最大内存空间,一般设置为你机器内存的一半即可,启动 ES 服务:

ES_JAVA_OPTS=”-Xms4g -Xmx4g”

nohup ./bin/elasticsearch &

如果启动 Elasticsearch 出现以下错误提示:

max virtual memory areas vm.max_map_count [65530] likely too low,
increase to at least [262144]

max file descriptors [4096] for elasticsearch process likely too
low, increase to at least [65536]

那么需要修改系统配置:

vi /etc/sysctl.conf 修改虚拟内存配置:

vm.max_map_count = 262144

对于 Ubuntu 系统需要执行:

sudo sysctl -w vm.max_map_count=262144

可以通过

sudo sysctl -a | grep max_map_count

查看修改结果是否生效

vi /etc/security/limits.conf 修改 文件描述符限制:

elasticsearch    soft    nofile    65536

elasticsearch    hard    nofile    65536

然后,退出终端,重新使用 elasticsearch 账户登录,启动 Elasticsearch
后,通过浏览器访问 9200 端口,查看 Elasticsearch 状态:

Elasticsearch server

4.1、安装 Cerebro

Cerebro 时一个第三方的 Elasticsearch
集群管理软件,可以方便地查看集群状态:

Cerebro 界面

下载地址:https://github.com/lmenezes/cerebro

启动进程后,可以在浏览器查看:

bin/cerebro -Dhttp.port=1234 -Dhttp.address=127.0.0.1

可以在管理后台修改模板,优化索引配置,例如:

关闭备份,节省磁盘空间:”number_of_replicas”: “0”

修改索引配置


5、配置并启动 Kibana 服务

本文使用的版本是5.2.2,下载 Kibana ,修改 conf/kibana.yml
,内容为:(详细内容参见本文附录链接)

Kibana configuration

安装 x-pack 插件:

bin/kibana-plugin install x-pack

启动 Kibana 进程:

nohup ./bin/kibana &

tips:最好手动退出一下终端

exit

否则,关闭终端后,Kibana 进程可能也停止运行了。

然后,就可以在浏览器访问 Kibana 了:

Kibana 界面

注意:

初次访问 Kibana 的时候,需要配置一个默认的 ES 索引,一般填写
.monitoring* 即可,这是因为在上述安装 x-pack 后,会自动开始监控
Elasticsearch 集群的状态,并将监控结果以 .monitoring* 命名索引文件

接下来,就可以使用 Kibana 的可视化功能分析日志了:

Kibana Visualize 功能

Kibana 可视化数据分析

5.1 分析各个接口的请求量

在 Kibana 管理后台,选择 Visualize >> AreaChart >>
logstash-* 索引:

选择 Area chart

选择 logstash-* 索引

接口请求量分布图

将 x 轴 (X-Axis) 的类型选择为 Date-Histogram,按照参数 request 拆分图形
(Split-Area)

【ES安装】
最新版本ES是2.0.0
官方下载链接
下载deb包安装
在此之前,因为ES依赖java,所以我们需要先安装1.7以上版本的jre。

四、总结

综上,我们配置并部署了 ELK Stack
的整套组件,实现了日志收集、过滤、索引和可视化的全部流程,基于这套系统我们就可以实时的分析业务。

【ES配置】

五、附录:

1、ELK 各个组件运行过程中会产生大量的日志,所以需要注意日志处理,要么
> /dev/null
全部忽略,要么存储在大磁盘空间,否则可能写满磁盘导致进程被 killed

2、上述安装过程使用的配置文件下载:https://github.com/Ceelog/elkstack

3、通过水平扩展 Kafka、Elasticsearch
集群,可以实现日均几百万到数十亿的日志实时处理

4、参考资料:

https://www.elastic.co/guide/index.html

https://www.elastic.co/guide/en/logstash/current/deploying-and-scaling.html

https://www.gitbook.com/book/chenryn/elk-stack-guide-cn/details

5、磁盘对 Elasticsearch 的性能影响很大,能上 SSD
是最好的,否则本地磁盘也行,如果是云存储的话会导致机器负载极高

6、部署 Kafka Broker
节点的机器不要跑其他会产生大量磁盘I/O的程序,这样才能保证 Kafka 磁盘 I/O
效率最高,从而提升吞吐量,当然,部署一个 Logstash 实例没有问题

7、为了提升 Logstash 的吞吐量,可以适当增加 CPU 核数,然后在启动
Logstash 的时候指定worker 数量和 CPU 核数一致

8、在 Logstash 处理日志的阶段,尽量把不必要的字段删除,这样既能提高 ES
的索引速率,又能节省磁盘空间

(还有疑问?联系作者微博/微信 @Ceelog,转载请注明出处 )

图片 13

关于ES的配置都在这个目录下,我们主要配置elasticsearch.yml

图片 14

配置文件注释非常的详细,主要是配置集群信息、节点信息、索引、网络等参数。这里图中红色箭头标识出的字段值得注意一下
cluster.name :
ES通过该字段来配置集群。当我们在一个节点上安装一个ES之后,它默认集群名字是elasticsearch,然后我们又去内网中另外一个节点安装ES,它默认名字也是elasticsearch,你会发现,这两个ES自动构建成一个集群。
node.name : 该字段是该节点名字。

ES http默认监听端口 9200, tcp默认监听端口是9300


【ES API】
这里介绍一些简单的API,目的是为了验证我们安装成功以及验证后面的例子。

发表评论

电子邮件地址不会被公开。 必填项已用*标注