皮皮网
皮皮网

【问道源码资源】【ub源码查询】【blockmanager指标源码】prometheus源码分析

时间:2024-12-23 22:51:12 来源:凡泰源码

1.prometheus各个exporter安装
2.从指标到洞察力的源码普罗米修斯
3.多图详解万星Restful框架原理与实现
4.小公司也可以0成本构建统一的告警管理体系
5.通过Exporter收集一切指标
6.2020-08-25

prometheus源码分析

prometheus各个exporter安装

       在监控系统中,Prometheus是分析一个强大的开源监控解决方案,它依赖于各种exporter来收集服务的源码指标。以下是分析关于如何在您的系统上安装几个关键exporter的步骤:

       首先,对于基础的源码系统监控,node_exporter是分析问道源码资源一个必备工具。它能够收集关于系统资源使用情况的源码数据,如CPU、分析内存、源码磁盘和网络信息。分析安装过程通常是源码通过包管理器(如apt或yum)或者从GitHub克隆源代码后编译安装。

       对于数据库监控,分析Mysqld_exporter专门用于MySQL服务器,源码可以展示数据库的分析运行状态和性能指标。安装时,源码您需要从Prometheus的官方GitHub存储库下载适配器,然后按照文档指示配置和启动。

       对于内存数据库Redis,可以使用Redis_exporter来监控其内存使用、命令执行情况等。安装方法与Mysqld_exporter类似,只需针对Redis进行配置即可。

       对于Java应用的监控,jvm_exporter是一个很好的选择,它能从Java虚拟机(JVM)中提取性能数据。安装时,需要确保它与您的JVM版本兼容,并正确配置JMX连接。

       对于Web服务器监控,特别是使用Nginx的环境,可以考虑安装nginx-vts-exporter。这个模块允许Prometheus直接从Nginx的VTS模块获取日志和性能数据,方便对Nginx性能进行深入监控。

       安装完成后,别忘了在Prometheus配置文件中添加对应的ub源码查询exporter,以确保数据的采集。每个exporter的配置都需要根据您的具体环境进行调整,以确保数据的准确性和完整性。

从指标到洞察力的普罗米修斯

       从指标到洞察力的普罗米修斯详解

       普罗米修斯作为领先的开源监控解决方案,旨在从用户指标和告警需求出发,提供强大的支持。在云原生时代,它尤其适用于解决指标埋点和异常监控问题,如服务稳定性监控和故障预测分析(Unknow-Unknow)等。

       起源于SoundCloud的普罗米修斯,自年开源以来,由Google BorgMon监控系统演变而来,现已成为CNCF的重要项目。它具备强大的多维度指标监控告警能力,通过其架构,我们可以从发现服务、采集数据到分析告警,一目了然。

       架构方面,Prometheus涉及服务发现、数据采集、监控分析等环节,涉及术语如指标、收集器、监控黄金信号和指标类型(Counter、Gauge、Histogram、Summary)。通过一个简单的入门示例,我们可以了解如何安装、配置和使用Prometheus来监控自身指标。

       安装后,我们可以通过访问Dashboard,监控指标查询,blockmanager指标源码学习PromQL进行数据查询和可视化。完善的Prometheus帮助我们快速定位问题,支持指标驱动开发(MDD),在开发过程中就规划好监控埋点,以便于尽早发现和解决问题。

       然而,尽管功能强大,使用普罗米修斯时还需注意其适用范围和注意事项。想要深入了解,可以通过《中间件源码》公众号进一步交流。

多图详解万星Restful框架原理与实现

       rest框架概览

       我们先通过go-zero自带的命令行工具goctl来生成一个apiservice,其main函数如下:

funcmain(){ flag.Parse()varcconfig.Configconf.MustLoad(*configFile,&c)ctx:=svc.NewServiceContext(c)server:=rest.MustNewServer(c.RestConf)deferserver.Stop()handler.RegisterHandlers(server,ctx)fmt.Printf("Startingserverat%s:%d...\n",c.Host,c.Port)server.Start()}

       解析配置文件

       将配置文件传入,初始化serviceContext

       初始化restserver

       将context注入server中:

       注册路由

       将context中的启动的endpoint同时注入到router当中

       启动server

       接下来我们来一步步讲解其设计原理!Let'sGo!

web框架

       从日常开发经验来说,一个好的web框架大致需要满足以下特性:

       路由匹配/多路由支持

       支持自定义中间件

       框架和业务开发完全解耦,方便开发者快速开发

       参数校验/匹配

       监控/日志/指标等服务自查功能

       服务自保护(熔断/限流)

go-zerorest设计

       /api-grammar.html中的tag修饰符

Tips

       学习源码推荐fork出来边看边写注释和心得,可以加深理解,以后用到这块功能的时候也可以回头翻阅。

项目地址

       /zeromicro/go-zero

       欢迎使用go-zero并star支持我们!

微信交流群

       关注『微服务实践』公众号并点击交流群获取社区群二维码。

小公司也可以0成本构建统一的告警管理体系

       小公司如何0成本构建统一的告警管理体系?

       在探讨这一问题时,我们首先回顾了某国企互联网公司在监控告警体系上的建设实践。然而,使用Prometheus与AlertManager虽能方便监控相关组件,但仅能借助Dingtalk进行消息报警,无法实现短信、电话等告警升级功能。

       由此,小公司构建统一告警管理体系的关键在于解决这一痛点。解决方案是通过二次开发DingTalk告警组件,集成钉钉、短信、电话,并开放统一的黄金起爆源码API。这使得告警信息能够直接调用,增强告警系统的灵活性。

       接下来,我们详细探讨了使用Go语言编写的Prometheus-webhook-dingtalk组件。此组件能够对接Alertmanager,将告警信息发送至钉钉群,但缺乏短信、电话功能。因此,我们通过修改源代码,新增了短信、电话接口,并在web/dingtalk目录下创建了sms.go、call.go文件。在sms.go中调用短信接口时,需要添加自己的短信appKey、appSecret、templateID。同时,对call.go中的代码进行调整,替换阿里云的ALIBABA_CLOUD_ACCESS_KEY_ID、ACCESS_KEY_SECRET。

       通过执行go run cmd/prometheus-webhook-dingtalk/main.go命令,我们成功启动了新增的短信、电话webhook,实现与Alertmanager的对接。为了进一步统一管理,我们还在sms.go中添加了smsap,以便更方便地调用短信功能。同样,call.go也进行了相应的优化,确保电话功能的调用更加流畅。

       总结而言,小公司通过二次开发现有告警组件,dev tileview 源码集成多种告警方式,实现了0成本构建统一的告警管理体系。这一策略不仅提高了告警系统的全面性,还增强了其响应速度和处理效率,为企业的日常运营提供了坚实的技术保障。

通过Exporter收集一切指标

       Exporter 是一个用于采集监控数据并按照 Prometheus 规范对外提供数据的组件。它从目标系统搜集数据,并将其转换为 Prometheus 可用的格式。Prometheus 通过调用 Exporter 提供的 metrics 数据接口来获取数据。使用 Exporter 的好处是,它提供了一个统一的方式将不同系统或服务的数据格式化并暴露出来,避免了每种服务都有各自接口的不通用性。Exporters 实际上起到了数据翻译的作用,将各种数据格式翻译成 Prometheus 可以理解的通用格式。

       Exporter 的主要功能包括从监控对象中周期性地获取数据,对数据进行加工,然后将数据规范化后通过端点暴露给 Prometheus。这通常涉及以下三个步骤:数据收集、数据处理和数据发布。

       在介绍 Primetheus client 时,它是一个基于 Go 语言的 Prometheus 客户端,用于响应 Prometheus 的请求,按照特定格式返回监控数据。这是一个 HTTP 服务器的实现,源代码可以在 GitHub 上找到,相关的文档可以通过 GoDoc 访问。下面是一个简化流程图来表示 Primetheus client 的工作流程。

       在监控中,所有数据以时间序列形式保存,每个指标都有一个指标名称和一组标签(label)来区分。这些数据以文本格式存储,每条数据占一行,其中 #HELP 和 #TYPE 分别代表指标的注释信息和样本类型注释信息。监控样本需要遵循特定的格式,包括指标名称、标签名称、值以及时间戳。

       对于不同的数据类型,Prometheus 提供了四种数据格式:指标(Metric)、计数器(Counter)、计数器向量(CounterVec)、和度量(Gauge)。这些类型可以帮助开发者构建自定义的 Exporter,并将监控数据以 Prometheus 可理解的格式提供。

       编写一个简单的 Exporter 实际上只需要定义一个 HTTP 服务器,响应 Prometheus 的请求并返回监控数据。在 Go 语言中,可以通过声明计数器、度量和计数器向量,并在服务器上注册它们来实现这一点。Prometheus 通过定期请求 Exporter 的端口来获取数据。

       为了创建高质量的 Exporter,开发者应遵循一些原则和方法,包括合理分配端口号、设计清晰的指标注释、以及在需要时自定义 Collector 来优化数据收集过程。此外,使用已有的开源 Exporter 代码作为参考可以加速开发进程。

       以 Redis Exporter 为例,它通过与 Redis 通信来获取性能指标并将其转换为 Prometheus 可以理解的格式。主要通过 Redis 的原生命令(如 INFO 命令)获取性能信息,并按照特定的格式生成 Prometheus 格式的监控指标。通过解析和注册这些指标,Redis Exporter 完成了数据收集和发布的过程。

       总的来说,Exporter 的设计和实现需要考虑数据规范、数据采集方式、以及如何构建高质量的客户端。通过遵循最佳实践和利用开源资源,开发人员可以轻松地创建自定义的 Exporter,从而为 Prometheus 提供所需的监控数据。

--

       Prometheus 实现邮件告警(Prometheus+Alertmanager+QQ邮箱或者网易邮箱,目前测试过这两种邮箱都可以发送告警邮件)

        Prometheus实现邮件告警原理如下:

        Prometheus官方有一个附带的中间件:alertmanager,通过设置rules规则和路由转发可以实现邮件告警,前提是你需要有一个可以发送邮件的邮件服务端(可以自建或者使用互联网公司提供的免费邮箱)

        告警原理图

       Prometheus完整架构图

        我之前得出的错误结论如下:

        推荐直接在虚拟机操作系统上直接安装Prometheus和Alertmanager,不推荐其中任何一方在容器中运行,因为测试过在容器中运行Prometheus和alertmanager,结果出现如下错误情况

        第一种情况是:我的node-exporter掉线跌机了(手动关机,模拟突然掉线跌机),Prometheus却提示节点依然在线?有时候却能够正常显示节点掉线跌机,生成告警发送邮件

        第二种情况是:我的node-exporter掉线跌机了(手动关机,模拟突然掉线跌机),Prometheus提示节点掉线,告警生成,但是没有发送邮件,我手动恢复node-exporter后,告警解除,邮件能正常发送邮件提示告警已经解除。。。。

        第三种情况是:我的node-exporter掉线跌机了(手动关机,模拟突然掉线跌机),Prometheus提示节点掉线,告警生成,正常成功发送邮件,我手动恢复node-exporter后,告警解除,邮件没有发送出来。。。。

        以上三种情况之前经常出现,当时第一步以为是自己设置的scrape_interval不合理导致的,结果调试几次,问题没有解决,第二步以为是自己的服务器时间没有做到精确同步,然后我去设置和阿里云的ntp服务器同步,结果问题依然没有解决,第三步,换个方向,把alertmanager迁移到虚拟机操作系统上安装运行,问题解决!

       åŒ—京时间是GMT+8小时,有些同志的时间可能是UTC的,但是如果是在要求不太十分精确的情况下,UTC时间是刚刚好等于GMT时间

        为了避免时区的混乱,prometheus所有的组件内部都强制使用Unix时间,对外展示使用GMT时间。

        要改时区有两个办法

        1 .修改源码,重新编译。

       2. 使用 docker 运行 Prometheus,挂载本地时区文件

        docker run --restart always -e TZ=Asia/Shanghai --hostname prometheus --name prometheus-server -d -p : -v /data/prometheus/server/data:/prometheus -v /data/prometheus/server/conf/prometheus.yml:/etc/prometheus/prometheus.yml -u root prom/prometheus:v2.5.0

        正文开始

        安装alertmanager

        容器安装方式:

        docker run -d --name alertmanager -p : -v /usr/local/Prometheus/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager:latest

        先在宿主机/usr/local/Prometheus下创建一个文件夹alertmanager,然后在文件夹里创建alertmanager.yml配置文件,待会才能映射到alertmanager容器里的/etc/alertmanager目录下

       global:全局配置

           resolve_timeout: 问题解决的超时时间

           smtp_from: 发送告警邮件的邮箱账号

           smtp_smarthost: é‚®ç®± SMTP 服务地址,这里是以QQ邮箱为例,也可以用网易邮箱,这个和我之前设置zabbix邮件告警时的配置一样

           smtp_auth_username: 如果没有设置邮箱别名,那就是账户名

           smtp_auth_password:  邮箱的授权码,不是 账户密码,你可以在QQ邮箱或者网易邮箱网页端设置,开启 POP3/SMTP æœåŠ¡æ—¶ä¼šæç¤ºï¼Œå’Œé…ç½®zabbix邮件告警的时候几乎一样

           smtp_require_tls: 是否使用 tls,根据环境不同,来选择开启和关闭。如果提示报错 email.loginAuth failed: Must issue a STARTTLS command first,那么就需要设置为 true。着重说明一下,如果开启了 tls,提示报错 starttls failed: x: certificate signed by unknown authority,需要在 email_configs 下配置 insecure_skip_verify: true 来跳过 tls 验证。

       templates: 告警模板目录,可以不编写模板,有默认模板

            Subject: '{ { template "email.default.subject" . }}'

            html: '{ { template "email.default.html" . }}'

       route:报警的分发设置

            group_by:分组

            group_wait: 分组等待时间

            group_interval: 5m 每组时间间隔

            repeat_interval: m 重复间隔

            receiver: 接收方式,请注意!这里的名字要对应下面receivers中的任何一个名字,不然会报错,这里其实就是选择方式,有邮箱,企业微信,wehook,victorops等等

       receivers:接受方式汇总,即告警方式汇总

        例子:

        receivers:

        - name:'default-receiver' 

        email_configs:

        - to:'whiiip@.com'    

          html: '{ { template "alert.html" . }}'    

          headers: { Subject: "[WARN] 报警邮件test"}

       inhibit_rules:   æŠ‘制规则

        当存在与另一组匹配的警报(源)时,抑制规则将禁用与一组匹配的警报(目标)。

        包括源匹配和目标匹配

        alertmanager官方是这样说的

        Inhibition

        Inhibition is a concept of suppressing notifications for certain alerts if certain other alerts are already firing.

        Example:  An alert is firing that informs that an entire cluster is not reachable. Alertmanager can be configured to mute all other alerts concerning this cluster if that particular alert is firing. This prevents notifications for hundreds or thousands of firing alerts that are unrelated to the actual issue.

        Inhibitions are configured through the Alertmanager's configuration file.

        当存在与另一组匹配器匹配的警报(源)时,禁止规则会使与一组匹配器匹配的警报(目标)静音。目标警报和源警报的equal列表中的标签名称都必须具有相同的标签值。

        在语义上,缺少标签和带有空值的标签是同一件事。因此,如果equal源警报和目标警报都缺少列出的所有标签名称,则将应用禁止规则。

        为了防止警报禁止自身,与规则的目标和源端 都 匹配的警报不能被警报(包括其本身)为真来禁止。但是,我们建议选择目标匹配器和源匹配器,以使警报永远不会同时匹配双方。这很容易进行推理,并且不会触发此特殊情况。

        接着是规则rules

       ä¸è§£é‡Šäº†ï¼Œè‡ªå·±ç ”究官方文档

       alertmanager的非容器安装方式是

         wget /prometheus/alertmanager/releases/download/v0..0/alertmanager-0..0.linux-amd.tar.gz

        tar xf alertmanager-0..0.linux-amd.tar.gz

       mv alertmanager-0..0.linux-amd /usr/local/alertmanager

       vim /usr/lib/systemd/system/alertmanager.service

       [Unit]

       Description=alertmanager

        Documentation=/prometheus/alertmanager

        After=network.target

        [Service]

        Type=simple

        User=root

        ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml

        Restart=on-failure

        [Install]

        WantedBy=multi-user.target

        Alertmanager 安装目录下默认有 alertmanager.yml 配置文件,可以创建新的配置文件,在启动时指定即可。

        其余方式和上面一样

        接着是Prometheus,我之前的博客里有写了容器安装和非容器安装的方法,自己去翻阅

        然后是在prometheus.yml里修改相关配置

        首先去掉alertmanager的注释,改成IP加你设置的端口号,默认是

       æŽ¥ç€åœ¨rule_files: 下面写下规则文件的绝对路径,可以是具体文件名,也可以是*,也可以分几级文件,*默认是全部匹配

       æŽ¥ç€æ˜¯è¢«ç›‘控项的设置,这里设置完成可以在Prometheus网页里的targets里看得到

        请注意,这里设置的参数名字要和rule规则中设置的参数名字一模一样,否则你的prometheus服务会无法启动,然后报错

        如果不在特定的job下设置scrape_interval(优先级高于全局),则默认采用gobal下的scrape_interval

       æœ€åŽæ¨¡æ‹ŸèŠ‚点掉线,手动关闭node-exporter或者Cadvisor

        docker stop node-exporter 或者容器ID

        docker stop cadvisor æˆ–者容器ID

        或者把up{ { job='prometheus'}} == 1 设置成1,反向设置,不用关掉服务,就可以看看告警成不成功

       è¯´æ˜Žä¸€ä¸‹ Prometheus Alert 告警状态有三种状态:Inactive、Pending、Firing。

        Inactive:非活动状态,表示正在监控,但是还未有任何警报触发。

        Pending:表示这个警报必须被触发。由于警报可以被分组、压抑/抑制或静默/静音,所以等待验证,一旦所有的验证都通过,则将转到 Firing 状态。

        Firing:将警报发送到 AlertManager,它将按照配置将警报的发送给所有接收者。一旦警报解除,则将状态转到 Inactive,如此循环。

       æ²¡æœ‰é…ç½®å‘Šè­¦æ¨¡æ¿æ—¶çš„默认告警格式是这样的

       èŠ‚点恢复后邮件告知是这样的

       å†™äº†æ¨¡æ¿åŽæ˜¯è¿™æ ·çš„

       è¿˜è¦é‡æ–°æ˜ å°„模板文件夹路径到alertmanager容器里的相对路径,然后重启alertmanager,当然,如果目录下没有模板文件,则不显示

       å‘Šè­¦æ¨¡æ¿

       åœ¨alertmanager.yml中修改相关设置

        重启alertmanager

        docker restart alertmanager

        最终效果不是很好

如何在prometheus产生告警时自动执行某个脚本文件

       在使用prometheus进行监控时,为了在产生告警时实现自动化操作,如执行特定脚本文件,可以结合webhook功能实现这一需求。webhook提供了一种将告警事件转换为可执行操作的机制,本文将详细介绍如何配置webhook,以及如何通过执行脚本文件自动处理告警信息。

       在prometheus和alertmanager的体系中,告警机制主要通过规则配置文件(rule.yaml)来定义告警条件。当监控到指标值异常时,alertmanager将向指定的webhook发送告警信息。通过配置webhook,我们可以在接收到告警信息的同时,触发自定义脚本执行,实现更精细化的告警处理。

       为了搭建webhook服务,可以访问其官方GitHub仓库(github.com/adnanh/webhook)获取相关文档。对于Ubuntu系列的环境,可以通过apt命令轻松安装webhook服务;其他操作系统环境下,需要通过编译源码的方式安装webhook,并确保服务在端口监听。

       搭建webhook服务后,通过编辑配置文件,配置webhook的访问路径和相关参数。在配置完成后,重启服务以确保配置生效。通过访问http://{ webhook_ip}:{ port}/hooks/{ webhook_id}(默认端口为)的URL,可以验证webhook是否正常工作。在接收到告警信息后,webhook将执行预先配置的脚本文件(如/root/test.sh),并记录执行结果,确保脚本执行的可靠性和可追踪性。

       为了扩展webhook的功能,可以修改其默认端口以适应不同环境需求。通过调整webhook服务的配置文件,添加端口参数,例如将端口更改为,确保服务重启后端口变更生效。

       为了实现特定告警内容的自动化处理,如将Ceph状态异常时的健康详细信息发送到企业微信机器人,可以整合prometheus、alertmanager和webhook。在配置prometheus告警规则和alertmanager告警接收时,确保两者能够无缝对接。通过编写自定义脚本(如/root/trigger.sh),在接收到告警信息时执行特定操作,例如执行命令获取详细信息并发送至企业微信机器人。

       在执行过程中,模拟业务故障(如停止Ceph的osd服务)可以验证告警机制的正确性和脚本执行的有效性。通过检查企业微信机器人收到的消息,确保告警内容准确无误,并且在故障恢复时也能收到相应的恢复告警。

       通过上述配置和实践,webhook不仅简化了告警处理流程,还提供了高度定制化的解决方案,使得在接收到告警时可以执行一系列自动化操作。这不仅提高了问题响应的效率,还增强了监控系统的灵活性和实用性。

Opentelemetry和Prometheus的remote-write-receiver的实验

       实验目标:探索并实践Opentelemetry和Prometheus的集成,利用Prometheus的远程写功能与Opentelemetry的collector相结合,实现指标的主动推送,并通过Prometheus进行可视化管理。

       实验环境:需要准备一个运行的Prometheus实例,以及一个Opentelemetry的collector。具体配置和部署步骤需参照实验环境部分。

       实验过程:首先,配置Prometheus以抓取本地指标,通过修改Prometheus配置文件并启动windows_exporter实现本地指标的生成与输出。接着,配置和启动Opentelemetry的collector,确保其支持与Prometheus的远程写功能。在这一阶段,需要根据源代码(例如:wuqingtao/opentelemetry_demo/otel-collector-config.yaml)进行相应的调整。最后,通过执行指标生成命令(源代码来自:wuqingtao/opentelemetry_demo/app),确保指标能够被正确生成并主动推送至Prometheus。

       可视化面板:在Prometheus中设置抓取目标,通常为运行的Prometheus实例。配置完成后,访问Prometheus控制面板,通过采集器面板查看并管理指标。同时,利用Prometheus的可视化功能,对主动写入的指标进行分析与监控。

       实验结果:借助Prometheus的远程写功能和Opentelemetry的collector,实现了指标的主动推送至Prometheus。这一集成使得实时监控和分析数据成为可能,进一步强化了监控系统的能力,提升了数据处理效率。

Prometheus TSDB源码解析,Index索引存储格式分析

       Prometheus TSDB的Index索引存储格式详解

       Prometheus在数据存储过程中,当Head中的时间范围达到一定阈值时,会将数据归档到Block中,以保持高效查询性能。这个过程涉及Compact操作,具体实现见tsdb/db.go的Compact方法。整个系统结构包括多个文件,如G2KPG4ZND4WA3GZYB和ULID标识的Block,其中包含时间范围内的样本数据,chunk和index文件组织了这些数据。

       Index文件是关键,它详细记录了Series的索引信息。首先,TOC(目录)部分包含文件中Symbol Table、Series、Label Indices等的索引位置,固定长度字节,便于快速定位。Symbol Table存储Series中的标签值对,按照升序排序,包含每个标签值的长度、索引以及CRC校验。

       Series部分描述了每个Series对Chunk的引用,包括系列长度、标签对数量、标签值索引引用、chunk位置信息以及元数据,采用差分编码节省空间。Label Indices记录每个标签名下的所有值,同样按照索引存储,便于快速查找。Postings则记录每个标签值对对应的所有系列引用。

       Label Offset Table用于记录标签值在Label Index中的位置,而Postings Offset Table则记录每个键值对对应的Postings索引。这些结构共同构成了Prometheus查询的核心索引,理解它们对于理解查询流程至关重要。

       本文深入剖析了Prometheus的源码和文档,揭示了Index文件的详细结构,接下来将深入讲解查询流程和Block中Chunk的格式。后续内容将更加详细地揭示Prometheus如何利用这些结构实现高效的数据检索。

更多内容请点击【百科】专栏