跳到主要内容

应用告警

应用告警包含告警设置、告警记录两个功能模块,全面统计了容器应用等资源产生的告警,方便用户管理各类告警信息。

告警设置

告警设置包含资源告警、日志告警、事件告警、服务网格告警四个模块,资源告警主要是针对用户业务应用的CPU、内存、网络流量、磁盘I/O等基本指标进行告警;日志告警主要是针对用户自身业务,通过日志分析进行告警,事件告警主要关注Pod迁移,人工干预后的Pod启动、停止、重启等操作,通过配置对应的规则来监控此类事件告警;服务网格告警主要针对网格中的服务治理策略告警,可监控的告警指标有熔断、降级、限流、服务状态、RPS预警值等。

用户可以通过创建策略来设置告警,每条策略下有多条规则,可以满足用户各种复杂的使用情况,当策略处于告警状态时,将通过发送告警邮件来通知用户。通过告警,保证运维开发同学可以来实时感知线上应用运行状态,得知容器应用是否正常运行。

告警模块功能概览信息页面。

  • 一个资源对象可以创建多条策略
  • 每条策略可以设置多个阈值
  • 可以查看某个对象设置的所有策略
  • 可以查看每个策略的详细情况
  • 可以绑定告警联系人
  • 可以创建告警通知组
  • 可以选择是否发送邮件提醒
  • 可以查看告警记录
  • 可以根据不同条件查询告警记录
  • 可以查看团队空间该策略的最后修改人
  • 可以根据需要停用、启用策略
  • 收到告警后可以自定义时间忽略该告警
  • 策略的告警记录可以清除,支持间歇式的告警策略
  • 可以查看策略监控指标的近期实时数据
  • 可以查看规则累计告警次数,并支持清空
  • 告警恢复通知

资源告警

创建告警策略

(1) 登录平台后,导航[所有产品/安全和运维/应用监控/应用告警],缺省进入告警设置页面。

(2) 切换资源告警,单击<创建策略>按钮,给您想要关注的资源设定告警,支持为告警策略配置告警等级。

(3) 单击<下一步>,配置告警策略(指标+阈值)。

(4) 选择是否告警时通知用户,还是只产生记录。

(5) 配置告警通知方式,选择是否每天/每周定时排班,选择对应的排班时间,选择告警通知组,这里可以新建一个告警通知组,配置页面如下图所示。

test

(6) 通知组管理在页面顶部右上角点击用户名展开,进入账户中心,即可找到通知组(参考文档系统设设置部分)。

查看告警策略详情

(1) 登录平台后,导航[所有产品/安全和运维/应用监控/应用告警],点击告警设置。

(2) 在告警设置页面,告警策略的操作列,点击策略名称。

(3) 点击蓝色“告警策略名称”,进入详情页,可以查看具体的策略内容。

忽略告警策略

(1) 在告警设置页面,告警策略的操作列。

(2) 单击<忽略>按钮。

(3) 选择要忽略的时长。

(4) 系统将根据用户的忽略时长来倒计时,期间不会给用于发送告警邮件通知。

修改告警策略

(1) 在告警设置页面,告警策略的操作列,点击小三角下拉按钮。

(2) 点击“修改”告警策略。

(3) 同创建步骤一致,可以修改您想变动的策略部分。

启用/停用告警策略

(1) 在告警设置页面,告警策略的操作列,点击小三角下拉按钮。

(2) 点击“停用(启用)”按钮。

(3) 系统将提醒您,是否确认停用(启用)改告警策略。

告警恢复通知

发生资源告警后,如果监控指标恢复并持续一段时间,将会发送告警恢复通知。

查看告警记录

(1) 在告警设置页面,告警策略的操作列,点击小三角下拉按钮。

(2) 点击“查看告警记录”按钮。

(3) 系统将跳转至该条策略的告警记录。

清空告警记录

(1) 在告警记录页面,点击“清空所有记录”按钮。

(2) 在弹出框点击确定,即可清空所有告警记录。

日志告警

创建告警策略的步骤如下所示。

(1) 登录平台后,导航[所有产品/安全和运维/应用监控/应用告警],默认进入告警设置。

(2) tab页切换日志告警,点击创建策略按钮,给您想要关注的服务设定告警,支持为告警策略配置告警等级。

(3) 单击<下一步>,配置告警策略(正则+频次),可以设置某条日志信息出现多少次之后告警。

(4) 选择是否告警时通知用户,还是只产生记录。

(5) 配置告警通知方式,选择是否每天/每周定时排班,选择对应的排班时间,选择告警通知组,这里可以新建一个告警通知组。

(6) 选择告警通知组,这里可以新建一个告警通知组。

(7) 日志告警与资源告警的规则设置不同,策略启用/停用、修改、绑定通知组等用法一致。

事件告警

创建告警策略的步骤如下所示。

(1) 登录平台后,导航[所有产品/安全和运维/应用监控/应用告警],缺省进入告警设置。

(2) tab页切换事件告警, 点击<创建策略>按钮,进入事件告警策略配置页面,配置告警策略参数配置,配置参数说明如下所示。

信息
  • 策略名称:事件告警策略的名称。
  • 告警级别:事件告警级别,可设置的级别有通知、告警、危险。
  • 资源类型:选择收集事件告警的资源类型,可选的资源类型有:所有资源类型、容器组、部署、有状态副本集、守护进程集、任务。
  • 资源名称:资源类型对应的可选资源,用户可根据选择资源类型选择项目所有资源或者具体资源。

(3) 告警策略参数配置完成后,单击<下一步>,进入告警规则配置页面,配置事件类型及事件原因,具体配置说明如下所示。

信息
  • 事件类型:选择告警的事件类型,可选Normal、Warning。
  • 事件原因:选择告警的事件原因,可选所有原因、Killing、Created、Started、Pulling、Pulled、Failed、Scheduled。

(4) 告警规则配置完成后,单击<下一步>按钮,进入告警行为配置页面,用户可选择已有通知组或者新建相应的通知组。创建告警策略页面如下图所示。

test

告警记录

告警记录页面呈现了历史所有的告警策略产生的告警情况,这里可以通过筛选规则来定位查询历史的告警记录,来帮助运维开发同学来进行问题定位,应用运行的情况诊断。

资源告警:筛选条件[选择告警策略/选择状态/选择告警指标/选择告警对象/选择时间段]

具体的操作步骤如下所示。

(1) 登录平台后,导航[所有产品/安全和运维/应用监控/应用告警],切换至“告警记录”,进入资源告警页面。

(2) 选择或输入查询条件,点击<立即查询>即可查询对应的告警记录。

日志告警:[筛选条件/选择告警策略/选择告警对象/选择时间段]

具体的操作步骤如下所示。

(1) 登录平台后,导航[所有产品/安全和运维/应用监控/应用告警],切换至“告警记录”,进入日志告警页面。

(2) 选择或输入查询条件,点击<立即查询>即可查询对应的告警记录。

网格服务告警:筛选条件[选择告警策略/选择服务状态/选择告警策略/选择告警对象/选择时间段]

具体的操作步骤如下所示。

(1) 登录平台后,导航[所有产品/安全和运维/应用监控/应用告警],切换至“告警记录”,进入日志告警页面。

(2) 选择或输入查询条件,点击<立即查询>即可查询对应的告警记录。