Shell 脚本演练:日志关键字监控+自动告警

该程序使用场景说明:主要用于Linux服务器监控程序日志,如出现关键字异常则触发相应的动作或告警操作,通知到邮件联系人。

一、安装邮件服务

1、解压

tar -jxf mailx-12.4.tar.bz2 -C /usr/src/ && cd /usr/src/mailx-12.4/

2、编译

make install UCBINSTALL=/usr/bin/install

异常报错解决方法

下载mailx补丁文件“mailx-12.4-openssl_1.0.0_build_fix-1.patch”,将补丁文件和mailx解压缩目录放置同一路径 执行打补丁命令:

patch -p0 

进入mailx-12.4重新执行编译命令:

make install UCBINSTALL=/usr/bin/install

检测mailx是否安装成功:mailx -V

3、配置

vi /etc/nail.rc,在文件的最后添加

set from=

set smtp=

set smtp-auth-user=

set smtp-auth-password=

set smtp-auth=login

如下图所示,修改配置完后保存

4、测试发送邮件

echo ‘邮件正文’|mailx -v -s “邮件标题” 邮箱地址 至此邮件功能测试正常,接下来是关键字监控脚本的编写工作,通过日志关键字脚本触发邮件告警脚本实现日志监控

二、关键字监控脚本开发

CheckLogs.sh 日志监控程序

SendMail.sh 发邮件脚本,该脚本可自定义

conf 配置文件目录,chklist为配置文件 初次执行CheckLogs.sh脚本会读取日志文件并记录当前读取的行数 后续运行脚本则读取更新日志,例如当前日志更新了9行数据,则脚本从最新的9行数据获取关键字

Shell 脚本实战:日志关键字监控+自动告警Shell 脚本实战:日志关键字监控+自动告警

测试插入关键字error 继续执行脚本可以看到已捕获关键字并触发告警 测试多关键字 再次执行可以看到已捕获最新更新的日志信息 测试频率控制 至此相关功能测试已完成。最后附上脚本相关代码如下:

#!/bin/bash
basedir=$(cd `dirname "$0"`;pwd)
logsdir=$basedir/logs
tmpsdir=$basedir/tmps
confdir=$basedir/conf
chkfile=$confdir/chklist
logfile=$logsdir/log.log_$(date +%F)

#创建各种目录
mkdir -p $logsdir $tmpsdir $confdir

#创建配置文件
if test ! -e "$chkfile";then
   echo "#日志文件,关键字(多关键字|隔开),重试次数,最大执行次数,启动命令,停止命令" >$chkfile
fi

#生成日志函数
do_writelog() {
   case $1 in
   i|I)
       shift
       echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|INFO|$@" >>$logfile
       ;;
   e|E)
       shift
       echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|ERROR|$@" >>$logfile
       ;;
   w|W)
       shift
       echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|WARNING|$@" >>$logfile
       ;;
   *)
       echo "$(date +%Y-%m-%d) $(date +%H:%M:%S)|DEBUG|$@" >>$logfile
       esac
}

#日志处理部分代码
cat $chkfile|egrep -v "^($|#)"|while read i;do
(
   app_name=$(echo "$i"|awk -F, '{print $1}')
   if test -z "$app_name";then
       do_writelog e "应用名称为空,退出执行"
       exit 0
   fi
   log_filename=$(echo "$i"|awk -F, '{print $2}')
   if test ! -e "$log_filename";then
       do_writelog e "日志文件($log_filename)不存在,退出执行"
       exit 0
   fi
   log_md5sum=$(echo -n "$log_filename"|md5sum|awk '{print $1}')
   log_gjz=$(echo "$i"|awk -F, '{print $3}')
   if test -z "$log_gjz";then
       do_writelog i "日志文件($log_filename),关键字为空,退出执行"
       exit 0
   fi
   log_retry=$(echo "$i"|awk -F, '{print $4}')
   expr $log_retry + 0 &>/dev/null
   if [ $? -ne 0 ];then
       log_retry=0
   fi
   log_max=$(echo "$i"|awk -F, '{print $5}')
   expr $log_max + 0 &>/dev/null
   if [ $? -ne 0 ];then
       log_max=3
   fi
   start_command=$(echo "$i"|awk -F, '{print $6}')
   stops_command=$(echo "$i"|awk -F, '{print $7}')
   open_sendmail=$(echo "$i"|awk -F, '{print $8}')
   mail_scripts=$(echo "$i"|awk -F, '{print $9}')
   mail_contacts=$(echo "$i"|awk -F, '{print $10}')
   if [ $open_sendmail -eq 1 ];then
       if test -z "$mail_scripts";then
           do_writelog i "应用($app_name),触发动作脚本为空,退出执行"
           exit 0
       fi
       if test -z "$mail_contacts";then
           do_writelog i "应用($app_name),联系人为空,退出执行"
           exit 0
       fi
   fi
   if test ! -e "$tmpsdir/$log_md5sum";then
       log_new_count=$(wc -l $log_filename|awk '{print $1}')
       echo "$log_new_count" >$tmpsdir/$log_md5sum
       do_writelog i "日志文件($log_filename),初始化读取日志行数:$log_new_count,退出执行"
   else
       log_old_count=$(cat $tmpsdir/$log_md5sum)
       expr $log_old_count + 0 &>/dev/null
       if [ $? -ne 0 ];then
           do_writelog e "日志文件($log_filename),读取历史行数失败,退出执行"
           exit 0
       fi
       log_new_count=$(wc -l $log_filename|awk '{print $1}')
       if [ $log_new_count -eq $log_old_count ];then
           do_writelog i "日志文件($log_filename),未更新,退出执行"
           exit 0
       elif [ $log_new_count -lt $log_old_count ];then
           do_writelog i "日志文件($log_filename),跨日更新日志行数:$log_new_count,退出执行"
           echo "$log_new_count" >$tmpsdir/$log_md5sum
       else
          log_upd_count=$(expr $log_new_count - $log_old_count)
          do_writelog i "日志文件($log_filename),历史行数:$log_old_count,最新行数:$log_new_count,更新行数:$log_upd_count"
          #读取更新的日志
          log_content=$(tail -n +`expr $log_old_count + 1` $log_filename|head -n +$log_upd_count)
          oldIFS=$IFS
          IFS="|"
          count=0
          for i in $log_gjz;do
              if [ $(echo "$log_content"|grep -c -w "$i") -ge 1 ];then
                  let count+=1  
              fi
              if [ $count -gt 0 ];then
                  break
              fi
          done
          IFS=$oldIFS
          if [ $count -gt 0 ];then
              echo "0" >>$tmpsdir/${log_md5sum}.retry
          else
             do_writelog i "日志文件($log_filename),未获取到关键字,退出执行"
             echo "$log_new_count" >$tmpsdir/$log_md5sum
             exit 0
          fi
          if [[ $(wc -l $tmpsdir/${log_md5sum}.retry|awk '{print $1}') -gt $log_retry ]];then
              echo "0" >>$tmpsdir/${log_md5sum}_$(date +%F)
              if [ $(wc -l $tmpsdir/${log_md5sum}_$(date +%F)|awk '{print $1}') -le $log_max ];then
                  $stops_command 1>>$logfile 2>&1
                  $start_command 1>>$logfile 2>&1
                  do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,停止命令:$stops_command,启动命令:$start_command,重启服务"
                  if [ $open_sendmail -eq 1 ];then
                      if test -n "$mail_scripts";then
                          $mail_scripts "应用[$app_name]故障" "日志文件($log_filename),日志内容:$log_content,找到关键字:$i" "$mail_contacts" 1>>$logfile 2>&1
                          if [ $? -ne 0 ];then
                              do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,触发告警失败"
                          fi
                          do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,触发告警通知联系人:[$mail_contacts]"
                      fi
                  else
                      do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,不触发告警"
                  fi
              else
                  do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,重启服务超出当天限制次数:$log_max,退出执行"
              fi
              rm -f $tmpsdir/${log_md5sum}.retry &>/dev/null
          else
              do_writelog i "日志文件($log_filename),日志内容:$log_content,找到关键字:$i,重试检测:$(wc -l $tmpsdir/${log_md5sum}.retry|awk '{print $1}')"
          fi
          echo "$log_new_count" >$tmpsdir/$log_md5sum
          do_writelog i "日志文件($log_filename),更新记次文件完成"
       fi
   fi
)&
done

原创文章,作者:晴川运维,如若转载,请注明出处:https://baike.qcidc.com/9095.html

(0)
晴川运维晴川运维
上一篇 2025年6月14日
下一篇 2025年6月14日

相关推荐

  • Linux中mysql定时备份脚本

    在生产环境上,为了避免数据的丢失,通常情况下都会定时的对数据库进行备份,本篇文章重点为大家讲解一下Linux中mysql定时备份脚本。 1. 创建备份脚本 备份脚本: #!/bin…

    Linux系统 2025年6月4日
  • Linux下查看文件内容具体方法

    Linux下查看文件内容有多种方法,可以使用:cat、tac、nl、more等命令,下面详细的讲解一下各个命令的具体使用方法。 cat 由第一行开始显示文件内容 语法: cat&n…

    Linux系统 2025年6月8日
  • Github 访问慢的若干解决方法

    我们经常要用到github,但是速度很慢,有时会有超时现象,十分地影响工作效率,可以考虑采取如下措施 1 使用 Github Mirror 下载 直接在 GitHub 仓库前面拼接…

    Linux系统 2025年6月12日
  • Linux终端中实现大小写字符转换

    Linux终端中提供了一些可以大小写之间转换文本的命令,通过这些命令可以提高我们的工作效率,本篇文章重点为大家讲解一下Linux终端中进行大小写字符转换具体方法。 环境 Cento…

    Linux系统 2025年6月11日
  • Shell test命令(Shell [])详解,附带所有选项及说明

    test 是 Shell 内置命令,用来检测某个条件是否成立。test 通常和 if 语句一起使用,并且大部分 if 语句都依赖 test。 test 命令有很多选项,可以进行数值…

    Linux系统 2025年6月8日
  • APF防火墙的安装和使用

    APF(Advanced Policy Firewall)是 Rf-x Networks 出品的Linux环境下的软件防火墙,被大部分Linux服务器管理员所采用,使用iptabl…

    Linux系统 2025年6月10日
  • Linux中搭建 Docker私有仓库

    私有镜像仓库是指部署在公司或组织内部,用于自身应用Docker镜像存储、分发的镜像仓库。在构建公司内部使用的自动化发布系统的过程中,从安全的角度出发,应用的打包镜像一般情况下只会被…

    Linux系统 4天前
  • Linux下安装并使用jod

    Jed是一个基于终端的编辑器,它的特点是有一个方便的下拉菜单,这让那些刚刚接触终端编辑器的用户,以及那些不喜欢记住每个功能的组合键的用户而言变得特别容易,下面为大家分享一下jod的…

    Linux系统 4天前
  • 使用GitHub搭建专属的服务器

    现在固定公网IP资源稀缺,虽然说IPv6已经开始使用,但是用的人并不多,大部分用的都是IPv4,想要搞一个自己网站,首先就是需要一个固定的公网IP,但是每年却需要缴纳不少的mone…

    Linux系统 2025年6月8日
  • 浅谈Base64编码原理

    Base64是一种基于64个可打印字符来表示二进制数据的表示方法。由于 2的6次方是64,所以每6个比特为一个单元,对应某个可打印字符。3个字节有24个比特,对应于4个Base64…

    Linux系统 4天前

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注