網(wǎng)站首頁 編程語言 正文
需求說明
期初是我們的物理機上安裝了Hbase,由于物理機硬件配置還可以,1T內(nèi)存,64核。
只有4臺機器,我們裝完Hbase后,發(fā)現(xiàn)應(yīng)用請求比較多,導(dǎo)致RegionServer經(jīng)常掛掉。
但是機器本身資源使用率并不高,因此我們希望在一個節(jié)點上啟用多個RegionServer服務(wù)。
如果一個節(jié)點啟動2個RegionServe服務(wù),那么通過服務(wù)名稱方式就無法監(jiān)控每個服務(wù),所以改用了端口監(jiān)控的方式。
當服務(wù)出現(xiàn)異常掛掉后,可以自動報警,并自動拉起該服務(wù)。
1. 通過服務(wù)名監(jiān)控
monitor_regionserver.sh
#!/bin/sh
# 必須配置,引入環(huán)境變量;不然使用crond 定時執(zhí)行腳本無法啟動Java應(yīng)用
source /etc/profile
#當前時間
now=`date +"%Y-%m-%d %H:%M:%S"`
file_name="/opt/local/listen/monitor.log" #重啟腳本的日志,保證可寫入,保險一點執(zhí)行 chmod 777 data.log
pid=0
hostname=`hostname`
proc_num()
{
num=`ps -ef | grep 'HRegionServer' | grep -v grep | wc -l`
return $num
}
proc_id()
{
pid=`ps -ef | grep 'HRegionServer' | grep -v grep | awk '{print $2}'`
}
proc_num #執(zhí)行proc_num(),獲取進程數(shù)
number=$? #獲取上一函數(shù)返回值
if [ $number -eq 0 ];then
/opt/local/hbase/bin/hbase-daemon.sh start regionserver
sleep 5
proc_id
echo "${now} 應(yīng)用服務(wù):HRegionServer不存在,正在重啟服務(wù),進程號 -> ${pid}" >> $file_name #把重啟的進程號、時間 寫入日志
/opt/local/listen/weixin.sh "生產(chǎn)服務(wù)器:${hostname} HRegionServer已停止,正在重啟服務(wù),PID -> ${pid}"
else
proc_id
echo "${now} 應(yīng)用服務(wù):HRegionServer 正常,進程號-> ${pid}" >> $file_name
fi
2. 通過端口監(jiān)控
端口監(jiān)控有2個腳本,一個是監(jiān)控腳本listen_port.sh,一個用來執(zhí)行的腳本monitor_port.sh。
monitor_port.sh可以直接用命令代替。
腳本listen_port.sh,用來監(jiān)聽指定端口的RegionServer,運行時需要指定端口號。
#!/bin/sh
source /etc/profile
#指定腳本路徑
script_path=/opt/local/listen/
if [ $# != 2 ];then
echo '請輸入端口和Hbase的路徑'
exit 1;
fi
port=$1
hbase_home=$2
echo '正在監(jiān)聽端口號:' $port
#當前時間
now=`date +"%Y-%m-%d %H:%M:%S"`
file_name=${script_path}"monitor.log" #重啟腳本的日志,保證可寫入,保險一點執(zhí)行 chmod 777 data.log
pid=0
hostname=`hostname`
proc_num()
{
num=`netstat -nltp | grep ${port} |awk '{print $4}'|grep -v grep|wc -l`
return $num
}
proc_id()
{
pid=`netstat -nltp | grep ${port} |awk '{print $7}'|cut -d/ -f1`
}
proc_num #執(zhí)行proc_num(),獲取進程數(shù)
number=$? #獲取上一函數(shù)返回值
if [ $number -eq 0 ];then
$hbase_home/bin/hbase-daemon.sh start regionserver
sleep 5
proc_id
echo "${now} 應(yīng)用服務(wù):HRegionServer不存在,正在重啟服務(wù),端口:${port} 進程號:${pid}" >> $file_name #把重啟的進程號、時間 寫入日志
${script_path}/weixin.sh "測試服務(wù)器:${hostname}:${port} HRegionServer已停止,正在重啟服務(wù),PID -> ${pid}"
else
proc_id
echo "${now} HRegionServer 正常,端口:${port} 進程號:${pid}" >> $file_name
fi
腳本monitor_port.sh,用來執(zhí)行l(wèi)isten_port.sh腳本。
#!/bin/sh
source /etc/profile
/opt/local/listen/listen_port.sh 16020 /opt/local/hbase/
sleep 1
/opt/local/listen/listen_port.sh 16120 /opt/local/hbase2/
3. 企業(yè)微信消息通知腳本
微信報警腳本weixin.sh,將下面的xxxxxxxxx換成自己的key就好。
#!/bin/bash
content=${@:1}
content=${content//\ /}
content=${content//\"/}
date=$(date +%Y-%m-%d)
time=$(date "+%H:%M:%S")
content="
**Hbase**
>告警時間:$date.$time
>告警詳情:$content
"
webHookUrl="https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxxxxxxxxxxxxxxxxx"
content='{"msgtype": "markdown","markdown": {"content": "'$content'","mentioned_list":"@all"},}'
echo "content : $content"
curl --data-ascii "$content" $webHookUrl
echo "over!"
4.定時調(diào)度
使用crontab每間隔1分鐘執(zhí)行一次。
# 監(jiān)控服務(wù)名的
*/1 * * * * sh /opt/local/listen/monitor_regionserver.sh >/dev/null 2>&1
# 監(jiān)控端口的
*/1 * * * * sh /opt/local/listen/monitor_port.sh >/dev/null 2>&1
5. 報警信息
報警信息樣式可以自己在weixin.sh中定義,支持markdown寫法。
原文鏈接:https://www.cnblogs.com/30go/p/16873424.html
相關(guān)推薦
- 2022-04-28 Pytorch中torch.flatten()和torch.nn.Flatten()實例詳解_pyt
- 2023-02-28 ts定義之 內(nèi)置對象( BOM,DOM,Date,Promise等 )
- 2022-11-01 zxing二維碼位矩陣轉(zhuǎn)換成Bitmap位圖的實戰(zhàn)教程_Android
- 2022-11-06 SQL?Server?Reporting?Services?匿名登錄的問題及解決方案_MsSql
- 2022-03-13 C語言實現(xiàn)求解最小公倍數(shù)的算法示例_C 語言
- 2022-05-24 Python函數(shù)之zip函數(shù)的介紹與實際應(yīng)用_python
- 2022-09-21 三個Python自動化辦公好用到爆的模塊分享_python
- 2022-08-27 PyTorch中apex安裝方式和避免踩坑_python
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細win安裝深度學習環(huán)境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡單動態(tài)字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支