TSF界面应用实例显示状态异常问题定位
具体现象:
在租户端页面点击应用管理
查看时,应用状态显示异常
或停止
;
点击集群
查看云主机列表时,主机状态显示异常
或不可用
排查步骤:
a.应用实例状态显示已停止
1. 在控制台上,查看部署任务的状态
应用管理 -> 应用 -> 变更记录
在变更记录里查询部署该应用实例的任务状态
如果部署任务成功,表示应用程序存在问题,启动之后又挂了。进入第2步
如果部署任务失败,表示agent可能存在问题。进入b
2. 在控制台上,查看应用程序的stdout日志
应用管理 -> 应用 -> 部署组 -> 实例日志
查看应用程序的stdout日志,根据日志分析应用程序挂了的原因
如果控制台没有stdout日志,需要登录到应用实例的机器上。进入第3步
3. 登录应用实例机器,查看应用程序的stdout日志
应用程序的stdout日志位于/var/log/tsf/stdout
b.应用实例状态显示异常
1. 在控制台上,查看CVM的状态
如果CVM已经被停止/销毁,应用实例状态也会显示异常
如果CVM的状态为运行中
,可用状态为不可用
,需要继续定位。进入第2步
如果CVM的状态为异常
,需要继续定位。进入第3步
2. 登录应用实例机器
(1)检查$HOME/tsf-agent/agent/agent.json文件,确认tsf-master-vip
值填写正确
(2)检查机器到TSF后台的网络
telnet <tsf-master-vip> 8200
如果机器到TSF后台的网络不通,请自行排查网络的问题(端口是否放开等)
如果机器到TSF后台的网络正常,需要继续定位。进入第(3)步
(3)查看tsf-agent的日志
tsf-agent的日志位于$HOME/tsf-agent/agent/log/dsgp_agent.log
联系TSF运维人员(提供dsgp_agent.log的日志)
3.确认tsf-agent进程正常运行
(1)登录应用实例机器,进入目录$HOME/tsf-agent/ops,检查tsf-agent的健康情况
sh health.sh #正常情况应该是tsf-agent和tsf-monit都为health状态
(2)若状态为unhealth,需要重启tsf-agent
sh stop.sh && sh start.sh
c.应用实例状态长时间显示更新中
1. 等待状态从更新中变为运行中/已停止
更新中表示任务正在执行中,最长执行时间为10分钟
如果状态变为运行中,正常
如果状态变为已停止,需要继续定位。进入第2步
如果状态一直为更新中,联系tsf运维人员(提供应用实例状态、对应任务记录两张截图)
2. 在控制台上,查看部署任务的状态
应用管理 -> 应用 -> 变更记录
在变更记录里查询变更该应用实例的任务状态
如果任务成功,表示应用程序存在问题,启动之后又挂了。进入第3步
如果任务超时,需要继续定位。进入第5步
3. 在控制台上,查看应用程序的stdout日志
应用管理 -> 应用 -> 部署组 -> 实例日志
查看应用程序的stdout日志,根据日志分析应用程序挂了的原因
如果控制台没有stdout日志,需要登录到应用实例的机器上。进入第4步
4. 登录应用实例机器,查看应用程序的stdout日志
应用程序的stdout日志位于/var/log/tsf/stdout
5. 登录应用实例机器,查看tsf-agent的任务记录
任务记录位于/root/tsf-agent/agent/task
根据任务ID找到任务记录文件,联系tsf运维人员(提供应用实例状态、对应任务记录两张截图,任务记录文件)