TSF界面应用实例显示状态异常问题定位

具体现象:

在租户端页面点击应用管理查看时,应用状态显示异常停止

点击集群查看云主机列表时,主机状态显示异常不可用

排查步骤:

a.应用实例状态显示已停止

1. 在控制台上,查看部署任务的状态

应用管理 -> 应用 -> 变更记录

在变更记录里查询部署该应用实例的任务状态

如果部署任务成功,表示应用程序存在问题,启动之后又挂了。进入第2步

如果部署任务失败,表示agent可能存在问题。进入b

2. 在控制台上,查看应用程序的stdout日志

应用管理 -> 应用 -> 部署组 -> 实例日志

查看应用程序的stdout日志,根据日志分析应用程序挂了的原因

如果控制台没有stdout日志,需要登录到应用实例的机器上。进入第3步

3. 登录应用实例机器,查看应用程序的stdout日志

应用程序的stdout日志位于/var/log/tsf/stdout

b.应用实例状态显示异常

1. 在控制台上,查看CVM的状态

如果CVM已经被停止/销毁,应用实例状态也会显示异常

如果CVM的状态为运行中,可用状态为不可用,需要继续定位。进入第2步

如果CVM的状态为异常,需要继续定位。进入第3步

2. 登录应用实例机器

(1)检查$HOME/tsf-agent/agent/agent.json文件,确认tsf-master-vip值填写正确

(2)检查机器到TSF后台的网络

telnet <tsf-master-vip> 8200

如果机器到TSF后台的网络不通,请自行排查网络的问题(端口是否放开等)

如果机器到TSF后台的网络正常,需要继续定位。进入第(3)步

(3)查看tsf-agent的日志

tsf-agent的日志位于$HOME/tsf-agent/agent/log/dsgp_agent.log

联系TSF运维人员(提供dsgp_agent.log的日志)

3.确认tsf-agent进程正常运行

(1)登录应用实例机器,进入目录$HOME/tsf-agent/ops,检查tsf-agent的健康情况

sh health.sh    #正常情况应该是tsf-agent和tsf-monit都为health状态

(2)若状态为unhealth,需要重启tsf-agent

sh stop.sh && sh start.sh

c.应用实例状态长时间显示更新中

1. 等待状态从更新中变为运行中/已停止

更新中表示任务正在执行中,最长执行时间为10分钟

如果状态变为运行中,正常

如果状态变为已停止,需要继续定位。进入第2步

如果状态一直为更新中,联系tsf运维人员(提供应用实例状态、对应任务记录两张截图)

2. 在控制台上,查看部署任务的状态

应用管理 -> 应用 -> 变更记录

在变更记录里查询变更该应用实例的任务状态

如果任务成功,表示应用程序存在问题,启动之后又挂了。进入第3步

如果任务超时,需要继续定位。进入第5步

3. 在控制台上,查看应用程序的stdout日志

应用管理 -> 应用 -> 部署组 -> 实例日志

查看应用程序的stdout日志,根据日志分析应用程序挂了的原因

如果控制台没有stdout日志,需要登录到应用实例的机器上。进入第4步

4. 登录应用实例机器,查看应用程序的stdout日志

应用程序的stdout日志位于/var/log/tsf/stdout

5. 登录应用实例机器,查看tsf-agent的任务记录

任务记录位于/root/tsf-agent/agent/task

根据任务ID找到任务记录文件,联系tsf运维人员(提供应用实例状态、对应任务记录两张截图,任务记录文件)

results matching ""

    No results matching ""