1 测试计划执行说明

MeterSphere 测试计划开始执行时，指定资源池将从站点地址下载执行文件，然后将不同类型的测试用例调度到对应的环境执行中，其中接口用例在node-controller容器中执行，性能测试在临时创建的JMeter容器执行，UI用例则在对应的不同的浏览器容器中执行。整个执行过程，kafka 实时监听执行结果，并最终由data-streaming 将执行结果写入数据库，详细的执行过程，可参考下图：

如果测试计划执行过程中，某些用例因某些异常原因而未执行完成，那么测试计划就会因为未收到结束通知一直处于 running 状态，接口自动化测试异常是导致这个问题的主要原因，本文将介绍常见的原因以及对应的解决方法。

2 常见原因及分析

2.1 资源池原因

2.1.1 node-controller 状态异常

正常情况下，在资源池所在的服务器上执行 msctl status 命令可以看到 ms-node-controller 容器的状态是 healthy。如果其状态不是 healthy，则用例执行阻塞，导致测试计划状态一直处于 running 状态。这时在资源池节点使用 docker logs -f ms-node-controller 命令查看容器日志，根据日志报错分析原因和解决，先确保 node-controller 容器运行正常。

2.1.2 node-controller 内存不足

问题现象

测试计划串行执行可以正常执行结束，并行时部分用例长期处于 running 状态无法正常结束，而长时间等待后，测试计划报告中，接口用例状态是error或stopped，而用例报告详情中每个步骤都是success状态，测试计划报告状态为running。

原因分析

MeterSphere 接口测试支持并发执行，其允许的最大并发数在“系统设置”-“测试资源池”中进行设置，默认并发数为50，意思是在后台会生成 50 个线程池。如果没有用例执行，线程都是释放状态，如果有用例执行，会有对应数量的线程变为活跃状态，而活跃状态的线程占用的内存与接口用例的复杂度有关。如果系统默认的资源池并发数设置太大，例如500以上，而资源池既 ms-node-controller 服务的可用内存不足以支撑大并发时，将导致线程没有足够资源执行完成用例而中途异常终止。

解决方法

如果资源池勾选了用于接口测试，那么并发数不建议设置太大，默认的 50 并发即可。
修改 node-controller 的配置文件，默认路径为/opt/metersphere/docker-compose-node-controller.yml，将 mem_limit 参数调大（默认为1g），然后执行 msctl reload 命令重新加载。

2.2 Kafka原因

2.2.1 kafka网络问题

问题现象

/opt/metersphere/logs/node-controller/info.log 日志中会出现以下报错信息：
”[kafka-producer-network-thread | producer-1] WARN o.apache.kafka.clients.NetworkClient 775 - [Producer clientId=producer-1] Connection to node 1 (/xx.xx.xx.xx:9092) could not be established. Broker may not be available。“

原因分析

测试计划执行中，有可能网络出现异常，导致 kafka 无法正常接收消息，每个用例都无法接收到完整的响应体消息，这种情况会导致所有执行中的用例都处于running状态。

解决方法

检查并确保资源池跟kafka之间网络畅通。

# 进入ms-node-controller容器
docker exec -it ms-node-controller sh
# 判断网络情况，如果返回open则网络畅通
nc -zv ip port(输入kafka所在服务器的ip和端口)

如果网络资源池到kafka的网络不畅通，需要检查kafka容器状态以及是否存在防火墙等网络限制。

2.2.2 kafka消息太大

问题现象

kafka容器日志会出现以下报错信息：“RecordTooLargeException: The request included a message larger than the server will accept。“

原因分析

当个别用例响应体太大，导致消息大小超过 kafka 默认限制时，kafka 将无法接收执行结果消息，该用例会一直处于 running 中。

解决方法

修改 kafka 的配置文件，将 MeterSphere 服务器上 /opt/metersphere/docker-compose-kafka.yml 文件中的 MESSAGE_MAX_BYTES （单个消息的最大字节数）参数值调大，然后再使用 msctl reload 命令重新加载。

2.3 用例本身原因

问题现象

只有固定的某条用例一直 running 中，其余用例都能正常执行结束。

原因分析

如果用例使用资源池运行时，由于自身原因一直执行中，也会导致测试计划报告整体状态为running。这种情况需要观察日志，追踪一直处于 running 用例在执行过程是否出现了异常。

解决方法

首先需要在测试计划报告中找到running用例的报告Id，根据Id在 /opt/metersphere/logs/node-controller/ms-jmeter-run.log 中追踪执行过程，观察执行中是否有异常日志。例如：一条正常执行结束的用例报告，在日志中会包含完整的从run到testEnded的过程，如果没有testEnded日志，则用例会一直处于running状态。