现象
在公司开发时观察到一个奇怪的现象,一个运行时间较长(1分钟)的http接口会被自动调用数次(日志证明它最后调用成功),直到超过5分钟后返回504网关超时(如下图)才停止。如果将此接口的运行时间缩短到比如20秒,则无此现象。
排查过程
一开始怀疑是web应用本身的设置,发现不是。后来怀疑到kong网关或者SRE的设置,于是问SRE。SRE一开始也不清楚,但是提供了一个有用的建议:绕过 kong ,直接在容器内做同样的调用,在集群内使用 curl 访问。结果我这一试还真试出来了:在容器内直接访问是没问题的。
结论
原因一是公司kong的配置:
https://konga.infra.leyantech.com/#!/services/89188cb3-0e38-4f6d-af8c-6cfd3dfa7e91/read : 这里的retries 5,完美对应我观察到的现象。
原因二:
但是这还解释不了,为什么接口运行1分钟就会报超时错误。SRE解释这是阿里云负载均衡的设置导致的。从负载均衡SLB点进去,登录阿里云控制台,可以看到连接请求超时时间为60秒:
整体解释
我通过java.sleep命令设置了接口运行时间为60秒,因为达到了阿里云设置的连接请求超时时间而报504错误。而又因为kong网关的设置,请求了5次大致了retires的上限后才终止调用。 公司API 网关简介文档里有公司HTTP 请求的处理时序图: ?resolve api.leyanbot.com 查询 api.leyanbot.com 这个域名对应的 ip 地址。这里返回的 ip 地址是 *******,该 ip 上运行的是阿里云 SLB 实例 ,SLB(Server Load Balancer) 是阿里云提供的七层负载均衡服务,你可以打开,点击“登陆阿里云控制台“,了解该 SLB 的更多信息。 … ?GET api.leyanbot.com/item HTTP/1.1 SLB 将 HTTP 请求转发给位于 k8s 集群内的 kong;需要注意的是,SLB 虽然是七层协议,理论上可以添加基于 host 和 path 的路由规则,但我们没有深入使用 SLB 的路由规则,而是选择将流量全部转发到 kong,由 kong 将流量最终路由给集群内的指定微服务实例。 … 服务有若干个实例,kong 会将请求均匀转发给其中每个实例
|