常见问题
修改某项目&集群链路组件时的操作常见注意事项是什么?
进入[管理工作台/性能监控配置/链路授权管理],找到目标项目&集群,为其修改上报的链路地址,修改完成后,需通知业务方,原接入链路的业务服务,需重启后才会将调用数据上报至新的链路,否则还会上报至原有链路。
调用链查询超时,如何处理?
一般是ES处理数据超时,联系管理员查看微服务系统组件的日志进一步判断。 此外,还有网络原因,服务器硬件资源缺乏等。
链路追踪组件启动失败,如何处理?
- 报错内容:xxx does not exist. OAP is running in 'on-init' mode,waiting ... retry 3s later
- 此为Skywalking开源组件的bug,已在版本9(即TAPM v5.7.1)解决,但TAPM v5.7.0及以下使用的是8.x版本,如遇到以上报错,需要修改链路追踪server环境变量JAVA_OPTS的值为-Xmx2g -Xms2g。
服务接入链路后正常调用,但是概览页面看不到数据,此时日志报错,怎么办?
日志报错:Grpc server thread pool is full, rejecting the task,该错误是线程池抛出来的,主要是在链路接入服务较多的情况下发生。需要修改配置如下:
- SW_CORE_GRPC_POOL_QUEUE_SIZE,默认是10000,可以改成20000,这个是线程池队列的大小
- SW_CORE_GRPC_THREAD_POOL_SIZE,默认是CPU核心数的4倍,可以改成50或者更多,表示线程池的核心线程数和最大线程数
- 修改步骤:进入<系统租户>链路组件tracing-analysis-server所在的项目中,如果使用的是TCE,到容器服务中的[工作负载/部署]中找到tracing-analysis-server,进入其详情页,点击“容器配置”修改环境变量。
服务接入网格开启mTLS后,应用诊断开启分析失败,如何处理?
服务接入网格关闭mTLS,可正常开启诊断分析。但开启mTLS后,开启失败,日志报错:upstream connect error or disconnect/reset before headers. reset reason: connection failure, transport failure reason: delayed connect error: 111。原因是:开启mTLS的服务不能接受非TLS的流量,导致的arths网络不通。
临时处理方案如下,下个版本进行修复:如果服务开启mtls,可以通过 k edit pa -n {ns} {svcName} 。{ns}服务部署所在的命名空间,{svcName}服务部署的servicename。在 spec下面添加
apiVersion: security.istio.io/v1beta1
kind: PeerAuthentication
metadata:
name: default
namespace: foo
spec:
selector:
matchLabels:
app: finance
mtls:
mode: STRICT
portLevelMtls: # 只添加下面这部分其他不需要动
8563: # 需要禁用的mtls端口
mode: DISABLE