1.
问题复现与初步确认
步骤:
1) 说明复现时间(精确到秒)和操作人账号;
2) 明确复现路径:例如“登录→选择签注类型→提交申请→出现 502/504/500 错误”;
3) 记录是否所有用户均受影响或仅个别IP/账号;
4) 截图或录屏关键操作和错误提示(浏览器地址栏时间、URL、报错截图)。
2.
浏览器端诊断(用户侧)
步骤:
1) 清缓存或使用无痕模式重现问题,确认是否与缓存相关;
2) 导出 HAR:打开 Chrome 开发者工具 → Network → 勾选 Preserve log → 重现 → 右键导出 HAR;
3) 保存控制台(Console)错误日志;
4) 如果有跨域、JS 报错或前端 4xx/5xx,标注对应请求与响应头/体摘要。
3.
网络层与域名解析检查
步骤:
1) 本地执行 ping 与 traceroute(Windows: tracert domain;mac/linux: traceroute domain)并保存输出;
2) 查询 DNS 解析:nslookup domain 或 dig domain +short;记录解析到的 IP 与 TTL;
3) 检查防火墙或代理:是否存在中间设备拦截或返回自定义错误页面;
4) 记录客户端公网 IP(访问方)以便后台侧排查与封禁列表比对。
4.
服务端快速诊断(需运维/开发配合)
步骤:
1) 查看应用日志(时间区间 ±5 分钟),抓取 request_id、trace_id、异常堆栈;
2) 检查 Web 服务器(Nginx/Apache)错误日志与访问日志,定位状态码与 upstream;
3) 若是网关超时,检查后端服务(应用/数据库/缓存)延迟与连接池耗尽情况;
4) 提供最近 1 小时的关键监控图(CPU、内存、连接数、响应时延)截图或链接。
5.
TLS/证书与端口检测
步骤:
1) 使用 openssl 检查证书:openssl s_client -connect domain:443 -servername domain,记录证书链与过期时间;
2) 验证常用端口连通性:telnet domain 443 或 nc -vz domain 443;
3) 若为 API,检查证书是否被中间代理替换、是否存在 SNI 问题;
4) 报告中注明是否存在证书过期或链不完整。
6.
后端服务与数据库检查
步骤:
1) 检查后端应用的错误日志(完整堆栈)、线程/协程泄露、OOM、GC 突增;
2) 数据库慢查询、连接数耗尽或锁等待:导出可疑慢查询样例与当前连接数;
3) 缓存(Redis/Memcached)是否命中率骤降或出现集群故障;
4) 如存在 MQ(消息队列),核实积压长度与消费异常。
7.
抓包与深度网络分析(必要时)
步骤:
1) 在客户端或服务器侧使用 tcpdump 抓取网络包:tcpdump -i eth0 host x.x.x.x and port 443 -w capture.pcap(需注明时间范围);
2) 将 pcap 文件与 HAR 一并提交(注意脱敏);
3) 若涉及第三方接口,抓取完整上游请求与响应;
4) 提示:抓包可能包含敏感信息,传送前遵守公司隐私政策并加密传输。
8.
构建报障邮件/工单模板(示例)
步骤:
1) 标题格式:[紧急/高/中] 澳门签注服务器异常 - <服务名> - 影响范围 - YYYY-MM-DD HH:MM:SS;
2) 内容要点:复现步骤、时间、影响用户数、是否可绕过;
3) 附件清单:HAR、控制台日志、Nginx access/error 截取、应用异常日志(含 request_id)、抓包 pcap、监控图;
4) 联系方式与可联系窗口:电话/微信群/值班工程师,方便现场联动。
9.
打包与安全发送
步骤:
1) 将所有文件按类型命名并压缩为 zip,例如: macau_issue_20260501.zip;
2) 若含敏感信息,使用密码压缩并单独通过电话/加密通道告知密码;
3) 在工单系统上传附件并将关键摘要粘贴在正文便于快速查看;
4) 指定期望响应时间与当前业务影响等级,便于运维优先级判断。
10.
问:如果现在无法导出 HAR,有哪些最小可接受的诊断信息可以先提供?
答:最小集:精确时间点(含时区)、受影响 URL、错误截图或录屏、浏览器控制台的错误文本、客户端公网 IP、是否所有用户均受影响、Nginx/应用的 10 分钟访问/错误日志截取;把这些先发出能显著加快初步定位。
11.
问:如何在 Chrome 中快速生成并导出 HAR 文件?
答:打开 Chrome → F12 → Network 面板 → 勾选 Preserve log → 勾选 Disable cache(如需)→ 重现问题 → 右键任意请求 → Save all as HAR with content → 保存并上传。说明发生时间点并标注关键请求。
12.
问:如何快速检查服务器 TLS 证书是否为问题根源?
答:在任一能访问 openssl 的机器运行:openssl s_client -connect domain:443 -servername domain | openssl x509 -noout -dates,查看 notBefore/notAfter;同时检查证书链完整性与是否返回 OCSP/CRL 错误,若证书过期或链不完整,应优先修复。
来源:技术支持模板示例用于报告澳门签注服务器异常并附加必备诊断信息