新闻资讯
领先云端方案商,专注云桌面、云手机研发,凭核心虚拟化技术与云端算力,
打造安全高效数字化平台,提供全周期支持。
分类
相关文章
热门标签

监控告警aws 跳板机 公钥 异常使用检测与自动化响应策略说明

2026年6月6日

1.

概述与威胁场景

1) 目标:检测跳板机(bastion)上公钥(authorized_keys)被异常使用或滥用的行为并自动化响应。
2) 风险:被盗私钥或未授权公钥加入可导致横向移动、远程命令执行、数据泄露。
3) 范围:适用于AWS EC2、VPS、物理主机及搭配CDN、域名和DDoS防护的服务链路。
4) 日志来源:系统auth日志、CloudTrail、VPC Flow Logs、CloudWatch Logs、GuardDuty告警。
5) 成果目标:实现告警率<10%误报、平均响应时间MTTR<=5分钟的自动化处置能力。
6) 关键组件:CloudWatch Alarms、Lambda、SSM Run Command、IAM策略、SNS通知。

2.

检测数据源与具体查询

1) CloudTrail:关注PutBucket、UpdateInstance、ImportKeyPair、AuthorizeSecurityGroupIngress等API调用。示例事件:UpdateUserPublicKey。
2) 系统日志:/var/log/auth.log 或 /var/log/secure,搜索 "Accepted publickey" 与 "invalid user"。
3) VPC Flow Logs:监测22端口非白名单IP的短时大量连接。阈值示例:5分钟内同一IP对22端口连接数>100。
4) CloudWatch Logs Insights示例查询:fields @timestamp, @message | filter @message like /Accepted publickey/ | stats count() by bin(5m), src_ip。
5) GuardDuty与Falco:结合异常登录、可疑端口扫描和内网横向流量进行关联分析。
6) 样本告警阈值:连续失败SSH尝试>50/10min,或新公钥写入/修改事件即时触发。

3.

告警规则与阈值策略

1) 基本阈值:失败尝试数(FailedAuth)>30/5min触发P1告警。
2) 公钥变更:检测到authorized_keys文件变更或ImportKeyPair API调用立即触发P0(紧急)。
3) 异地登录:登录源IP不在企业CIDR白名单且成功登录触发P0。
4) 关联规则:若公钥变更+短时大量出站连接同时出现,提升事件等级并自动隔离。
5) 告警降噪:白名单内维护跳板机管理IP段,定期更新并对正常运维窗口设置静默策略。
6) 告警通知:通过SNS推送到邮件、企业微信/Slack以及安全值班台并触发自动化Runbook。

4.

自动化响应流程与实现示例

1) 触发器:CloudWatch Alarm -> SNS -> Lambda执行响应脚本(同步拉取事件详情)。
2) 自动化动作(顺序示例):1) 禁止可疑源IP(修改安全组);2) 从实例删除公钥(通过SSM Run Command);3) 关闭受影响会话(sshd kill或SSM断开);4) 快照磁盘并上报S3;5) 创建事件工单。
3) Lambda示例角色:arn:aws:iam::123456789012:role/BastionAutoRemediate,包含ec2:CreateSnapshot、ssm:SendCommand、ec2:ModifyInstanceAttribute、ec2:RevokeSecurityGroupIngress等权限。
4) 自动化脚本示例片段:调用SSM Document AWS-RunShellScript 执行 "sed -i '//d' /home/ubuntu/.ssh/authorized_keys" 并记录操作ID。
5) 回滚与审计:所有动作写入CloudWatch Logs及S3审计桶,关键操作要求二次人工确认(可配置)。
6) 响应SLA:自动化处置成功率目标>=90%,人工介入需在30分钟内完成安全复核。

5.

真实案例与服务器配置示例

1) 案例说明:2025-11-03 02:12 UTC,一跳板机遭外部未授权公钥使用,CloudTrail记录ImportKeyPair事件并伴随短时大量SSH连接。
2) 响应过程:CloudWatch Alarm触发,Lambda修改安全组阻断可疑IP并通过SSM从authorized_keys中移除可疑公钥,随后创建EBS快照并上报。
3) 成功指标:处理时间4分37秒,未发生横向渗透。
4) 服务器配置示例:EC2 t3.large, AMI Ubuntu 22.04, /home/ubuntu/.ssh/authorized_keys, SSM Agent已安装。
5) 下表为事件关键信息展示:
时间(UTC)实例ID公钥指纹源IP处置动作
2025-11-03 02:12i-0a1b2c3d4e5f6g7hSHA256:AbCdEf123...203.0.113.45阻断IP、移除公钥、快照
6) 后续:关键用户公钥全部轮换并执行红蓝对抗验证。

6.

实施清单与最佳实践

1) 强制使用SSM Session Manager替代SSH直连,关闭22端口对公网开放。
2) 公钥轮换策略:建议90天轮换并记录指纹,异常轮换触发审计。
3) 日志保存与分析:CloudTrail/CloudWatch日志保留至少90天,关键事件S3冷存档1年。
4) 最小权限:跳板机管理账号使用Least Privilege原则,审计IAM与Key使用。
5) 定期演练:每季度演练自动化响应Runbook并验证MTTR指标。
6) 结合CDN与DDoS防护:在遭遇攻击时优先靠CDN/Shield缓解流量层面风险,减少跳板机暴露。


来源:监控告警aws 跳板机 公钥 异常使用检测与自动化响应策略说明