Kubernetes HPA 水平 Pod 自动扩缩容实战指南

# Kubernetes HPA 水平 Pod 自动扩缩容实战指南

## 背景介绍

在现代云原生架构中，应用的流量往往呈现出明显的波峰波谷特征。白天业务高峰期可能需要数十个 Pod 来支撑用户请求，而凌晨低谷期可能只需要三五个实例就足够运行。传统的人工手动调整 Pod 副本数的方式不仅效率低下，还容易因为响应延迟导致用户体验下降或者资源浪费。

Kubernetes 提供了 Horizontal Pod Autoscaler（HPA）这一核心功能来解决上述问题。HPA 能够根据预设的度量指标（如 CPU 使用率、内存使用量或者自定义指标）自动调整 Deployment 或 StatefulSet 中的 Pod 副本数，实现计算资源的弹性伸缩。

本文将详细介绍在 Kubernetes 集群中配置和使用 HPA 的完整流程，从环境准备到实际部署，手把手教您搭建一套可用的自动扩缩容系统。

## 问题描述

在实际生产环境中，经常遇到以下几类问题。

资源利用率低下是最常见的痛点。很多企业为了应对突发的流量高峰，会按照峰值负载来配置 Pod 副本数，导致在低峰期大量计算资源闲置，每个月为此支付不必要的云服务费用。

响应能力不足是另一个问题。当流量突然激增时，人工扩容需要时间，在这个时间窗口内，新请求可能会因为等待时间过长而失败。业务高峰期就那么几个小时，等你手动扩容完，黄花菜都凉了。

配置复杂度高也是客观存在的障碍。HPA 的配置涉及多个 Kubernetes 概念，新手容易在指标选择、阈值设置等环节出错。网上教程参差不齐，照着做往往会踩坑。

本文会针对这些问题，提供一套完整的解决方案。

## 详细步骤

### 步骤一：准备 Kubernetes 测试环境

首先需要确认 Kubernetes 集群可用。如果本地没有集群，可以使用 Minikube 或者 kind 来创建一个本地开发环境。以 Minikube 为例，执行以下命令启动集群：

“`bash
minikube start –cpus=2 –memory=2048
“`

集群启动后，验证 kubectl 配置是否正确：

“`bash
kubectl cluster-info
kubectl get nodes
“`

确保能够正常获取集群信息后，继续下一步操作。

### 步骤二：部署测试应用

为了演示 HPA 的效果，我们需要一个支持水平伸缩的测试应用。以下是一个基于 Go 语言的简单 HTTP 服务，当收到请求时会执行一些计算密集型操作：

“`go
package main

import (
“fmt”
“math”
“net/http”
“time”
)

func handler(w http.ResponseWriter, r *http.Request) {
// 模拟 CPU 密集型计算
start := time.Now()
for i := 0; i < 10000000; i++ { _ = math.Sqrt(float64(i)) } duration := time.Since(start) fmt.Fprintf(w, "Hello! Request processed in %v\n", duration) } func main() { http.HandleFunc("/", handler) fmt.Println("Server starting on :8080") http.ListenAndServe(":8080", nil) } ``` 将上述代码编译成二进制文件，然后创建 Dockerfile： ```dockerfile FROM golang:1.21-alpine AS builder WORKDIR /app COPY . . RUN go build -o server . FROM alpine:latest WORKDIR /app COPY --from=builder /app/server . EXPOSE 8080 CMD ["./server"] ``` 构建镜像并推送到镜像仓库： ```bash docker build -t myhpa/demoapp:latest . docker push myhpa/demoapp:latest ``` ### 步骤三：创建 Deployment 接下来创建 Kubernetes Deployment 资源清单： ```yaml apiVersion: apps/v1 kind: Deployment metadata: name: demoapp labels: app: demoapp spec: replicas: 1 selector: matchLabels: app: demoapp template: metadata: labels: app: demoapp spec: containers: - name: demoapp image: myhpa/demoapp:latest ports: - containerPort: 8080 resources: requests: cpu: "100m" memory: "128Mi" limits: cpu: "500m" memory: "256Mi" ``` 应用该清单： ```bash kubectl apply -f deployment.yaml ``` ### 步骤四：配置 HPA 现在创建 Horizontal Pod Autoscaler 资源： ```yaml apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: demoapp-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: demoapp minReplicas: 1 maxReplicas: 10 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 50 - type: Resource resource: name: memory target: type: Utilization averageUtilization: 70 behavior: scaleDown: stabilizationWindowSeconds: 300 policies: - type: Percent value: 10 periodSeconds: 60 scaleUp: stabilizationWindowSeconds: 0 policies: - type: Percent value: 100 periodSeconds: 15 - type: Pods value: 4 periodSeconds: 15 selectPolicy: Max ``` 应用 HPA 配置： ```bash kubectl apply -f hpa.yaml ``` ### 步骤五：创建 Service 并暴露应用为了让外部能够访问应用，需要创建 Service： ```yaml apiVersion: v1 kind: Service metadata: name: demoapp-service spec: selector: app: demoapp ports: - port: 80 targetPort: 8080 type: LoadBalancer ``` 应用 Service 配置： ```bash kubectl apply -f service.yaml ``` ## 运行结果完成上述配置后，可以通过以下命令查看 HPA 的状态： ```bash kubectl get hpa demoapp-hpa ``` 输出类似如下： ``` NAME REFERENCE TARGETS MIN MAX REPLICAS AGE demoapp-hpa Deployment/demoapp cpu: 45%/50%, memory: 62%/70% 1 10 1 5m ``` 为了验证自动扩容功能，我们可以通过工具持续向应用发送请求，增加 CPU 负载。可以使用 hey 或者 ab 等压测工具： ```bash # 安装 hey go install github.com/rakyll/hey@latest # 持续发送请求，模拟高并发 hey -z 10m -c 50 http:///

# 或者使用 ab
ab -n 10000 -c 50 http:///
“`

观察 HPA 的变化：

“`bash
kubectl get hpa demoapp-hpa -w
“`

随着请求增加，会看到 Pod 副本数逐渐增加：

“`
NAME REFERENCE TARGETS MIN MAX REPLICAS AGE
demoapp-hpa Deployment/demoapp 85%/50% 1 10 2 10m
demoapp-hpa Deployment/demoapp 120%/50% 1 10 4 11m
demoapp-hpa Deployment/demoapp 95%/50% 1 10 5 12m
“`

当请求减少后，HPA 会根据 scaleDown 策略逐渐减少 Pod 副本数，最终稳定在 minReplicas 设定值。

查看 Pod 详情：

“`bash
kubectl get pods -l app=demoapp
“`

输出：

“`
NAME READY STATUS RESTARTS AGE
demoapp-7d9f8b6c4-abcde 1/1 Running 0 15m
demoapp-7d9f8b6c4-fghij 1/1 Running 0 3m
demoapp-7d9f8b6c4-klmno 1/1 Running 0 2m
demoapp-7d9f8b6c4-pqrst 1/1 Running 0 1m
“`

## 总结

本文介绍了 Kubernetes HPA 的配置和使用方法。读者应该能够掌握以下技能：创建支持资源 requests 和 limits 的 Deployment，这是 HPA 工作的基础；配置 HPA 并理解各个参数的作用，包括 minReplicas、maxReplicas、metrics 和 behavior 等；通过实际压测验证 HPA 的扩容和缩容效果。

在实际生产环境中，建议根据业务的实际负载特征来调整 HPA 参数。对于流量波动较大的应用，可以适当增大 maxReplicas 并缩短扩容策略的 periodSeconds；对于流量相对稳定的应用，可以设置较为保守的参数以避免频繁的扩缩容操作。

HPA 还支持自定义指标，可以根据业务特点设置更复杂的扩容规则。例如，可以根据消息队列的积压数量、数据库连接池的使用率等业务指标来触发扩容。这些高级用法将在后续文章中详细介绍。

通过合理配置 HPA，能够在保证服务质量的前提下，最大程度地优化资源利用率，降低云服务成本。建议在正式生产环境部署前，先在测试环境进行充分的验证，确保自动扩缩容行为符合预期。

发送评论 编辑评论

推荐文章

发送评论编辑评论