持续优化

Last reviewed 2024-09-25 UTC

Google Cloud 架构框架的“成本优化”支柱中包含的这一原则提供了建议，以帮助您根据不断变化和不断发展的业务目标优化云部署的成本。

随着业务的发展壮大，您的云工作负载需要适应资源需求和使用模式的变化。为了从云支出中获得最大价值，您必须在继续支持业务目标的同时保持成本效益。这需要采用主动且适应性强的方法，重点关注持续改进和优化。

原则概览

为了持续优化费用，您必须主动监控和分析云环境，并根据当前要求进行适当调整。您应重点监控直接影响最终用户体验、与业务目标保持一致且可提供有助于持续改进的洞见的关键绩效指标 (KPI)。通过这种方法，您可以发现并解决效率低下的问题，适应不断变化的需求，并不断将云支出与战略业务目标保持一致。为了平衡全面的可观察性和成本效益，请了解监控资源使用情况的成本和收益，并采用适当的流程改进和优化策略。

建议

如需有效地监控 Google Cloud 环境并持续优化费用，请考虑以下建议。

专注于与业务相关的指标

有效的监控首先要确定对您的业务和客户最重要的指标。这些指标包括：

用户体验指标：延迟时间、错误率、吞吐量和客户满意度指标有助于了解最终用户在使用应用时的体验。
业务结果指标：收入、客户增长和互动度可以与资源用量相关联，以发现成本优化机会。
DevOps 研究和评估 (DORA) 指标：部署频率、更改前的准备时间、更改失败率和恢复时间等指标可让您深入了解软件交付流程的效率和可靠性。通过改进这些指标，您可以提高工作效率、减少停机时间并优化成本。
站点可靠性工程 (SRE) 指标：错误预算可帮助团队量化和管理可接受的服务中断等级。通过对可靠性设定明确的预期，错误预算可让团队更有信心地进行创新和部署更改，并了解其安全余地。这种主动方法有助于在创新与稳定性之间取得平衡，从而避免因发生重大中断或长时间停机而产生过高的运营成本。

使用可观测性进行资源优化

以下是关于使用可观测性来识别云部署中的资源瓶颈和未充分利用的资源的建议：

监控资源利用率：使用资源利用率指标来找出未充分利用的 Google Cloud 资源。例如，使用 CPU 和内存利用率等指标来识别空闲的虚拟机资源。对于 Google Kubernetes Engine (GKE)，您可以查看详细的费用明细和与费用相关的优化指标。对于 Google Cloud VMware Engine，请查看资源利用率，以优化 CUD、存储空间用量和 ESXi 调整大小。
使用云建议：Active Assist 提供了一系列智能工具，可帮助您优化云运维。这些工具可提供可操作的建议，以降低费用、提高性能、增强安全性，甚至做出以可持续性为重点的决策。例如，虚拟机合理调整用量分析可帮助优化资源分配并避免不必要的支出。
将资源利用率与性能相关联：分析资源利用率与应用性能之间的关系，以确定您是否可以降级到更便宜的资源，而不会影响用户体验。

平衡问题排查需求与费用

详细的可观测性数据有助于诊断和排查问题。不过，存储过多可观测性数据或将不必要的数据导出到外部监控工具可能会导致不必要的费用。如需高效地进行问题排查，请考虑以下建议：

收集足够的数据以进行问题排查：确保您的监控解决方案捕获足够的数据，以便在问题出现时高效诊断和解决问题。这些数据可能包括日志、跟踪记录和不同粒度级别的指标。
使用采样和汇总：通过使用采样和汇总技术，平衡对详细数据的需求与费用考虑。通过这种方法，您可以收集代表性数据，而不会产生过高的存储费用。
了解监控工具和服务的定价模式：评估不同的监控解决方案，并选择符合项目具体需求、预算和使用模式的选项。在进行选择时，请考虑数据量、保留要求和所需功能等因素。
定期检查监控配置：通过移除不必要的指标或日志，避免收集过多数据。

根据角色定制数据收集，并设置特定于角色的保留政策

考虑不同角色的具体数据需求。例如，开发者可能主要需要访问跟踪记录和应用级日志，而 IT 管理员可能需要重点关注系统日志和基础架构指标。通过量身定制数据收集，您可以降低不必要的存储费用，并避免因不相关信息过多而让用户感到不知所措。

此外，您还可以根据各个角色的需求以及任何法规要求来定义保留政策。例如，开发者可能需要访问较短时间段的详细日志，而财务分析师可能需要长期数据。

考虑监管和合规要求

在某些行业，监管要求规定必须保留数据。为避免法律和财务风险，您需要确保您的监控和数据保留做法有助于您遵守相关法规。同时，您需要保持成本效益。请考虑以下建议：

确定您所在行业或地区的特定数据保留要求，并确保您的监控策略符合这些要求。
实现适当的数据归档和检索机制，以满足审计和合规需求，同时尽可能降低存储成本。

实现智能提醒

提醒功能有助于及时检测和解决问题。不过，您需要在让您及时了解信息的方法和让您被通知淹没的方法之间取得平衡。通过设计智能提醒系统，您可以优先处理对业务影响更大的严重问题。请考虑以下建议：

优先处理影响客户的问题：针对直接影响客户体验的问题（例如网站中断、响应时间过长或交易失败）设计快速触发的提醒。
针对临时问题进行调整：使用适当的阈值和延迟机制，避免针对临时问题或不会影响客户的自我修复系统问题发出不必要的提醒。
自定义提醒严重程度：通过区分严重提醒和非严重提醒，确保最紧急的问题能立即得到关注。
明智地使用通知渠道：根据提醒的严重程度和紧迫程度，为提醒通知选择合适的渠道（电子邮件、短信或寻呼）。

优化资源使用情况

持续优化 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。