Ir al contenido

FinOps: Gestión Financiera de la Nube

FinOps (Cloud Financial Operations) es la disciplina cultural y práctica que busca maximizar el valor de negocio del gasto en la nube. En HERA, FinOps es una responsabilidad compartida entre Finanzas, Tecnología y Negocio para tomar decisiones informadas sobre el gasto.

El Framework de FinOps: Informar, Optimizar, Operar

Sección titulada «El Framework de FinOps: Informar, Optimizar, Operar»

Nuestro enfoque sigue el ciclo de vida estándar de FinOps.

Framework FinOps en HERA
1
Informar
Visibilidad Total
  • Tagging y Showback de costos
  • Dashboards de Costos (Looker Studio)
  • Allocation a Centros de Costo
  • Reportes semanales a Tech Leads
2
Optimizar
Reducir Desperdicio
  • Right-sizing de VMs y GKE
  • Committed Use Discounts (CUDs)
  • Limpieza de recursos ociosos
  • Autoscaling optimizado
3
Operar
Controlar y Gobernar
  • Budgets por Proyecto + Alertas
  • Políticas de Gasto y aprobaciones
  • Alertas de anomalías de gasto
  • Revisiones trimestrales de presupuesto
Mensaje clave Informar → Optimizar → Operar. Cada equipo es responsable del costo de los recursos que consume.

El primer paso es entender dónde y por qué se gasta el dinero.

La correcta asignación de costos es la base de todo. Esto se logra a través de una política de etiquetado (tagging) estricta y obligatoria.

  • Dashboard FinOps en Looker Studio: Proporciona una vista en tiempo real del gasto por equipo, por proyecto y por servicio de GCP.
  • Reportes Semanales: Se envían a los Tech Leads y Product Owners con el desglose de costos de sus aplicaciones y recomendaciones de optimización.
  • Reporte Ejecutivo Mensual: Se presenta a la dirección con las tendencias de gasto, el ROI de la nube y el estado de las iniciativas de ahorro.

Una vez que tenemos visibilidad, podemos empezar a optimizar.

EstrategiaDescripciónResponsable
Right-SizingAjustar el tamaño de las VMs y GKE a su uso real. Si una máquina usa solo el 20% de su CPU, se debe reducir.Equipo de Desarrollo (con ayuda de Recommender)
Committed Use Discounts (CUDs)Comprometerse a usar una cantidad de recursos base (CPU/RAM) por 1 o 3 años a cambio de un gran descuento (hasta 57%).Equipo FinOps/Plataforma
Limpieza de Recursos OciososIdentificar y eliminar recursos no utilizados (discos sin adjuntar, IPs estáticas sin uso, snapshots antiguos).Equipo de Desarrollo
Autoscaling OptimizadoConfigurar el autoescalado de GKE y VMs para que se ajuste dinámicamente a la demanda, apagando nodos cuando no se necesiten.Equipo de Desarrollo
Políticas de StorageMover datos de acceso poco frecuente a clases de almacenamiento más baratas (Nearline, Coldline, Archive).Equipo de Desarrollo

Finalmente, establecemos controles para mantener el gasto alineado con los presupuestos.

  • Budgets por Proyecto: Cada proyecto en GCP tiene un presupuesto mensual asignado.
  • Alertas Automáticas: Se configuran alertas para notificar a los dueños del proyecto y al equipo de FinOps cuando el gasto alcanza el 50%, 80%, y 100% del presupuesto.
  • Alerta de Anomalías: Se configuran alertas que se disparan si el gasto diario de un proyecto o servicio aumenta de forma anómala (ej. >30% con respecto al promedio), lo que podría indicar un bug o un abuso.
  • Se realizan reuniones semanales entre el equipo de FinOps y los Tech Leads de los proyectos con mayor gasto para revisar las tendencias, analizar anomalías y planificar optimizaciones.
  • Cada trimestre, se revisan y ajustan los presupuestos para el siguiente trimestre en conjunto con los líderes de negocio.

El gasto de HERA se distribuye entre los 3 ambientes principales. Entender esta distribución ayuda a identificar ineficiencias — DEV y QA no deberían consumir más del 20-25% del gasto total.

Ambiente% del gasto totalJustificaciónEstrategia de optimización
PRD65-75%Workloads reales, tráfico de usuarios, HA regional, CUDsCUDs para baseline, right-sizing continuo, spot para batch
QA15-20%Autopilot (paga por pod), pruebas de carga temporalesAutopilot elimina nodos ociosos, scale-to-zero fuera de horario
DEV10-15%Autopilot, desarrollo activo solo en horario laboralAutopilot + scale-to-zero fuera de horario, recursos mínimos
AnomalíaSeñalAcción
DEV consume más del 20% del totalRecursos sobredimensionados o no apagadosRevisar pods sin HPA, reducir requests, habilitar scale-to-zero
QA consume más que PRDPruebas de carga sin cleanup o recursos persistentesVerificar que pruebas de carga liberan recursos al terminar
PRD consume 30%+ más que el mes anteriorGrowth legítimo o fuga de recursosInvestigar: ¿más tráfico? ¿más servicios? ¿recursos ociosos?

El tag environment es obligatorio en todos los recursos (ver Estándares de Tagging). Esto permite filtrar costos por ambiente en Looker Studio:

Tag environmentValorProyectos GCP
devDesarrollohera-dev
qaQuality Assurancehera-qa
prdProducciónhera-prd

Apigee es el API gateway enterprise de GCP. Su modelo de costos es diferente a los recursos de compute — se cobra por llamadas API y ambientes, no por CPU/memoria.

ComponenteQué se cobraEstimación
AmbientesPor ambiente activo (dev, qa, prd)Costo fijo mensual por ambiente
API callsPor millón de llamadas API procesadasVariable según tráfico
AnalyticsAlmacenamiento de datos de analyticsProporcional al volumen de datos
Mediation/PoliciesIncluido en el costo base de API calls
Escenario¿Usar Apigee?Alternativa
APIs expuestas a partners externosSí — rate limiting, API keys, analytics, monetización
APIs internas entre microserviciosNo — overhead innecesarioService Mesh (ASM) para mTLS y observabilidad
APIs públicas con alto tráficoSí — throttling, caching, analytics
APIs internas de baja criticidadNoIngress con Cloud Armor es suficiente
EstrategiaImpactoDetalle
Solo usar Apigee donde agrega valorAltoNo rutear APIs internas por Apigee — usar para APIs externas y de partners
Caching en ApigeeMedioResponses cacheables reducen llamadas al backend y costos de compute
Rate limitingMedioPreviene abuso que genera costos innecesarios de backend
Consolidar ambientesMedioEvaluar si DEV necesita un ambiente Apigee separado o puede compartir con QA
Monitoreo de tráficoContinuoRevisar mensualmente si hay APIs con tráfico anormalmente alto o bajo

NivelOwner financieroResponsabilidad
Recurso individualDeveloper / Tech Lead (tag owner)Justificar el sizing, optimizar requests/limits
ServicioTech Lead (tag application)Costo mensual dentro del presupuesto del producto
ProductoProduct Owner (tag cost-center)Presupuesto total del producto, decisiones de inversión vs ahorro
DominioEngineering ManagerPresupuesto del dominio, distribución entre productos
PlataformaVP de IngenieríaPresupuesto total de cloud, CUDs, estrategia de largo plazo
Incremento de costo mensualAprobación requerida
Menos de $500 USDTech Lead (autónomo)
$500 - $2,000 USDProduct Owner
$2,000 - $10,000 USDEngineering Manager
Mayor a $10,000 USDVP de Ingeniería + justificación de negocio