Lenguaje común

Glosario

Definiciones breves sobre infraestructura GPU, pricing de cómputo IA, operación de clusters y modelos comerciales.

Estrategia

AI Factory

Infraestructura organizada para producir, entrenar, ajustar y operar modelos de IA de forma repetible.

El concepto conecta capacidad de cómputo, datos, talento, herramientas y gobernanza.

Infraestructura

bare metal

Servidor físico dedicado, sin capa de virtualización compartida entre clientes.

Suele ofrecer mayor control y rendimiento predecible para cargas intensivas, aunque requiere más responsabilidad operacional del cliente.

Monetización

capacidad reservada

Capacidad comprometida para un cliente o caso de uso durante un periodo determinado.

Reduce incertidumbre de demanda para el proveedor, pero exige disciplina para evitar inventario bloqueado con bajo margen.

Finanzas

chargeback

Mecanismo interno para asignar costos de infraestructura a equipos, unidades o proyectos.

Ayuda a que el consumo de cómputo tenga señales económicas aunque no exista una venta externa.

Software

CUDA

Plataforma de NVIDIA para programación acelerada por GPU.

Su ecosistema influye en compatibilidad, rendimiento y disponibilidad de talento técnico.

Pricing

GPU-hour

Unidad comercial que representa una hora de uso de una GPU específica o de una clase de GPU.

Se usa para comparar precios, capacidad vendida y utilización. Debe interpretarse junto con memoria, red, almacenamiento y nivel de servicio.

Cargas de trabajo

inferencia

Ejecución de un modelo ya entrenado para producir respuestas, predicciones o contenido.

En términos comerciales, suele medirse por tokens, solicitudes, latencia o capacidad reservada.

Red

InfiniBand

Tecnología de red de alta velocidad y baja latencia usada en clusters de entrenamiento IA.

Es importante cuando las cargas necesitan comunicación intensiva entre GPUs.

Operación

Kubernetes

Plataforma para orquestar contenedores, servicios y recursos en clusters.

En infraestructura IA puede administrar servicios de inferencia, pipelines y cargas distribuidas.

Infraestructura

liquid cooling

Enfriamiento líquido para equipos de alta densidad térmica.

Gana importancia cuando la densidad de GPUs supera lo que el enfriamiento por aire puede manejar con eficiencia.

Operación

nvidia-smi

Herramienta de línea de comandos para observar y administrar GPUs NVIDIA.

Permite consultar memoria, procesos, temperatura, potencia y otros indicadores básicos.

Operación

Slurm

Sistema de planificación y administración de trabajos común en HPC y clusters de IA.

Ayuda a asignar recursos, colas y prioridades en ambientes de cómputo compartido.

Estrategia

sovereign AI

Capacidad de desarrollar y operar IA bajo control local, regulatorio o nacional.

Puede incluir datos, modelos, infraestructura, talento y cumplimiento dentro de una jurisdicción determinada.

Pricing

token pricing

Modelo de cobro basado en tokens procesados por un modelo de IA.

Puede separar tokens de entrada y salida, y convive con costos subyacentes de cómputo, memoria y aceleradores.

Operación

utilización

Porcentaje de capacidad disponible que está generando trabajo útil o facturable.

En GPU clouds, la utilización es una métrica financiera porque la capacidad ociosa no se recupera después.