Casos de uso/Local y autoalojado

¿Qué modelo open-weight deberías autoalojar?

Autoalojar un modelo de lenguaje es la opción que los equipos descartan demasiado pronto y adoptan demasiado tarde. Se descarta con el argumento de que "va por detrás de la frontier alojada", cuando en realidad se podría estar ejecutando una calidad que era estado del arte hace doce meses, por una fracción del coste recurrente. La adopción acaba llegando de todas formas, normalmente en modo urgente tras una auditoría de cumplimiento que detecta un bloqueante en los términos de servicio de otro proveedor. Esta guía selecciona los cinco modelos open-weight sobre los que montaríamos un stack autoalojado hoy, y las dimensiones que determinan cuál encaja con tu hardware.

Rack de GPU autoalojado — imagen conceptual — El modelo open-weight correcto en la tarjeta correcta resulta más barato que cualquier alternativa alojada a escala.

Por qué el autoalojamiento merece una segunda oportunidad

El argumento contra los modelos open-weight solía ser sencillo: la frontier alojada va tan por delante que cualquier otra opción es una economía falsa. Ese argumento perdió fuerza trimestre a trimestre durante 2024 y 2025. Los modelos abiertos más potentes de hoy alcanzan el nivel que era el de los modelos estrella alojados hace un año, suficiente para casi cualquier workload de producción que no sea chat orientado al cliente. La brecha con el filo de la vanguardia sigue existiendo; la brecha con "lo suficientemente bueno" ha desaparecido.

La razón para optar por lo local rara vez es la calidad. Es la residencia de datos, el coste recurrente, la latencia en regiones que los grandes proveedores apenas cubren, y la posibilidad de ejecutar un modelo que no cambia bajo tus pies cuando el proveedor depreca una generación. Un equipo que procesa diez millones de documentos internos al mes para clasificación puede ahorrar seis cifras al año en infraestructura autoalojada frente al pago por token. Un equipo con datos regulados evita toda una pesadilla de procurement. Un equipo en una región con alta latencia hacia los centros de datos estadounidenses sirve a sus usuarios un orden de magnitud más rápido.

La ecuación de costes no es tan sencilla como "los pesos del modelo son gratis". Pagas por las GPU — compradas o alquiladas — y por las horas de ingeniería necesarias para operarlas. El punto de equilibrio depende del volumen de tokens: por debajo de roughly cien millones de tokens al mes, las API alojadas casi siempre ganan en coste total; por encima de mil millones, casi siempre gana el autoalojamiento. En el rango intermedio, los detalles específicos de la workload son los que deciden.

Cinco restricciones definen la elección: cuánta VRAM necesita el modelo a una calidad que puedas tolerar, los términos de licencia para tu caso de uso, la madurez del ecosistema circundante y la latencia que el modelo puede entregar realmente en tu hardware. El modelo correcto es el que cumple las cinco, no el que tiene el mejor benchmark en papel.

Stack de serving autoalojado — imagen conceptual — El stack de serving — vLLM, Ollama, llama.cpp — importa tanto como el modelo.

Las cinco dimensiones que determinan qué modelo encaja

Estos son los ejes con los que nuestra scorecard evalúa un modelo open-weight para autoalojamiento en producción. La ponderación relativa varía según el presupuesto de hardware, la jurisdicción y la tolerancia a los bordes rugosos del ecosistema, pero todo candidato serio debe superar un mínimo en los cinco.

01 — Compatibilidad con el hardware
¿Funciona en las tarjetas que tienes realmente?
Un modelo que necesita un nodo multi-GPU es una propuesta muy distinta a uno que funciona en una sola tarjeta de consumo. Calcula siempre los requisitos de VRAM a la cuantización que planeas desplegar y añade margen suficiente para la caché KV a la longitud de contexto objetivo. El error más barato es comprar demasiado hardware; el más caro es comprar demasiado poco.
02 — Calidad en cuantización
¿Cuánto pierde al nivel de cuant que puedes ajustar?
La cuantización intercambia calidad por memoria y velocidad. Algunos modelos aguantan bien los cuants de cuatro bits; otros se degradan notablemente por debajo de ocho. Los benchmarks de precisión completa publicados te dicen poco — mide al nivel de cuant que tu hardware permite realmente, y acepta que la respuesta puede invertir el ranking.
03 — Términos de licencia
¿Puedes usarlo de la forma que pretendes?
Los pesos abiertos no implican licencias abiertas. Algunos permiten un uso comercial amplio sin condiciones; otros incluyen umbrales de uso, cláusulas de atribución o restricciones de redistribución. Lee la licencia antes de construir, no después. Una licencia permisiva con algo menos de calidad suele ganar a una más restrictiva que tu equipo legal acabará vetando.
04 — Soporte del ecosistema
¿El stack de serving es crudo o maduro?
Un modelo con soporte de primer nivel en vLLM, Ollama y llama.cpp será órdenes de magnitud más barato de operar que uno que solo incluye un script de referencia y un README esperanzador. La madurez del tooling es el coste oculto que la mayoría de los equipos subestima; aparece en las horas de ingeniería que dedicas a los incidentes.
05 — Latencia en tu hardware
¿Genera lo suficientemente rápido para el caso de uso?
Un modelo autoalojado que produce diez tokens por segundo en la GPU que puedes permitirte es un modelo que no puedes usar para chat. Mide tokens-por-segundo bajo una concurrencia realista en exactamente la tarjeta que planeas desplegar; los números del H100 de otra persona no se transfieren a tu L40S.

Los 5 mejores picks de Tokonomix para autoalojamiento hoy

Lo que sigue es la selección que desplegaríamos realmente sobre metal la semana que viene. El autoalojamiento recompensa un tipo de selección distinto al del mundo de las API alojadas — el modelo principal correcto suele ser el más grande que aún deja margen en la GPU al nivel de cuant que puedes tolerar. Añade un segundo modelo más pequeño detrás de un router para las consultas que no necesitan el grande, y la economía empieza a girar a tu favor.

#1 · Referencia open-weightTier B

Meta-Llama-3_3-70B-Instruct

via OVH AI Endpoints (GRA)

El punto de partida de facto de cualquier discusión sobre modelos open-weight. Fuerte seguimiento de instrucciones, amplia cobertura lingüística y un ecosistema comunitario (Ollama, vLLM, llama.cpp) más profundo que cualquier alternativa. Requiere hardware serio — dos GPU de consumo o una tarjeta de datacenter — pero la calidad a esa escala lo justifica.

Entrada / 1M tokens: $0.6700
Salida / 1M tokens: $0.6700
Contexto: —

Perfil completo de benchmark →

#2 · Sweet spot para una sola GPUTier B

Qwen3-32B

via OVH AI Endpoints (GRA)

Encaja cómodamente en una sola GPU de gama alta de consumo a una cuantización razonable, con una calidad cercana al Llama más grande para la mayoría de las workloads. La elección correcta cuando el presupuesto es una tarjeta, no un cluster, y el inglés no es el único idioma que el modelo debe manejar bien.

Entrada / 1M tokens: $0.0800
Salida / 1M tokens: $0.2300
Contexto: —

Perfil completo de benchmark →

#3 · La opción europeaTier B

Mistral-Small-3.2-24B-Instruct-2506

via OVH AI Endpoints (GRA)

Pesos abiertos con licencia permisiva de un proveedor europeo, alojados en infraestructura con residencia en la UE y calibrados para idiomas que los modelos de origen estadounidense suelen cubrir superficialmente. Una opción natural para equipos cuyas reglas de contratación favorecen los modelos de origen europeo o cuyos usuarios hablan algo distinto al trío principal. Releer siempre la nota de licencia en la ficha del modelo antes de cualquier uso comercial.

Entrada / 1M tokens: $0.0900
Salida / 1M tokens: $0.2800
Contexto: —

Perfil completo de benchmark →

#4 · La contribución abierta de GoogleTier C

gpt-oss-120b

via OVH AI Endpoints (GRA)

Modelo de instrucción de propósito general con licencia permisiva y buen soporte multimodal en las variantes con visión. Más pequeño que los flagships de Llama y Qwen pero rinde muy por encima de su tamaño; una opción por defecto sensata cuando la madurez del ecosistema importa más que perseguir el tope absoluto del ranking.

Entrada / 1M tokens: $0.0800
Salida / 1M tokens: $0.4000
Contexto: —

Perfil completo de benchmark →

Referencia de precio alojado (cuando no te autoalojas)

El autoalojamiento es una opción; la otra es comprar inferencia a un proveedor que ejecuta los mismos modelos open-weight en tu nombre. El gráfico muestra el precio alojado en vivo por millón de tokens de salida para los picks que publican uno — útil como verificación de coherencia para tus propios cálculos de economía de unidad en autoalojado.

Meta-Llama-3_3-70B-Instruct$0.6700

Qwen3-32B$0.2300

Mistral-Small-3.2-24B-Instruct-2506$0.2800

gpt-oss-120b$0.4000

Precio por 1M tokens de salida, USD, publicado por un proveedor de inferencia que aloja el modelo. Los modelos sin precio alojado publicado están excluidos. Fuente: precios de proveedores en vivo seguidos por Tokonomix.

Panel de utilización de GPU — imagen conceptual — La métrica que importa es tokens-por-segundo por dólar, medida en tu propio hardware.

Guía de campo: qué modelo para qué hardware

La asignación siguiente es la que usaríamos para asesorar a un equipo que elige su primer modelo autoalojado. Trátala como punto de partida, no como veredicto — medir tokens-por-segundo en tu propia GPU supera cualquier recomendación general.

Pattern A

GPU de consumo única (24-32 GB VRAM)

Estación de trabajo o portátil de desarrollador con una sola tarjeta potente. Mistral Small 3.2 o Qwen3-32B en cuant de cuatro bits ofrecen la mejor calidad por tarjeta en este rango. Serving mediante Ollama para facilidad de uso o vLLM para mayor throughput.

Pattern B

Nodo de inferencia de datacenter

Una L40S, A100 o H100 dedicada a inferencia. Llama 3.3 70B es el estándar seguro; pasa a gpt-oss-120b si la brecha de calidad importa y el hardware lo soporta. vLLM con atención paginada para el serving.

Pattern C

Solo CPU o dispositivo edge

Dispositivo embebido, modo privacidad en portátil o servidor sin GPU. Limítate a modelos pequeños — Gemma 3 4B o Mistral 7B — servidos mediante llama.cpp. Fija expectativas realistas: la calidad no igualará un modelo alojado de tier A.

Pattern D

Inferencia open-weight gestionada

Quieres la licencia y procedencia de los modelos abiertos sin operar las GPU tú mismo. Proveedores como OVH AI Endpoints sirven Llama, Mistral, Qwen y Gemma en infraestructura con residencia en la UE con precios por token — un punto intermedio entre el autoalojamiento completo y la frontier alojada.

Configuración de ops autoalojado — imagen conceptual — La carga operativa es real — presupuesta tiempo de ingeniería, no solo tiempo de GPU.

Haz benchmarks en tu propio hardware antes de comprometerte

Consigue la GPU que planeas desplegar. Carga dos candidatos al nivel de cuant que realmente vas a usar — no la versión de precisión completa en un H100 prestado — y pasa los mismos cien prompts por ambos a una concurrencia realista. Aprenderás más en una tarde sobre cuál te conviene que lo que cualquier página de benchmarks puede decirte en un trimestre.

Luego lee lo que sale. ¿Soportó la cuantización? ¿Aguantó el throughput bajo carga concurrente? ¿Sobrevivió la licencia a la primera lectura de tu equipo legal? ¿Tu stack de serving lo trata como ciudadano de primera clase o como un añadido? El modelo que gane en tu hardware es el que va a producción — aunque ningún ranking lo ponga arriba.

Abrir la herramienta de test en vivo →