27 de marzo de 2026
En la 💊 formativa de hoy viernes: jimmy chatbot basado en un modelo tipo LLaMA (aunque no sea lo último) sirve para una demo muy clara: ver hasta qué punto la velocidad de inferencia cambia la percepción de “inteligencia”.
Con hardware especializado, cuantización y buen serving, puedes conseguir respuestas casi instantáneas. Ideal para comentar trade-offs: calidad vs latencia, batch vs streaming, y por qué el tiempo de respuesta suele ganar.