DeepSeek y Tsinghua desarrollan modelos de IA automejorables

Este método tiene como objetivo ayudar a los modelos de IA a ajustarse mejor a los intereses humanos, recompensando las respuestas más precisas y coherentes.

DeepSeek y Tsinghua desarrollan modelos de IA automejorables.
Por Saritha Rai
07 de abril, 2025 | 11:08 PM

Bloomberg — DeepSeek está trabajando con la Universidad de Tsinghua con el objetivo de reducir el entrenamiento que requieren sus modelos de IA, en un esfuerzo por rebajar los costos operativos.

La startup de China, que sorprendió a los mercados con su modelo de razonamiento de bajo costo que se presentó en enero, ha colaborado con investigadores de la institución de Pekín en un documento en el que se describe un novedoso enfoque del aprendizaje de refuerzo para que los modelos sean más eficientes.

PUBLICIDAD

Ver más: Los inversionistas siguen llevando dinero a los ETF de IA, a pesar de retornos débiles

Fotógrafo: Andrey Rudakov/Bloomberg.

Este nuevo método tiene como objetivo ayudar a los modelos de IA a ajustarse mejor a los intereses humanos, recompensando las respuestas más precisas y coherentes, según los investigadores.

Se ha demostrado que el aprendizaje por refuerzo es efectivo para agilizar las tareas de inteligencia artificial en aplicaciones y ámbitos limitados.

No obstante, su expansión a aplicaciones más generales ha demostrado ser todo un reto, y ese es el desafío que el equipo de DeepSeek trata de resolver con lo que llama “ajuste crítico autodirigido” (self-principled critique tuning).

Según el documento, la estrategia superó a los métodos y modelos actuales en diversas pruebas de referencia y el resultado fue un mayor rendimiento con menos recursos informáticos.

DeepSeek ha denominado a estos nuevos modelos DeepSeek-GRM, la abreviatura de “generalist reward modeling” (modelado de recompensa generalista), y los lanzará en código abierto, según la empresa.

Ver más: Industria IA de China se acelera tras DeepSeek: ¿cómo afecta esto a sus rivales occidentales?

PUBLICIDAD

Otros desarrolladores de IA, entre ellos el gigante tecnológico chino Alibaba Group Holding Ltd. (BABA) y OpenAI, con sede en San Francisco, también se están aventurando en una nueva frontera para mejorar el razonamiento y las capacidades de perfeccionamiento automático mientras un modelo de IA realiza tareas en tiempo real.

Meta Platforms Inc. (META), con sede en Menlo Park, California, lanzó su última familia de modelos de IA, Llama 4, durante el fin de semana, convirtiéndose en la primera en utilizar la arquitectura Mixture of Experts (MoE).

Los modelos de DeepSeek dependen significativamente de MoE para optimizar el uso de los recursos, y Meta comparó su nueva versión con la de la startup con sede en Hangzhou. DeepSeek no ha especificado cuándo podría lanzar su próximo modelo estrella.

Lea más en Bloomberg.com