Entrevista con el fundador de Deepseek: “Ya no seguimos a nadie.”

An Yong (The China Academy), 8 de Febrero de 2025

Silicon Valley se tambalea. Se está produciendo un cambio radical en el dominio de la IA y todas las miradas están puestas en China. En enero de 2025, DeepSeek-R1 (un modelo de inferencia de código abierto de la firma china de IA DeepSeek) causó una conmoción en el mundo tecnológico al igualar el rendimiento de primer nivel de OpenAI a 1/30 del costo de la API, todo ello mientras adoptaba una apertura total.

Con apenas 6 millones de dólares, China construyó uno de los mejores modelos de inteligencia artificial del mundo, eclipsando los miles de millones gastados por Meta, Google y Microsoft. Los usuarios globales, especialmente particulares y pymes, ya están recurriendo en masa a DeepSeek-R1 y lo están reentrenando como su modelo fundacional.

Esta revolución liderada por Oriente está forzando un ajuste de cuentas global: ¿qué pasaría si el futuro de la IA no se forjara en Silicon Valley?

El siguiente artículo es nuestra traducción de una entrevista de julio de 2024 con LW, fundador de DeepSeek, realizada originalmente por el medio de comunicación chino An Yong y publicada en chino. La entrevista se realizó poco después de que el modelo V2 de código abierto de la empresa la catapultara a la fama y revela cómo una startup china se atrevió a superar a los gigantes de la industria y redefinir las reglas de la innovación.

¿Cómo se disparó el primer tiro en la guerra de precios?

An Yong (entrevistador): Después del lanzamiento del modelo DeepSeek V2, rápidamente se desencadenó una feroz guerra de precios en la industria de los modelos grandes. Algunos dicen que usted es un disruptor en el mercado.

Liang Wenfeng (fundador de DeepSeek) : Nunca tuvimos la intención de ser disruptores; simplemente sucedió por accidente.

AY: ¿Le sorprendió este resultado?

LW: Muy sorprendido. No esperábamos que el precio fuera un tema tan delicado. Simplemente seguimos nuestro propio ritmo, calculamos los costes y fijamos los precios en consecuencia. Nuestro principio no es vender a pérdida ni buscar beneficios excesivos. Los precios actuales permiten un margen de beneficio modesto por encima de nuestros costes.

AY: Cinco días después, Zhipu AI siguió su ejemplo y, poco después, ByteDance, Alibaba, Baidu y Tencent se unieron a la carrera.

LW: Zhipu AI redujo los precios de un producto básico, mientras que sus modelos estrella siguen siendo caros. ByteDance fue el primero en igualar realmente nuestro precio para un modelo estrella, lo que luego presionó a otros para que siguieran su ejemplo. Como las grandes empresas tienen costos de modelos mucho más altos que nosotros, nunca imaginamos que alguien operaría con pérdidas. Terminó reflejando la lógica impulsada por los subsidios de la era de Internet.

AY: Desde la perspectiva de un extraño, los recortes de precios parecen una táctica para atraer usuarios, algo típico de la competencia en la era de Internet.

LW: Captar usuarios no era nuestro objetivo principal. Redujimos los precios porque, en primer lugar, al explorar estructuras de modelos de próxima generación, nuestros costos disminuyeron; en segundo lugar, creemos que los servicios de IA y API deben ser asequibles y accesibles para todos.

AY: Antes de esto, la mayoría de las empresas chinas simplemente copiaban la estructura del modelo Llama para desarrollar aplicaciones. ¿Por qué decidieron centrarse en la estructura del modelo?

LW: Si el objetivo es desarrollar aplicaciones, adoptar la estructura de Llama para lanzar rápidamente un producto es una opción razonable. Sin embargo, nuestro objetivo es la AGI (inteligencia artificial general), que requiere que exploremos nuevas estructuras de modelos para lograr capacidades superiores con recursos limitados. Esta es una investigación fundamental para la ampliación. Más allá de la arquitectura, hemos estudiado la conservación de datos y el razonamiento similar al humano, todo ello reflejado en nuestros modelos. Además, la eficiencia de entrenamiento y los costos de inferencia de Llama están por detrás de los estándares globales de vanguardia en aproximadamente dos generaciones.

AY: ¿De dónde viene esta brecha generacional?

LW: En primer lugar, existe una brecha en la eficiencia del entrenamiento. Calculamos que los mejores modelos de China probablemente requieren el doble de potencia de cómputo para igualar a los mejores modelos mundiales debido a brechas estructurales y de dinámica de entrenamiento. La eficiencia de los datos también es la mitad de efectiva, lo que significa que necesitamos el doble de datos y cómputo para obtener resultados equivalentes. En conjunto, eso supone cuatro veces más recursos. Nuestro objetivo es reducir continuamente estas brechas.

AY: La mayoría de las empresas chinas se dedican tanto a modelos como a aplicaciones. ¿Por qué DeepSeek se centra únicamente en la investigación?

LW: Porque creemos que lo más importante en este momento es participar en la innovación global. Durante años, las empresas chinas se han acostumbrado a aprovechar las innovaciones tecnológicas desarrolladas en otros lugares y monetizarlas a través de aplicaciones. Pero esto no es sostenible. Esta vez, nuestro objetivo no son las ganancias rápidas, sino avanzar en la frontera tecnológica para impulsar el crecimiento del ecosistema.

AY: La creencia predominante en las eras de Internet y de Internet móvil es que Estados Unidos lidera en innovación, mientras que China sobresale en aplicaciones.

LW: Creemos que, con el desarrollo económico, China debe pasar gradualmente de ser un beneficiario a un contribuyente, en lugar de seguir aprovechándose de los avances de otros. Durante los últimos 30 años de revolución de las tecnologías de la información, apenas participamos en la innovación tecnológica fundamental.

Nos hemos acostumbrado a que la Ley de Moore “caiga del cielo”: esperar 18 meses para obtener un mejor hardware y software. La Ley de Escalabilidad se trata de manera similar. Sin embargo, estos avances son el resultado de generaciones de esfuerzos incansables por parte de las comunidades tecnológicas lideradas por Occidente. Como no hemos participado activamente en este proceso, hemos pasado por alto su importancia.

La verdadera brecha está en la originalidad, no sólo en el tiempo

AY: ¿Por qué DeepSeek V2 sorprendió a muchos en Silicon Valley?

LW: Entre las innovaciones cotidianas en Estados Unidos, esto es bastante común. La sorpresa surge al ver que una empresa china se suma a su juego como innovadora, no solo como seguidora, que es a lo que están acostumbradas la mayoría de las empresas chinas.

AY: Pero en el contexto de China, priorizar la innovación pura parece casi un lujo. Desarrollar modelos a gran escala requiere mucho capital. No todas las empresas pueden permitirse el lujo de centrarse únicamente en la investigación sin comercializar primero.

LW: Sin duda, la innovación es costosa y nuestra tendencia anterior a adoptar tecnologías existentes estaba ligada a la etapa de desarrollo más temprana de China. Pero hoy, la escala económica de China y las ganancias de gigantes como ByteDance y Tencent son significativas a nivel mundial. Lo que nos falta no es capital, sino confianza y la capacidad de organizar talentos de alto calibre para una innovación eficaz.

AY: ¿Por qué las empresas chinas, incluso los gigantes bien financiados, a menudo priorizan la comercialización rápida?

LW: Durante tres décadas, hemos puesto el énfasis en las ganancias por encima de la innovación. La innovación no es una cuestión puramente empresarial; requiere curiosidad y ambición creativa. Estamos atados a viejos hábitos, pero esta es una etapa.

AY: Pero DeepSeek es una empresa, no un laboratorio de investigación sin fines de lucro. Si innovas y publicas en código abierto tus avances (como la innovación de arquitectura MLA que se lanzará en mayo), ¿no los copiarán rápidamente los competidores? ¿Dónde está tu foso?

LW: En el campo de la tecnología disruptiva, las ventajas del código cerrado son efímeras. Ni siquiera el modelo de código cerrado de OpenAI puede impedir que otros se pongan al día.

Por lo tanto, nuestra verdadera fortaleza radica en el crecimiento de nuestro equipo: acumular conocimientos y fomentar una cultura innovadora. La publicación de artículos y el acceso abierto a fuentes no se traducen en pérdidas significativas. Para los tecnólogos, que los sigan es una recompensa. El acceso abierto a fuentes es cultural, no solo comercial. Devolver es un honor y atrae talento.

AY: ¿Cómo responde a opiniones impulsadas por el mercado como las de Zhu Xiaohu (que aboga por priorizar la comercialización inmediata por sobre la investigación fundamental en IA y descarta la IAG por considerarla poco práctica)?

LW: La lógica de Zhu se adapta a las empresas que buscan ganancias a corto plazo, pero las empresas estadounidenses más rentables de forma duradera son los gigantes tecnológicos basados en la I+D a largo plazo.

AY: Pero en IA, el liderazgo puramente técnico no es suficiente. ¿A qué objetivo más amplio apuesta DeepSeek?

LW: Creemos que la inteligencia artificial china no puede seguir siendo un seguidor para siempre. A menudo decimos que hay una brecha de uno o dos años entre la inteligencia artificial china y la estadounidense, pero la brecha real es entre la originalidad y la imitación. Si esto no cambia, China siempre será un seguidor. Algunas exploraciones son inevitables.

El dominio de NVIDIA no es solo resultado de su esfuerzo, sino también de la colaboración entre los ecosistemas tecnológicos occidentales en la elaboración de planes para la tecnología de próxima generación. China necesita ecosistemas similares. Muchos chips nacionales fracasan porque carecen de comunidades tecnológicas que los respalden y dependen de información de segunda mano. Alguien debe dar el paso.

Más inversión no siempre genera más innovación

AY: DeepSeek actualmente transmite un aire idealista que recuerda a los primeros días de OpenAI, y ustedes son de código abierto. ¿Planean hacer la transición a un modelo de código cerrado en el futuro, como lo han hecho OpenAI y Mistral?

LW: No vamos a utilizar código cerrado. Creemos que es más importante establecer un ecosistema tecnológico sólido.

AY: ¿Hay planes para recaudar fondos? Los informes de los medios sugieren que Huanfang ¹ tiene como objetivo escindir DeepSeek para una oferta pública inicial. Las empresas emergentes de inteligencia artificial de Silicon Valley inevitablemente se alinean con los grandes actores. ¿Seguirás su ejemplo?

LW: No tenemos planes a corto plazo. Nuestro desafío nunca ha sido el dinero, sino el embargo a los chips de alta gama.

AY: Muchos sostienen que la IAG requiere alianzas audaces y visibilidad, a diferencia de la inversión cuantitativa, que prospera en secreto. ¿Está de acuerdo?

LW: Más inversión no necesariamente se traduce en más innovación. Si así fuera, las grandes empresas tecnológicas habrían monopolizado toda la innovación.

AY: ¿Está evitando aplicaciones porque DeepSeek carece de experiencia operativa?

LW: Creemos que la etapa actual es un período de innovación tecnológica, no de explosión de aplicaciones. A largo plazo, nuestro objetivo es establecer un ecosistema en el que la industria utilice directamente nuestras tecnologías y resultados. Otros desarrollan servicios B2B/B2C sobre nuestros modelos mientras nosotros nos centramos en la investigación fundamental. Si se forma una cadena industrial completa, no es necesario que desarrollemos aplicaciones nosotros mismos. Dicho esto, si es necesario, somos plenamente capaces de hacerlo. Sin embargo, la investigación y la innovación siempre seguirán siendo nuestra máxima prioridad.

AY: ¿Por qué los clientes elegirían la API de DeepSeek en lugar de la de los grandes actores?

LW: El mundo del futuro probablemente será uno de división especializada del trabajo. Los modelos de IA básicos requieren innovación continua y las grandes empresas tienen sus límites: puede que no siempre sean las más adecuadas para esta función.

AY: Pero ¿puede la tecnología por sí sola crear una brecha competitiva significativa? Usted ha dicho que no existen “secretos” absolutos.

LW: Los secretos no existen, pero la replicación lleva tiempo y dinero. Las GPU NVIDIA no tienen magia oculta, pero para ponerse al día es necesario reconstruir los equipos y buscar la tecnología de próxima generación. Ese es el verdadero reto.

AY: Después de la reducción de precios, ByteDance fue la primera en seguir su ejemplo, lo que sugiere que se sentían amenazados. ¿Cómo ve el nuevo panorama competitivo entre las empresas emergentes y los gigantes?

LW: Para ser honestos, no nos importa mucho. Bajar los precios fue algo que hicimos sobre la marcha. Brindar servicios en la nube no es nuestro objetivo principal, sino lograr la inteligencia artificial general. Hasta ahora, no hemos visto ninguna solución innovadora. Los gigantes tienen usuarios, pero sus vacas lecheras también los encadenan, lo que los hace propensos a la disrupción.

AY: ¿Cómo crees que será el futuro de las otras seis grandes empresas emergentes de inteligencia artificial en China?

LW: Tal vez sobrevivan dos o tres. Todas están quemando efectivo ahora. Las que tengan un enfoque claro y una disciplina operativa perdurarán. Las demás cambiarán de rumbo. El valor nunca desaparece; adoptará nuevas formas.

AY: ¿Cuál es tu filosofía central cuando se trata de competencia?

LW: Me centro en si algo eleva la eficiencia social y si podemos encontrar nuestra fortaleza en la cadena de valor de la industria. Mientras el objetivo final sea aumentar la eficiencia, es válido. Muchos aspectos son solo fases temporales; centrarse demasiado en ellos solo generará confusión. Modelo V2: construido íntegramente por talento local

AY: ack Clark, exdirector de políticas de OpenAI y cofundador de Anthropic, comentó que DeepSeek ha contratado a “algunos de esos magos inescrutables” que crearon DeepSeek V2. ¿Qué define a estas personas?

LW: Aquí no hay “magos inescrutables”, solo recién graduados de las mejores universidades, candidatos a doctorado (incluso pasantes de cuarto o quinto año) y jóvenes talentos con algunos años de experiencia.

AY: Muchas de las principales empresas de inteligencia artificial están interesadas en contratar talentos extranjeros. Algunos creen que es poco probable que los 50 mejores talentos de inteligencia artificial del mundo trabajen para empresas chinas. ¿De dónde proviene su equipo?

LW: V2 fue creado íntegramente por talentos nacionales. Es posible que los 50 mejores del mundo no estén en China hoy en día, pero nuestro objetivo es cultivar el nuestro.

AY: ¿Cómo surgió la innovación de MLA? Nos dijeron que la idea surgió inicialmente del interés personal de un joven investigador.

LW: Después de resumir los patrones evolutivos clave de la arquitectura de atención dominante, tuvo una repentina inspiración para diseñar una alternativa. Sin embargo, convertir una idea en realidad es un largo camino. Reunimos un equipo y pasamos meses validándolo.

AY: Este tipo de creatividad orgánica parece estar ligada a su estructura organizativa plana. En Huanfang, evitaron los mandatos de arriba hacia abajo. Pero en el caso de la IAG (una frontera de alta incertidumbre), ¿imponen más gestión?

LW: DeepSeek sigue siendo un proceso totalmente de abajo hacia arriba. Tampoco asignamos funciones de antemano; surge una división natural del trabajo. Todos aportan experiencias e ideas únicas y no es necesario presionarlos. Cuando se enfrentan a desafíos, naturalmente invitan a otros a participar en las discusiones. Sin embargo, una vez que una idea muestra potencial, asignamos recursos de arriba hacia abajo.

AY: Hemos escuchado que DeepSeek opera con una notable flexibilidad en la asignación de recursos informáticos y personal.

LW: No hay límites para acceder a los recursos informáticos ni a los miembros del equipo. Si alguien tiene una idea, puede acceder a nuestros clústeres de capacitación en cualquier momento sin necesidad de aprobación. Además, dado que no tenemos estructuras jerárquicas rígidas ni barreras departamentales, las personas pueden colaborar libremente siempre que exista un interés mutuo.

AY: Esta gestión flexible se basa en la contratación de personas muy motivadas. Se dice que DeepSeek se destaca en la identificación de talentos excepcionales basándose en criterios no tradicionales.

LW: Nuestros estándares de contratación siempre se han basado en la pasión y la curiosidad. Muchos de los miembros de nuestro equipo tienen antecedentes únicos e interesantes. Su afán por la investigación supera con creces las preocupaciones monetarias.

AY: Transformer nació en el laboratorio de inteligencia artificial de Google y ChatGPT surgió de OpenAI. En su opinión, ¿en qué se diferencian los laboratorios de inteligencia artificial corporativos de las empresas emergentes a la hora de fomentar la innovación?

LW: Ya sean los laboratorios de Google, OpenAI o incluso los laboratorios de inteligencia artificial de los gigantes tecnológicos chinos, todos aportan un valor significativo. El hecho de que OpenAI finalmente haya generado avances fue en parte una casualidad histórica.

AY: ¿Entonces la innovación es en gran medida una cuestión de azar? La distribución de su oficina incluye salas de reuniones con puertas que se pueden abrir fácilmente por ambos lados. Sus colegas mencionaron que este diseño permite la “serendipia”, algo que recuerda a la historia de Transformers, donde un transeúnte escuchó una discusión y ayudó a darle forma a un marco universal.

LW: Creo que la innovación es, ante todo, una cuestión de creencias. ¿Por qué Silicon Valley es tan innovador? Porque se atreve a intentarlo. Cuando ChatGPT debutó, China no tenía confianza en la investigación de vanguardia. Desde los inversores hasta las grandes empresas tecnológicas, muchos sentían que la brecha era demasiado amplia y se centraban en cambio en las aplicaciones. Pero la innovación requiere confianza, y los jóvenes tienden a tener más confianza.

AY: A diferencia de otras empresas de inteligencia artificial que buscan activamente financiación y atención de los medios, DeepSeek se mantiene relativamente en silencio. ¿Cómo se asegura de que DeepSeek se convierta en la primera opción para quienes buscan trabajar en inteligencia artificial?

LW: Porque estamos abordando los problemas más difíciles. Lo más atractivo para los talentos de primer nivel es la oportunidad de resolver los desafíos más difíciles del mundo. De hecho, los mejores talentos en China suelen ser subestimados porque la innovación radical es escasa, lo que significa que rara vez son reconocidos. Nosotros ofrecemos lo que anhelan.

AY: El reciente evento OpenAI no incluyó GPT-5, lo que llevó a muchos a creer que la curva tecnológica de la industria se está desacelerando y algunos han comenzado a cuestionar la Ley de Escalamiento. ¿Cuál es su perspectiva?

LW: Seguimos siendo optimistas. El progreso de la industria sigue estando en línea con las expectativas. OpenAI no es divino; no pueden liderar eternamente.

AY: ¿Cuánto tiempo cree que se necesitará para lograr la inteligencia artificial general? Antes de la versión 2, lanzó modelos de código y matemáticas y pasó de la inteligencia densa a la inteligencia artificial general. ² ¿Cuál es su hoja de ruta?

LW: Podría llevar dos, cinco o diez años, pero lo haremos en el transcurso de nuestras vidas. En cuanto a nuestra hoja de ruta, no hay consenso ni siquiera dentro de nuestra empresa. Sin embargo, estamos apostando por tres direcciones:

Las matemáticas y el código, que sirven como un banco de pruebas natural para la IAG, al igual que Go, son sistemas cerrados y verificables donde el autoaprendizaje podría conducir a una alta inteligencia.
Multimodalidad , donde la IA interactúa con el mundo real para aprender.
El lenguaje natural en sí mismo, que es fundamental para una inteligencia similar a la humana.

Estamos abiertos a todas las posibilidades.

AY: ¿Cuál imagina usted que será el resultado final para los grandes modelos de IA?

LW: Habrá empresas especializadas que ofrecerán modelos y servicios básicos, formando una larga cadena de valor de divisiones especializadas. Surgirán más actores para satisfacer las diversas necesidades de la sociedad sobre la base de estos cimientos.

Todas las estrategias son productos del pasado

AY: Durante el último año, el panorama de las grandes empresas emergentes de China ha experimentado muchos cambios. Por ejemplo, Wang Huiwen, ³ que fue muy activa al principio, se retiró a mitad de camino, mientras que los nuevos participantes están empezando a diferenciarse.

LW: Wang Huiwen asumió todas las pérdidas, lo que permitió que otros salieran ilesos. Tomó una decisión que fue desfavorable para él, pero beneficiosa para todos los demás. Realmente admiro su integridad.

AY: ¿Dónde concentras actualmente la mayor parte de tu energía?

LW: Mi principal objetivo es investigar la próxima generación de modelos de gran tamaño. Aún quedan muchos desafíos sin resolver.

AY: Muchas otras empresas emergentes de IA insisten en equilibrar tanto el desarrollo de modelos como las aplicaciones, ya que los liderazgos técnicos no son permanentes. ¿Por qué DeepSeek confía en centrarse únicamente en la investigación? ¿Es porque sus modelos aún están rezagados?

LW: Todas las estrategias son productos de la generación pasada y pueden no ser válidas en el futuro. Analizar la rentabilidad futura de la IA utilizando la lógica comercial de la era de Internet es como comparar los primeros días de Tencent con los de General Electric o Coca-Cola: es básicamente como cortar un barco para marcar la posición de una espada, un enfoque obsoleto.

AY: Huanfang tenía genes tecnológicos e innovadores fuertes y su crecimiento parecía relativamente tranquilo. ¿Es por eso que sigue siendo optimista?

LW: Huanfang, en cierta medida, fortaleció nuestra confianza en la innovación impulsada por la tecnología, pero no todo fue un camino de rosas. Pasamos por un largo proceso de acumulación. La gente solo vio lo que sucedió después de 2015, pero en realidad, habíamos estado trabajando en ello durante 16 años.

AY: Regreso a la innovación original: con la desaceleración de la economía y el enfriamiento del capital, ¿esto sofocará la I+D innovadora?

LW: No necesariamente. La reestructuración del panorama industrial de China dependerá cada vez más de la innovación en tecnologías avanzadas. A medida que desaparezcan las oportunidades de obtener ganancias rápidas, más personas adoptarán la innovación real.

AY: ¿Entonces eres optimista sobre esto?

LW: Crecí en los años 80 en una ciudad de quinta categoría de Guangdong. Mi padre era maestro de escuela primaria. En los años 90, había muchas oportunidades de ganar dinero en Guangdong. Muchos padres venían a nuestra casa y decían que estudiar era inútil. Pero, mirando hacia atrás, las perspectivas han cambiado. Ganar dinero no es tan fácil como antes; ni siquiera conducir un taxi es una opción viable. En tan solo una generación, las cosas han cambiado.

La innovación de alto nivel no hará más que aumentar en el futuro. Hoy en día, no se entiende ampliamente porque la sociedad en su conjunto necesita aprender de la realidad. Cuando esta sociedad comience a celebrar el éxito de los innovadores de la tecnología profunda, las percepciones colectivas cambiarán. Solo necesitamos más ejemplos del mundo real y tiempo para permitir que ese proceso se desarrolle.

Referencias:

Huanfang: una empresa de inversión cuantitativa y uno de los primeros patrocinadores de DeepSeek.
MoE: Mixture of Experts, una arquitectura que mejora la eficiencia del modelo activando subredes especializadas.
Wang Huiwen: cofundador de Meituan, que ingresó brevemente a la carrera de la IA en 2023 antes de retirarse.

Gaceta Crítica