Discusión sobre este post

Avatar de User
Avatar de Alberto Merino Rivero

Me quito el sombrero ante tu artículo, querido Samuel.

Me parece que has hecho una excelente narrativa de los hechos ocurridos y porqué han pasado, de forma que cualquier persona principiante en este tema que supo de Deepseek ayer por la tarde en un post chapucero de LinkedIn, como yo, pueda con tu ayuda comprender de una mejor manera los hechos y por qué es un tema que ha recibido tanta atención y horas de escritura.

No paso por alto el repaso de conceptos básicos de IA que has hecho, el cual me ha permitido darme cuenta de todo lo que no sé y mejora la base de conocimientos que ya tenía los minutos previos al leer tu artículo.

Justo una hora antes de leer tu artículo, me había expuesto a otro artículo sobre Deepseek, pero este tampoco se centraba en explicar los detalles de la optimización de chips, o investigar sobre si DeepSeek no ha partido desde cero o ha utilizado como entrada la salida de OpenAI para aportar una tenue luz al debate. Nada de eso. Ese artículo se centraba en identificar y desarrollar los principios fundamentales y patrones que cumple el caso de DeepSeek para que los podamos transferir luego a cualquier ámbito de nuestras vidas.

Te lo nombro Samuel porque, mientras tú mencionas los motivos del logro de dicha startup china, como el impedimento del chip ban a China como cuna de la innovación o el descubrimiento de un camino que parecía imposible, el autor de este otro artículo se dedica a desarrollar los hechos que identificas explicando de manera sublime cómo la restricción que parecía condenarlos a ir por detrás se convirtió en la chispa de su ventaja competitiva o cómo pudieron recorrer un camino que era imposible.

Ambos usáis la noticia de Deepseek, no para escribir un nuevo bloque de texto más sobre los detalles, lo técnico, etc. Sino para aportar un enfoque completamente distinto, fresco y enriquecedor. Desde la narrativa de los hechos, tú la complementas con una excelente base de IA, y esta otra persona, con la identificación y desarrollo de los patrones y principios fundamentales, logra que de igual el momento en el que leamos los elementos que expone porque son útiles de manera indefinida o, al menos, durante mucho tiempo.

Me han gustado tanto ambos artículos, y sobretodo, me ha parecido tan fascinante como vuestros artículos se complementan tan bien, que como lector de ambos me hubiese gustado que ambos artículos se pudieran fusionar en uno sólo como he visto que hacen otros escritores cuando colaboran entre ellos. Pero esto sé que es fácil pedirlo desde el lado del consumidor.

Muchas gracias Samuel por dedicarle un artículo a esta noticia y usarla para explicar conceptos los conceptos básicos de IA, que personalmente creo que la mayoría no dominamos tanto como tú, aunque a lo mejor estoy proyectando mi bajo conocimiento sobre este tema en el resto de personas. Al menos tu explicación sobre la tokenización me ha ayudado a despejar dudas que aún mantenía en mi cabeza.

Sobre el artículo que te menciono, te dejo el enlace a él en el final de este mensaje para que puedas poner a prueba lo que digo y verificar que ves el mismo talento y valor que yo detecto en sus líneas. Si llegas a echarle un ojo me gustaría conocer, como lector tuyo, tu opinión sobre ese artículo que aprovecha el caso de Deepseek para aportar algo nuevo, único y valioso para todos. Que sepas que ya he hecho un comentario similar a esta persona sobre tu artículo, a ver si así puedo daros mi agradecimiento en forma de intento de conexión, creo que virtuosa, más que en meras palabras.

Y perdona por el textaco.

Un abrazo.

https://josefortes.substack.com/p/56-deepseek-presion-darwiniana-restricciones-lo-imposible-y-la-innovacion

Ver comentario completo
Avatar de Agustin

Felicidades por el artículo. Normalmente no es habitual encontrar explicaciones de cómo funciona la IA con la claridad y con los matices importantes que aquí he visto. Las explicaciones en muchos sitios la siguen dejando como una caja negra y abstracta. El resto del artículo también muy aclaratorio, poniendo sobre la mesa muchos elementos para que cada uno haga su propio chain-of-thought :)

Si me permites un complemento, esta arquitectura de transformer permite procesar los token de un prompt en paralelo (los modelos iniciales eran secuenciales), por eso las GPU de NVIDIA subieron tanto de valor, es como una CPU pero con una arquitectura que permite realizar muchas operaciones en paralelo, hasta ahora el caso clásico era el procesamiento gráfico.

Ver comentario completo
18 comentarios más...

Sin posts

Por supuesto, sigue adelante.