miércoles, julio 24, 2024

Meta estaba perdiendo la carrera de la IA: acaba de dar un giro de 180 grados con el anuncio de su chip especializado

Cuando Facebook, Inc. se convirtió en Meta Platforms, Inc. en octubre de 2021, a menos que tuviese la extraordinaria capacidad de vislumbrar el futuro, Mark Zuckerberg posiblemente no se imaginaba que su ambiciosa apuesta por el metaverso se toparía con un obstáculo monumental aproximadamente un año más tarde.

En noviembre de 2022 OpenAI presentó ChatGPT y en cuestión de días casi todo el mundo estaba hablando de las características del chatbot conversacional. Para muchos este movimiento fue el punto de partida de una carrera por liderar en el campo de la inteligencia artificial que sacudió fuertemente a la industria tecnológica.

Algunas compañías se encontraban en una posición más favorable que otras. Microsoft, indudablemente, era una de ellas. Los de Redmond habían invertido 1.000 millones de dólares en la compañía dirigida por Sam Altman en 2019 y, al ver lo que estaba sucediendo, volvieron a sacar la chequera, esa vez por 10.000 millones de dólares.

El gran cambio de Meta

A todo esto, Meta seguía quemando una fortuna en el metaverso, una idea a largo plazo que se presentaba con numerosos desafíos. Para alcanzar los resultados deseados hacían falta importantes avances en en el campo de la realidad virtual y aumentada. Se tenía que desarrollar un modelo de negocio sólido. Y, por último, tardaría años en ser rentable.

Las oportunidades, aparentemente, estaban en el mundo de la inteligencia artificial, pero en el más alto nivel. Y no es que la compañía de redes sociales no hubiera tenido experiencia en este sector, por ejemplo, sus sistemas de recomendación de contenidos y su plataforma publicitaria se sostienen principalmente por algoritmos avanzados.

Sino que su capacidad para demostrar avances significativos para desarrollar modelos de lenguaje de próxima generación estaba un paso atrás. Según documentos vistos por Reuters, la infraestructura de la compañía necesitaba cambios sustanciales para ponerse al día mientras el uso en producción de un chip de IA propio no cuajaba del todo.

Las filtraciones señalan que el golpe de timón definitivo se concretó a finales del verano de 2022, pero ahora es cuando empezamos a ver los resultados. Aunque Meta asegura que sigue comprometida con el metaverso, demuestra claramente un fuerte enfoque hacia la IA, con proyectos que incluyen a los algoritmos generativos y más allá.

Este jueves, Zuckerberg ha dado a conocer cuatro novedades pensadas para “impulsar las nuevas experiencias” de inteligencia artificial de Meta. Ha abierto el telón para exhibir la actualización de su centro de datos de IA existente, el Research SuperCluster, un nuevo chip de diseño propio, el diseño de un nuevo centro de datos y un asistente de programación. Nos enfocaremos en los tres primeros.

Centro de datos propio, con tecnología de NVIDIA

En enero del año pasado nos enteramos que Meta estaba desarrollado desde hace más de un año un centro de datos de IA que prometía convertirse en uno de los más potentes de su tipo. Al igual que muchos proyectos de similares características, la construcción del denominado AI Research SuperCluster (SRC) se planificó de manera gradual y por etapas.

La segunda fase del SRC, que estaba programada para entrar en funcionamiento a mediados de 2022, acaba de ser finalizada. Meta ha hecho algunos ajustes en su diagrama para intentar alcanzar casi 5 ExaFLOPS de potencia de cálculo a pleno funcionamiento. Todo esto gracias a un enraizado y carísimo hardware desarrollado por NVIDIA.

En este ambicioso centro de datos de la compañía de Menlo Park encontramos 2.000 sistemas NVIDIA DGX A100 que incorporan 16.000 potentes unidades de procesamiento gráfico NVIDIA A100 lanzada en 2020. Todo esto bajo el paraguas del sistema de interconexión de alto rendimiento NVIDIA Quantum InfiniBand de 16 Tb/s.

Como decimos, el SRC se encuentra en funcionamiento desde hace tiempo, por lo que ha sido utilizado por la compañía para diferentes proyectos de investigación. Entre ellos encontramos a LLaMA, el gran modelo de lenguaje que fue anunciado al público a principios de este año.   Una especie de competencia a los sistemas generativos GPT de OpenAI.

Se espera que este centro de datos, con la actualización que acaba de recibir, se convierta en uno de los protagonistas de los próximos pasos de Meta. La compañía asegura que lo seguirá utilizando para entrenar modelos de lenguaje e incluso explorar otras áreas de la IA generativo. Además, asegura, será clave para la construcción del metaverso.

Un nuevo enfoque, ‘made in Meta’

Como decimos, la infraestructura de IA operativa de Meta en estos momentos se basa en NVIDIA, compañía que se ha convertido en una de las grandes ganadoras de la carrera en este campo. Siguiendo los pasos de Google optó por empezar a desarrollar su propio chip de alto rendimiento para centros de datos de IA con un enfoque muy específico.

Meta Ia Zuckerberg 2

Las soluciones basadas en GPU (Unidad de Procesamiento Gráfico) suelen ser la elección adecuada para los centros de datos por su capacidad para realizar múltiples hilos de trabajo simultáneamente, entre otras características, por supuesto. Meta cuenta en una publicación de blog que llegó a la conclusión que no son adecuadas en todos los ámbitos.

Si bien estas juegan un papel fundamental en los centros de datos dedicados al entrenamiento de modelos de IA, según la compañía de redes sociales, no son tan eficientes en el proceso de inferencia. Para poner un poco de contexto, la inferencia es la segunda fase del proceso de aprendizaje automático, la que se presenta después del entrenamiento.

En el entrenamiento, como hemos mencionado antes, el modelo aprende de los datos y se ajustan sus parámetros para que brinde respuestas en un proceso que demanda mucho tiempo y capacidad de cálculo. En la inferencia se pone en práctica lo aprendido dando respuestas, pero con una fracción de la potencia utilizada en el entrenamiento.

CPU mejor que GPU para el proceso de inferencia

Partiendo de esta premisa, Meta cambió su enfoque. En lugar de utilizar sistemas basados en GPU para los procesos de inferencia, apostó por utilizar CPU (Unidad Central de Procesamiento). Esto significó una oportunidad para desarrollar su propia familia de chips llamados Meta Training and Inference Accelerator (MTIA) específicos para la inferencia.

Si bien este proyecto tiene su origen en 2020, ahora es cuando la compañía ha decidido hablar públicamente de él. Y esto llega con algunos datos técnicos interesantes. Estamos frente a chips fabricados bajo el proceso de fotolitografía de 7 nanómetros de TSMC cuyo TDP es de 25 W. Está diseñado para soportar hasta 128 GB de memoria.

Cada CPU está montado en placas M.2 que se conectan a través de ranuras PCIe Gen4 x8. Recordemos que los centros de datos tienen múltiples de estos chips que funcionan al unísono para ofrecer elevados niveles de potencia de cálculo. Estas características, mencionadas a grandes rasgos, no son definitivas y siguen evolucionando.

Desconocemos cuánto entrarán en juego estos chips desarrollados por Meta y fabricados por TSMC, pero el siguiente punto puede servirnos de guía. La compañía ya está trabajando en sus centros de datos de próxima generación, que complementarán el trabajo del SRC. Precisamente, el corazón de estos data center serán los chips MTIA.

Meta asegura que controlar de raíz los componentes físicos y de software de sus próximos centros de datos se traduce en una “experiencia de extremo a extremo” que les permitirá mejorar sustancialmente su capacidad de centros de datos, aunque no menciona fechas. Eso sí, recordemos que estamos en medio de una carrera.

Imágenes: Meta

En Xataka: Sam Altman tiene claro que para regular la IA hay que licenciarla. Eso es especialmente bueno para OpenAI

Latest articles

spot_imgspot_img

Related articles

spot_imgspot_img