Los avances de Apple en el campo de la inteligencia artificial continúan avanzando, a pesar de las percepciones en contrario. Colaborando con la Universidad de California en Santa Bárbara (UCSB), han desarrollado MGIE, un nuevo modelo de código abierto que permite la edición de imágenes mediante lenguaje natural.
Si bien existen numerosas herramientas en la web para la generación de imágenes mediante inteligencia artificial, el enfoque de Apple y la UCSB se centra en la «edición guiada», aprovechando los modelos de lenguaje multimodales de gran escala (MLLM).
Según los desarrolladores, MGIE interpreta tanto la imagen como las instrucciones del usuario para realizar la edición, incluso sin un contexto detallado. Por ejemplo, al describir una imagen de pizza como «hazla más saludable», la IA agregó tomates y hierbas.
MGIE incorpora un MLLM y un modelo de difusión, que permiten interpretar instrucciones concisas y realizar ediciones de imágenes de manera coherente. Esto demuestra que los modelos de lenguaje multimodales pueden simplificar la edición de imágenes con inteligencia artificial.

El proyecto también aborda la dificultad de comprender instrucciones humanas breves, mejorando el control y la flexibilidad en la edición de imágenes sin requerir descripciones excesivamente detalladas.
Ejemplos prácticos, como la eliminación de elementos en una foto o ajustes locales y globales en la imagen, ilustran la versatilidad de MGIE.
Aunque no se ha confirmado si Apple planea integrar esta IA en sus productos comerciales, demuestra su compromiso con estas tecnologías emergentes, como lo evidencia el reciente lanzamiento de MLX.
Los interesados pueden probar MGIE a través de una versión de prueba en Hugging Face Spaces o descargar información y modelos preentrenados desde GitHub para experimentar por sí mismos.