Apple presentó MM1, una familia de grandes modelos multimodales de lenguaje (MLLM, por sus siglas en inglés) basados en inteligencia artificial (IA). El desarrollo podría ser la base de la esperada actualización de Siri.
Los hallazgos de la compañía fueron documentados en el artículo MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training. Los investigadores de la empresa de Cupertino desarrollaron un nuevo método de preentrenamiento para desarrollar sistemas de IA más precisos y flexibles. El trabajo detalla una técnica que ocupa un conjunto de información sintética conformado por imágenes subtituladas, materiales de texto puro y datos visuales y de texto intercalados. La propuesta añade codificadores de imágenes y conectores de lenguaje de visión.
Adiós, vieja Siri: la IA de Apple llegará este año, dice Tim Cook
El CEO de Apple sostiene que la empresa tiene una gran oportunidad con la IA. Los analistas especulan que la tecnología optimizará las habilidades de Siri y será la gran innovación de iOS18.
El resultado es un proceso de entrenamiento que combina diferentes tipos de datos de entrenamiento y arquitecturas de modelos, en lugar de depender de uno solo. Esto facilita la creación de MLLM que tienen la capacidad de entregar respuestas concretas, fiables y diversas en formato con un menor número de prompts
La técnica fue empleada para construir el conjunto de algoritmos ahora conocido como MM1. El grupo de modelos multimodales tiene hasta 30,000 millones de parámetros de contexto que logran métricas de preentrenamiento y un rendimiento similar al observado en otros sistemas de última generación como GPT-4 y Claude 3. La herramienta es capaz de comprender y generar lenguaje basado en indicaciones visuales y lingüísticas de forma simultánea.
MM1 utiliza la técnica de combinación de expertos (MoE). La MoE se usa para el diseño de redes neuronales y consiste en aplicar varios algoritmos especializados en problemas particulares que trabajan de forma conjunta para resolver peticiones más complejas con poca información de contexto. Es una manera de escalar las ventajas del modelo con bajos requisitos de procesamiento de datos. Son funcionales para operar en dispositivos móviles. Estas características permiten al modelo MM1 analizar información de múltiples imágenes y realizar un razonamiento secuencial para entregar un resultado aceptable sin tener que enviar la información a la nube.
El MM1 puede ser la gran apuesta para nutrir a Siri con IA
Un informe del filtrador asiático conocido como yeux1122 sugirió que durante la próxima Conferencia Mundial de Desarrolladores de Apple (WWDC, por sus siglas en inglés), la empresa tecnológica presentará una actualización de Siri basada en IA. El asistente ganaría mejoras de personalización y mayores capacidades para mantener conversaciones naturales con los usuarios. El algoritmo inteligente sería interoperable entre dispositivos y estaría habilitado para conectarse con otros servicios a través de una interfaz de programación de aplicaciones (API, por sus siglas en inglés). La información señala que algunas funciones serían exclusivas para los suscriptores de Apple One, la membresía de pago que agrupa una serie de servicios premium. La WWDC está programada para junio de este año.
El rendimiento, eficiencia y la capacidad de escalar una amplia gama de tareas con pocos requisitos de procesamiento sugieren que el MM1 podría ser parte del rediseño del asistente de voz de la big tech.
Tim Cook, CEO de Apple, confirmó en febrero que la organización trabaja en diversas funciones de IA generativa. Las funciones se lanzarán al mercado “más adelante este año”, según el ejecutivo. “Seguiremos invirtiendo en estas y otras tecnologías que darán forma al futuro. Eso incluye la inteligencia artificial, donde dedicamos una enorme cantidad de tiempo y esfuerzo. Estamos entusiasmados de compartir los detalles de nuestro trabajo en curso en ese ámbito a finales de este año”, dijo en una llamada con inversionistas.
La incursión de Apple en el mercado emergente podría contemplar alianzas con rivales con sistemas más sólidos. Bloomberg informó que está en conversaciones para obtener la licencia del modelo Gemini de Google para potenciar funciones de inteligencia artificial (IA) en una futura actualización del software del iPhone. El reporte afirma que la empresa mantiene negociaciones similares con OpenAI.
Jean Philipp Mercado / CEO Jean P Comunika
Columnista – Tecnología
www.undiarioconjean.wordpress.com
Síguelo en Redes Sociales: https://linkr.bio/jeanmercado2009