
Компактная языковая модель (SLM) Phi Silica от Microsoft теперь способна понимать не только текст, но и изображения, что переводит её в статус мультимодальных. Это важное обновление, поскольку модель интегрирована в операционную систему Windows 11 на устройствах ПК Copilot+ и работает на локальном нейронном процессоре (NPU), встроенном в процессор.
Сейчас модель работает только с процессором Snapdragon X, но в ближайшее время появится поддержка чипов от AMD и Intel.
Вместо добавления отдельной громоздкой модели для анализа изображений, инженеры Microsoft объединили существующие компоненты.
Базой осталась уже развернутая модель Phi Silica. Для машинного зрения применяется кодировщик изображений Florence, который также используется в предварительной версии Windows Recall и улучшенном поиске на базе ИИ.
И, наконец, разработан небольшой дополнительный модуль «Projector» (всего 80 млн параметров), который преобразует визуальные данные от Florence в формат, понятный Phi Silica.
[media=https://vkvideo.ru/video-3783130_456239407] Так Microsoft удалось избежать необходимости развёртывания ещё одной громоздкой модели на устройствах пользователей.
Этого подход позволил сэкономить дисковое пространство и уменьшить вычислительную нагрузку. Кроме этого, повторное использование существующих компонентов сократило затраты и время на обучение моделей.
Главным примером практического применения новой технологии стала функция генерации описаний изображений для незрячих или слабовидящих пользователей.
Мультимодальная Phi Silica может генерировать для «Экранного диктора» описания изображений с разной степенью детализации, [media=https://vkvideo.ru/video-3783130_456239407] Phi Silica создаёт краткие описания изображений из 135 символов в среднем за 4 секунды, тогда как для подробного описания из 400-500 символов требуется около 7 секунд.
Текущая версия оптимизирована для английского языка, но в будущем планируется поддержка других языков.
Пример описания изображения с картой острова Оаху Краткое описание: На изображении представлена карта Гавайского острова Оаху, на которой обозначены различные места, такие как мыс Кахуку (Kahuku Point), залив Кавела (Kawela Bay), Кахуку (Kahuku) и другие точки и поселения, включая Перл-Сити (Pearl City) и Эва-Бич (Ewa Beach).
Подробное описание: Изображение представляет собой карту Гавайского острова Оаху, на которой обозначены различные места и географические объекты.
Ключевые места включают мыс Кахуку (Kahuku Point), залив Кавела (Kawela Bay), Кахуку (Kahuku) и Кауаи (Kauai).
Другие примечательные места: Лайе (Laie), Коолау (Koolau), Хауула (Hauula), Пуналу (Punaluu), Мокулея (Mokulēia), Анахулу (Anahulu), Вайалуа (Waialua), Кааава (Kaaawa) и Кауконахуа (Kaukonahua).
Также виден Тихий океан (Pacific Ocean). Среди других упомянутых мест — Уитмор-Виллидж (Whitmore Village), гора Кала (Mt.
Kala), мыс Куалоа (Kualoa Point), Вахиава (Wahiawa) и Канеохе (Kaneohe). На изображении также показаны различные поселки и города, такие как Милилани (Mililani), Ахуиману (Ahuimanu), Перл-Сити (Pearl City) и Ваипио (Waipio).
Другие примечательные места включают Кахулу (Kahulu), Нанакули (Nānākuli), Коолау (Koolau) и Ваиманало (Waimanalo).
Дополнительную техническую информацию об обновлении модели Phi Silica можно найти в официальном блоге Microsoft по этой ссылке.
Рубрика: Развлечения и Интернет. Читать весь текст на thecommunity.ru.