Чипы периферийного ИИ второго поколения от SiMa.ai становятся мультимодальными

САНТА-КЛАРА, Калифорния. — Стартап SiMa, разрабатывающий чипы для периферийного ИИ, создал новое поколение своего кристалла MLSoC, отражая движение своих клиентов, занимающихся встраиваемыми и периферийными системами, к крупным мультимодальным моделям (LMM) и генеративному ИИ (GenAI), рассказал гендиректор SiMa Кришна Рангасайи. «Gen 1 производится уже два года», — сказал Рангасайи.

«У нас была роскошная возможность создать что-то с чистого листа, и после 30 лет изучения встраиваемых систем мы выбрали в основном программно-ориентированный подход, так как простота использования особенно важна для наших клиентов. С момента, как мы определились с чипом четыре года назад, и до нынешнего времени рынок развивался быстрыми темпами. Поскольку у нас программно-ориентированная архитектура, и мы не знаем, чего ждать в будущем, мы не выбирали конкретный момент для принятия решения; мы выбрали направление и решили, что архитектура на основе трансформеров будет править бал в течение следующих нескольких лет».

Кришна Рангасайи из SiMa (Источник: SiMa)

Кришна Рангасайи из SiMa (Источник: SiMa)

В отличие от некоторых своих конкурентов в области LLM-периферии, SiMa предлагает полную SoC , предназначенную для размещения приложений целиком (это не автономный ускоритель), а чип второго поколения предназначен для работы как свёрточных нейронных сетей (CNN), так и сетей на основе трансформеров, при этом продолжая производить и продавать чип первого поколения, ориентированный на машинное зрение/CNN.

За последний год SiMa удвоила количество клиентов, говорит Рангасайи, добавляя, что популярность растёт на всех целевых для компании рынках: робототехника, промышленная автоматизация, системы «умного зрения», аэрокосмическая и оборонная отрасль. В настоящее время компания выходит на рынок медицинских устройств. По запросам клиентов, добавил он, уже и приложения периферийного зрения запускаются на трансформерах в моделях ViT и LlaVa.

«Ещё мы начали использовать мультимодальность», — сказал Рангасайи. «Люди думают, что мультимодальность и GenAI, вероятно, одно и то же, но это разные вещи, и я бы сказал, что сегодня мультимодальность имеет большую ценность для рынка, чем GenAI».

Семейство оборудования Modalix чипов

Modalix, второе поколение оборудования от SiMa, будет принадлежать к семейству устройств, дающих производительность 25, 50, 100 и 200 TOPS в модели INT8. Четыре представителя семейства будут выходить в разное время. Первой выйдет версия 50 TOPS, прототип будет представлен ​​в этом квартале. Версия 25 TOPS будет использовать ту же самую пластину, но обеспечит ограниченную производительность для приложений, которым не нужно 50 TOPS. Версии 100 и 200 TOPS пока в разработке; Рангасайи сказал, что решение о переходе на чиплеты еще не принято.

Первый из чипов второго поколения Modalix от SiMa

Первый из чипов второго поколения Modalix от SiMa (Источник: Салли Уорд-Фокстон)

«У нас есть множество вариантов использования, люди становятся умнее в вопросах уменьшения размера трансформеров, и мы уже видим решения на основе трансформеров в разряде 25 TOPS», — говорит Рангасайи. «Ясно, что для стереозрения и для сложных алгоритмов в робототехнике или автомобилестроении вам понадобится 50 TOPS и больше, но существует много подходов на основе трансформеров, использующихся для большей точности».

У начальной версии 50 TOPS кристалл меньшего размера, чем чип первого поколения, но больше функций благодаря переходу с 16нм на N6 (6нм) от компании TSMC. Его мощность в пределах 8-10 Вт (для всей SoC, а не только ускорителя) в зависимости от рабочей нагрузки. SiMa поддерживает 100% программную совместимость между двумя поколениями.

Усовершенствования ускорителя чипов Modalix

Архитектура чипов Modalix разработана и для больших языковых моделей (LLM), и для LMM, справляясь с любой модальностью данных. Как и первое поколение, это полноценная SoC с улучшенным и расширенным ИИ-ускорителем собственной разработки.

Точность была основным требованием со стороны клиентов, сказал Шриви Дхруванараян, вице-президент SiMa по разработке оборудования. «Свёрточные нейросети были способны квантовать до модели INT8 на Gen 1, и это прекрасный баланс», — сказал он. «Простым ответом было бы любым путём нарастить точность: FP16, FP32, FP8. Но тогда мы потеряли бы преимущества энергоэффективного чипа.

Поэтому мы остановились на BF16, который дает нам достаточно операций с плавающей точкой для трансформеров, и в то же время позволяет не потерять преимущество энергоэффективности». Помимо поддержки операций с плавающей точкой, для этого акселератора также добавлено аппаратное ускорение для «полиноминальных кусочно-нелинейных функций активации» (ПКНФА) и других нелинейных функций, используемых в LLM и LMM. Набор инструментов от SiMa может автоматически квантовать с различной точностью для оптимизации производительности на послойной основе.

Была вдвое увеличена пропускная способность и улучшено кэширование DRAM.

Результатом стал ускоритель второго поколения производительностью 50 TOPS, который может запускать модель Llama-2-7B со скоростью более 10 токенов в секунду при энергопотреблении, подходящем для периферийного устройства.

Ядра ARM на этом чипе

SiMa с четырёх до восьми увеличила количество ядер Arm Cortex-A65 на этом чипе.

«Было бы обидно не заняться процессором, увеличив все остальное», — говорит Дхруванараян. «Мы хотим обрабатывать все приложение на чипе. Много вычислений всё ещё должно производиться на процессоре».

Слои, которые квантуются в форматы, не поддерживаемые ускорителем, или любые другие не поддерживаемые функции, могут обрабатываться процессорами Arm, добавил он.

«Мы попробовали подойти к этому вопросу по-умному», — сказал Дхруванараян. «Мы не пошли по пути использования новейших, лучших ядер Arm с увеличенной площадью; мы остановились на том, что было в Gen 1, и этого более чем достаточно. Мы просто удвоили их количество, чтобы программному обеспечению не приходилось иметь дело с новым набором инструкций».

SiMa больше ориентируется на традиционные приложения, для работы с которыми клиенты хотят зарезервировать значительную часть ARM-процессора на кристалле, говорит Рангасайи.

«Мы строим архитектуру для всех», — сказал он. «В известной степени мы пошли бы на компромисс, оптимизировав комплекс ARM для узкого набора приложений. С точки зрения размера кристалла, было бы оправданным увеличить его».

Рангасайи приводит в пример автомобильную информационно-развлекательную систему (IVI), где есть значительный спрос на новые мультимодальные и GenAI-функции при сохранении нагрузки на ЦП. Ещё одна формирующаяся область с похожими требованиями — это «воплощенный ИИ» (гуманоидные роботы).

«Между тем как в общем отрасли рынка для нас те же, автомобилестроение и робототехника, в них появилось новое», — говорит он. «Но ставки сделаны: нам нужно оставаться лучшими по производительности, но, пока мы продолжаем это делать, нам необходимо соответствовать потребностям рынка, сетей и вероятных рабочих нагрузок».

Благодаря отзывам пользователей Gen 1, архитектура Modalix включает в себя теперь процессор сигналов изображения (ISP). Хотя в некоторых MIPI-камерах уже есть ISP, а некоторые задачи ISP могут быть обработаны в ИИ-ускорителе, включая аппаратный ISP, дающий клиентам возможность выбора, сказал Рангасайи. Обычно ISP используют во фронт-энде конвейера машинного зрения для препроцессинга (предварительной обработки), добавил Дхруванараян, поэтому, выполняются ли подобные задачи в ISP или на ускорителе ИИ, это будет компромиссом между производительностью и задержкой, возникающей при перемещении данных на чипе.

Modalix сохранит DSP-процессор первого поколения Synopsys EV74, и он станет на 20% быстрее, поскольку многие потенциальные крупные клиенты держатся за свой устаревший DSP-код, говорит Рангасайи.

«С подобной «религией» мы не будем бороться», — сказал он.

Новые аппаратные функции включают также 4x4 полосы MIPI для добавления поддержки камер MIPI, включая датчики LiDAR и радары. Ethernet-камеры также получают дополнительную поддержку, поскольку Modalix перешел с 4 Ethernet-портов 1G на 4 порта 10G. PCIe был обновлен до Gen5, а корневое комплексное устройство PCIe теперь сможет поддерживать возможные будущие решения на основе чиплетов.

Возможное использование

Ориентированная на программное обеспечение SiMa также многому научилась в отношении набора инструментов.

«Как для стартапа, для нас довольно амбициозно выйти сразу на мировой уровень в области программного обеспечения», — говорит Рангасайи. «Но в отношении архитектуры и конструкции все были очень впечатлены тем, что мы сделали по набору функций, завершенности, повышению надежности. Мы многому научились, но такова природа нашего бизнеса: вы выпускаете что-нибудь неплохое, затем доделываете и учитесь».

Команда многому научилась у клиентов относительно предпочитаемых ими схем квантования и различных аспектов всей цепочки компьютерного зрения, сказал он. Ключевые проблемы состояли в добавлении новых аппаратных функций без потери программной совместимости.

GenAI в дата-центрах критикуют за отсутствие коммерческого успеха в некоторых сегментах индустрии, но эта проблема не касается периферийных вычислений, добавил он.

«Для LLM и генеративного ИИ периферийных устройств в этом действительно есть кое-что хорошее», — сказал Рангасайи. «Это доход клиентов, которые этим занимаются. Я боюсь, что большая часть того, что делает ИИ, не позволить кому-то сделать серьёзные деньги (смотреть на то, как Уилл Смит ест лапшу, действительно не принесет никому прибыли), но мы видим реальные случаи, когда при использовании такой периферии что-то меняется».

Новости в области высоких технологий, IT, Hi-tech, а так же огромный каталог электронных компонентов от компании Компонентс РУ.

Купить конденсаторы на сайте Компонентс РУ: https://components.ru/catalog/passivnyie_komponentyi/kondensatoryi/