Марк Уэйд представил результаты усложнённого моделирования крупномасштабных систем вывода
Гендиректор Ayar: «Медь уже сломлена; агентский ИИ потребует оптического интерфейса ввода-вывода»
САН-ХОСЕ, Калифорния — На саммите по оборудованию для искусственного интеллекта генеральный директор Ayar Labs Марк Уэйд представил результаты усложнённого моделирования крупномасштабных систем вывода, полученные компанией для оценки того, что понадобится для создания экономичных версий генеративных моделей ИИ следующего поколения.
Результаты показывают, что оптические межчиповые соединения наподобие технологий Ayar Labs будут востребованы для масштабирования вывода LLM в моделях следующего поколения, если потребуется достичь экономической отдачи. Симулятор также предоставляет полезный способ оценки текущего состояния так называемой «токеномики» (экономики предоставления и создания API для продуктов вывода LLM).
«В нашей индустрии шутят, что следующей технологией по плану всегда будет оптика», — сказал Уэйд после своей презентации. «Обычно это сопровождается утверждением, что медь продолжает делать свою работу и она достаточно хороша, и когда же она наконец сломается? Мы утверждаем, что она уже сломлена».
Масштабный вывод LLM уже привлёк немало инвестиций, но прибыльность подобных сервисов ещё предстоит доказать.
«Инвестиционное сообщество провело последние пару лет в убеждении, что модель «программное обеспечение как услуга» (SaaS) начинает уходить. Но затем появился ChatGPT, и все подумали, что это немедленно возродит прибыльность SaaS», — сказал Уэйд. «И они вливали деньги в ИИ, думая, что ИИ ускорит SaaS, но продолжили терять деньги. Сегодня ни у кого не получилось создать прибыльные решения на основе API вывода».
Капитальные вложения в дата-центры с использованием искусственного интеллекта, вероятно, уже приближаются 1 триллиону долларов, говорит Уэйд, но пока главным победителем является аппаратный стек, особенно Nvidia.
«Для аппаратного обеспечения это была пара потрясающих лет, но, если мы не достигнем точки, где будут созданы действительно новые, преобразующие, высокоценные приложения, мы, вероятно, увидим приближение серьёзного кризиса», — сказал он.
Монетизация продуктов, построенных на API вывода, всё ещё под вопросом, поскольку экономика сегодня остаётся довольно сложной, сказал Уэйд, добавив, что всё зависит от того, сможет ли сообщество разработчиков оборудования выстроить системы, улучшающие структуру затрат на создание таких продуктов. Это необходимо для поддержки создания в будущем «убойного» приложения для генеративного ИИ.
Манипуляция характеристиками
Хотя производители микросхем и поставщики API вывода стремятся покрасоваться скоростями для автономного пользователя и ценами за токен, подобные параметры могут быть сложными для понимания и оценки.
«Мы чувствуем, как много путаницы и спекуляций происходит в мире», — сказал Уэйд. «Какая-то часть этого просто бесстыдна, что-то нет, и причина в довольно сложной общей картине, а также в том, что индустрия ещё не до конца определила, как эту картину сегментировать и как говорить об этих сегментах».
Пока младшие модельные решения, предлагаемые сегодня через API, позволяют облачным провайдерам зарабатывать деньги на токенах, настоящий вопрос заключается в том, смогут ли такие модели производить интересные конечные приложения, говорит Уэйд. Ayar Labs, таким образом, пытается продвинуть следующее поколение моделей, которые, вероятно, будут становиться всё крупнее, меняя экономику.
«Давайте отправимся туда, куда действительно хотят попасть создатели моделей, а потом начнём строить эффективные и экономичные системы, чтобы поддержать крупные модели», — сказал он.
Ayar Labs потратили почти год на создание архитектурного симулятора, основанного на работах Массачусетского технологического института (MIT), касающихся фундаментальных вычислений, в сочетании со знаниями самой компании в отношении различных технологических компонентов и их долларовой стоимости. Эта сделано для сквозного тестирования ИИ на системном уровне с целью получения качественных показателей, которые отвечают реальным потребностям приложения, сказал Уэйд.
«Подобное безотлагательно именно сейчас, когда разработчики ИИ-приложений продолжают искать прибыльные бизнес-модели и приложения, создающие стоимость», — сказал он.
Результаты моделирования
Симулятор Ayar — это набор модулей Python, более изощрённый, чем электронная таблица, но не являющийся точно-цикловым RTL-симулятором. Его входные данные учитывают природу рабочей нагрузки; ключевые технологические компоненты, включая вычисления, сеть и память; сетевую структуру, включая задержки; и практические долларовые затраты, которые опираются на подробные модели, учитывающие стоимость компонентов от Ayar и других поставщиков.
Входные и выходные данные для симулятора модели системы с архитектурой генеративного ИИ (Источник: Ayar Labs)
Симулятор выводит специально разработанные показатели качества:
Пропускная способность измеряет количество пользователей, которых можно поддерживать при заданном уровне интерактивности.
Интерактивность измеряет скорости генерации токенов, что определяет, может ли система быть успешно использована для приложений агентского ИИ (машина-машина). Более крупные модели будут иметь более низкую интерактивность в той же системе.
Рентабельность добавляет к пропускной способности измерение стоимости и потребляемой мощности. Этот показатель не означает, что данное внедрение будет прибыльным, но даёт относительное сравнение различных систем.
«Чем выше показатель рентабельности, тем больше возможностей у разработчиков приложений попробовать продавать предоставляемые услуги или продукты», — говорит Уэйд. «Доходность резко упадёт, если вы попробуете увеличить интерактивность. Это показывает, что будет крайне сложно пытаться создать приложения с более высокой интерактивностью, поскольку очень быстро снижается возможность получения прибыли».
По мнению Aya, показатели результативности систем генеративного ИИ должны включать рентабельность, которая добавляет к производительности также параметры стоимости и потребляемой мощности. (Источник: Ayar Labs)
Результаты, полученные Ayar с использованием ускорителя GB200 от Nvidia, являются базовым уровнем для теоретически возможного ускорителя следующего поколения, который может появиться через два-три года. Такой ускоритель в 2,4 раза превысит базовый уровень по вычислениям, в 1,5 раза по объёму памяти, в 1,25 раза по пропускной способности памяти и в 2 раза по масштабируемому вводу-выводу. Результаты показали, что переход на ускорители следующего поколения в системах одного масштаба даст 30-40% прироста пропускной способности, но не приведёт к увеличению доходности ни на каком уровне интерактивности.
Переход на оборудование следующего поколения показывает увеличение производительности, но не рост прибыльности по сравнению с базовым уровнем (Источник: Ayar Labs)
Большинство поставщиков вывода используют сегодня системы из 8 ускорителей H100 (серая линия на графике ниже) на уровнях интерактивности, описываемых Уэйдом как «сложные». Для запуска GPT-4 на уровнях интерактивности, которые включают агентский ИИ (где агенты «общаются» друг с другом, прежде чем выдать результат), понадобятся ускорители следующего поколения, которые, в свою очередь, потребуют увеличения размеров системы и наличия оптического ввода-вывода, сказал Уэйд (см. график ниже). Системы нынешнего поколения показаны максимум с 64-мя ускорителями, так как именно такое количество помещается в одной серверной стойке, а сегодняшние медные соединения уменьшают производительность вывода для автономного пользователя, если стоек больше одной, сказал Уэйд.
Ожидаемая производительность для GPT-4 на системах разных размеров. Голубая линия показывает большую систему следующего поколения, поддерживающую оптический ввод-вывод. (Источник: Ayar Labs)
С укрупнением моделей (Ayar ожидает, версия GPT следующего поколения через два или три года будет обладать параметрами 14T), результаты становятся ещё более явными. При этом размере модели системы на 64 графических ускорителя никогда не достигнут уровней интерактивности, которые включают агентский ИИ.
Оценочная производительности для гипотетической модели 14T следующего поколения (Источник: Ayar Labs)
Эффективность обучения
Симулятор от Ayar может также моделировать обучающие системы и рабочие нагрузки для дата-центров с фиксированным энергопотреблением, но компания сосредотачивается на масштабировании вывода, поскольку сегодня именно экономический аспект является наиболее острым, сказал Уэйд.
«Мы сосредоточились на выводе по той причине, что даже современные крупные модели не могут быть развернуты в больших масштабах, особенно в высокоинтерактивных техпроцессах агентского типа», — сказал он.
К тому же симулятор рассматривает только графические ускорители. Хотя его и можно расширить за счёт добавления специализированных ускорителей ИИ и LLM, переговоры с поставщиками чипов показали, что большинство из них будут против предоставления необходимой информации о затратах, сказал Уэйд.