Графический процессор ARM Mali-G77 стал на 40 % быстрее

Нaряду с нoвым прoцeссoрным ядрoм Cortex-A77 кoмпaния ARM прeдстaвилa грaфичeский прoцeссoр, прeднaзнaчeнный для мoбильныx oднoкристaльныx систeм слeдующeгo пoкoлeния. Mali-G77, кoтoрый нe слeдуeт путaть с нoвым прoцeссoрoм дисплeя Mali-D77, знaмeнуeт сoбoй пeрexoд с aрxитeктуры ARM Bifrost и нa Valhall.

ARM дeклaрируeт сущeствeнный прирост графической производительности Mali-G77 — на 40 % по сравнению с современным поколением Mali-G76. Это достигнуто как за счёт техпроцесса, так и архитектурных улучшений. Mali-G77 может иметь от 7 до 16 ядер (в перспективе возможно масштабирование от 1 до 32), причём каждое из них почти такого же размера, как у ​​G76. Следовательно, высокопроизводительные смартфоны, вероятно, будут оснащаться тем же количеством ядер ГП.

В играх можно ожидать повышения быстродействия ​​на уровне от 20 до 40 %, в зависимости от типа графических нагрузок. Судя по результатам популярного теста Manhattan GFXBench, существенное превосходство нового графического процессора над текущим поколением заставит озаботиться и конкурирующую компанию Qualcomm о значительном улучшении производительности графики Adreno.

По словам ARM, сама по себе новая архитектура Mali-G77 обеспечивает в среднем 30-процентное улучшение энергоэффективности или производительности. Второе поколение скалярной архитектуры ARM Valhall позволяет графическому процессору параллельно исполнять 16 команд за цикл на CU по сравнению с восемью в Bifrost (Mali-G76). Среди других новшеств: полностью аппаратно управляемое динамическое планирование команд и совершенно новый набор команд с сохранением обратной совместимости с Bifrost. Добавлена также поддержка формата сжатия ARM AFBC1.3 и другие новшества (FP16 render targets, layered rendering и vertex shader outputs).

В Bifrost CU содержали 3 движка исполнения команд, каждый из которых включал кеш инструкций, регистр и блок управления Warp. Распределение по этим трём движкам позволяло выполнять 24 инструкции FMA с 32-битной точностью расчётов с плавающей запятой (FP32). В Valhall каждый CU обладает лишь одним движком исполнения команд, разделённым между двумя вычислительными модулями, способными обрабатывать по 16 команд Warp за такт, то есть обеспечивается общая пропускная способность в 32 инструкции FMA FP32 на CU. Благодаря этим архитектурным изменениям, при параллельных расчётах Mali-G77 может выполнять на треть больше математических расчётов по сравнению с Mali-G76.

Кроме того, каждый из этих вычислительных модулей CU содержит два новых математических функциональных блока. Новый модуль преобразования (CVT) обрабатывает основные целочисленные, логические, ветвящиеся и инструкции преобразования. Блок специальных функций (SFU) ускоряет операции умножения целых чисел, деления, квадратного корня, логарифмов и других сложных целочисленных функций.

В стандартном блоке FMA есть несколько настроек, поддерживающих выполнение 16 инструкций FP32 за цикл, 32 — FP16 или 64 — INT8 Dot Product. Эти оптимизации могут обеспечить повышение производительности в приложениях машинного обучения на значение до 60 %.

Другое ключевое изменение в Mali-G77 — это удвоение производительности текстурного модуля, который теперь обрабатывает 4 билинейных текселя за такт по сравнению с двумя ранее, 2 трилинейных текселя за такт, обеспечивая более быструю фильтрацию FP16 и FP32.

ARM внесла и ряд других изменений, в результате чего Mali-G77 и Valhall обещают значительное повышение производительности для игровых нагрузок и задач машинного обучения. Важно отметить, что энергопотребление и площадь чипа сохранены на уровне Bifrost, что обещает выпуск мобильных устройств с более высокой пиковой производительностью без повышения требований к электропотреблению, теплоотводу и размеру.

Источники:

Комментарии и пинги к записи запрещены.

Комментарии закрыты.