La semana pasada, Arm mostró el funcionamiento interno de su nuevo diseño de procesador de aprendizaje automático, pero eso no es todo lo que la compañía tenía esperando en las alas. Arm también está detallando más tecnología de punta en la forma de sus diseños de CPU Cortex -A76, GPU Mali-G76 y VPU Mali-V76. Los tres chips están programados para ser pesos pesados en sus respectivas categorías, y gracias a algunas sesiones informativas detalladas en el campus a principios de este mes, tenemos todos los detalles para compartir…
Corteza A-76
El Cortex-A76 representa la revisión más radical de Arms con respecto a los diseños anteriores. La nueva arquitectura del A76 trae mejoras decisivas en cuanto a potencia y eficiencia. Los ingenieros de procesadores de armas trabajaron con el objetivo de diseño de superar los diseños de sus competidores, pero con la mitad del área y la potencia. Esta filosofía es muy crítica en el espacio móvil donde tanto los presupuestos de energía como el espacio físico están muy limitados.
Para la renovación de la arquitectura del A76s, se prestó especial atención a la reducción de la latencia y la eliminación de los cuellos de botella en el ancho de banda siempre que fuera posible. Uno de los mayores objetivos de Arms es eliminar los ciclos de repuesto o desperdiciados. Los ciclos de repuesto suelen aparecer cuando el procesador no puede recuperar los datos correctos de la memoria con la suficiente rapidez.
Un método que emplea Arm para combatir los ciclos de repuesto es desacoplar la predicción de bifurcación A76s del buscador de instrucciones. Los predictores de bifurcación leen por adelantado e intentan adivinar en qué dirección saltará una ruta de código en un condicional. El predictor de bifurcación ahora está ajustado para operar al doble de la tasa de recuperación. Esto puede parecer un arreglo peculiar, pero Arm cree que esto ayuda a disfrazar los errores de predicción al garantizar que la búsqueda siempre tenga su cola llena. Es más eficiente energéticamente quemar ciclos en el predictor de bifurcación cuando las instrucciones se están alimentando correctamente que perder ciclos en todo el núcleo cuando ocurre una falla.
El núcleo de ejecución de A76s consta de una unidad de rama, dos ALU simples y una combinación de ALU simple y multiciclo para cargas de trabajo enteras. El núcleo de ejecución se actualiza a canalizaciones duales ASIMD/FP de 128 bits para proporcionar el doble de ancho de banda que las CPU Arm anteriores. Este aumento de ASIMD contribuye significativamente a la mejora casi 4x del A76 en el rendimiento del aprendizaje automático con respecto al A75 de la generación anterior.
Arm también proporcionó algunas métricas de caché interesantes. El objetivo de Arms aquí es ofrecer una proporción perfecta de aciertos de caché, ya que los errores de caché incurren en penalizaciones de latencia. El A76 puede soportar hasta 20 fallas L1 sobresalientes, hasta 46 fallas L2 y hasta 94 fallas L3. El A76 ofrece 64K de caché L1, tanto en I-Cache como en D-Cache, 256-512K de caché L2 privada y 2-4M de caché L3 compartida. En términos de latencia, la caché L1 tiene un período de carga para usar (uso de LD) de 4 ciclos, la caché L2 tiene un uso de LD de 9 ciclos y la caché L3 tiene entre 26 y 31 ciclos de uso de LD, por lo que la precisión del captador previo es vital para un funcionamiento fluido.
Arm proyecta un 35 % más de rendimiento que un núcleo Cortex-A75 y, al mismo tiempo, mantiene un 40 % más de eficiencia energética. Notaremos que esta comparación enfrenta a un A76 de 7 nm con una frecuencia de 3,0 GHz contra un A75 de 10 nm a 2,8 GHz, pero aún así, el encogimiento del troquel y el aumento de frecuencia por sí solos no explican todas las ganancias del A76. En las comparaciones de isoprocesos y frecuencias, el A76 todavía ofrece un aumento del 25 % en el IPC entero (SPECINT), una mejora del 35 % en el rendimiento de ASIMD/FP (SPECFP) y un aumento del 90 % en el ancho de banda de la memoria (LMBench).
Arm reclama un rendimiento de clase portátil con el A76. Si bien muchos pueden considerar que esto significa algo al nivel de un núcleo Intel Atom, Arm cree que su núcleo A76 puede funcionar dentro del 10 por ciento de un núcleo Skylake con las mismas restricciones térmicas, pero con aproximadamente la mitad de la huella. Esto tiene implicaciones prometedoras para el futuro de las computadoras portátiles con Windows Arm, siempre que el costo se pueda mantener en línea. También está el problema de traducir instrucciones x86 para aplicaciones heredadas, pero Microsoft ya proporciona herramientas de desarrollo bastante buenas para la compilación nativa de Arm para que el software común pueda ejecutarse de forma nativa.
Según ARM, las contracciones de los nodos de proceso por debajo de 16 nm no han producido aumentos significativos en la velocidad del reloj. Más bien, los nodos de proceso más pequeños se benefician principalmente de un consumo de energía y una producción térmica reducidos. Sin embargo, esto sigue siendo importante para las consideraciones de rendimiento, porque un chip más frío puede tener un rendimiento sostenido mejorado. Arm espera que los núcleos A76 ingresen al mercado en el proceso de 7 nm para casos de uso de rendimiento y el proceso de 12 nm para implementaciones de menor costo con la posibilidad de variantes de proceso de 5 nm en el futuro. Los TDP de destino serían los mismos en estos nodos de proceso.
El núcleo A76 está diseñado para usarse como el núcleo o núcleos "grandes" en los clústeres Arms DynamIQ con el venerable Cortex-A55 que comprende sus contrapartes "PEQUEÑAS". Al igual que con el A75 anterior, las configuraciones de DynamIQ pueden admitir hasta cuatro núcleos A76 con hasta ocho núcleos A55, con un máximo total combinado de ocho núcleos. Si bien Arm anticipa que los procesadores de gama alta incorporarán configuraciones completas de 4x A76 + 4x A55, muchos diseños de rango medio y económico utilizarán un diseño de 1x A76 + 7x A55 o 2x A76 + 6x A55 con más énfasis en la eficiencia energética.
Arm señala que es poco probable que el núcleo A55 sea reemplazado por una variante más nueva en el corto plazo. Puede reducirse a medida que se perfeccionan los nodos más pequeños para mejorar aún más la eficiencia, mientras que su papel como núcleo LITTLE no exige mejoras significativas en el rendimiento. Dicho esto, Arm ha aumentado la cantidad de caché L2 en el núcleo A55 cuando se usa con núcleos A76.
Arm también detalló sus nuevos diseños de GPU Mali-G76 y VPU V76 que exploraremos en la página siguiente…