Transformers använder uppmärksamhet för att väga relationer mellan token, vilket möjliggör effektiv parallell träning och starka långdistansberoenden. Encoder-decoder- och enbart decoder-varianter ligger till grund för många ledande språk- och språk-bild-system.

Designen skalar väl med data och beräkningsresurser, vilket har drivit snabba framsteg i kapacitet och lett till bred användning inom forskning och industri.