Transformer-Base Training Efficiency on TPU V2 Hardware

AI Dynamics

Global AI News Aggregator

Transformer-Base Training Efficiency on TPU V2 Hardware

–

24 March 2023 8h41

As I said above, use of Transformer-Base as proxy task *is* in So et al: "Specifically, to train a Transformer
to peak performance on WMT’14 En-De requires ∼300K
training steps, or 10 hours, in the base size when using a
single Google TPU V.2 chip, as we do in our search"

→ View original post on X — @jeffdean,

24 March 2023

AI AI HARDWARE COMPUTING GENERATIVE AI MACHINE LEARNING RESEARCH TECHNOLOGY

AI Dynamics

Transformer-Base Training Efficiency on TPU V2 Hardware

Commentaires

Leave a Reply Cancel reply

MORE ARTICLES

Cybercab Uber: Safer, Cheaper Alternative for Single Riders

Zeekr Global Unveils Latest Electric Vehicle Model

Revolutionary New Camera Technology Unveiled

Hidden Camera Recording Family Interactions Raises Privacy Concerns