Why no 70B model for 100k context windows - AI Dynamics

AI Dynamics

Global AI News Aggregator

Why no 70B model for 100k context windows

By

–

24 August 2023 20h02

Also why no 70B model?
1) Because of the 4x smaller dataset (compared to Llama 2 pretraining)?
2) to make 100k context windows work hardware-wise?

→ View original post on X — @rasbt,

24 August 2023

AI AI HARDWARE COMPUTING LLMS RESEARCH

Commentaires

Leave a Reply Cancel reply

MORE ARTICLES