Extending LLMs to Vision: Incremental Multimodal Integration with Flamingo

AI Dynamics

Global AI News Aggregator

Extending LLMs to Vision: Incremental Multimodal Integration with Flamingo

–

17 November 2022 4h40

Extending LLMs from text to vision will probably take time but, interestingly, can be made incremental. E.g. Flamingo (
https://
storage.googleapis.com/deepmind-media
/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
… (pdf)) processes both modalities simultaneously in one LLM.

→ View original post on X — @karpathy,

17 November 2022

AI GENERATIVE AI INNOVATION LLMS MACHINE LEARNING MULTIMODAL AI RESEARCH

AI Dynamics

Extending LLMs to Vision: Incremental Multimodal Integration with Flamingo

Commentaires

Leave a Reply Cancel reply

MORE ARTICLES

Cheaper exploration at scale remains advantageous despite no new exploits

Gold Status Experience Brings Satisfaction

Using ChatGPT for Essay Feedback and Improvement

Intelligence Gone Wrong: Cheating Despite Having Correct Answer