Why do LLMs like GPT-3 or Bloom use Vanilla Transformer instead of long sequence variants like Transformer-XL?

Asked Feb 21 '23 at 18:14

Active Apr 18 '23 at 10:41

Viewed 115 times

Is there any particular reason that the most recent and successful large language models like GPT-3 or Bloom utilize a vanilla Transformer architecture instead of an arguably superior long sequence architecture like, e.g. Transformer-XL, LongFormer, BigBird, etc.?

In case you have any ideas or insights, please let me know.

edited Apr 18 '23 at 10:41

Robin van Hoorn

1,810
7
32

asked Feb 21 '23 at 18:14

hokage555

Why do LLMs like GPT-3 or Bloom use Vanilla Transformer instead of long sequence variants like Transformer-XL?

0 Answers0