Large Language Models

Transformers, attention mechanisms, pretraining, and fine-tuning.

1 notes 2 min total 1 Draft

1 Large Language Models

1.1 Attention Mechanism Draft

The core innovation behind transformers — scaled dot-product attention.