LLM

  • 詞向量
    像是如果要表示 ,會用類似 [0.0074, 0.0023, -0.0012…] 的數字來表示貓的特徵,這些數字就是詞向量,共有 300 個數字。用這樣的向量可以表示詞空間的關係,像是 寵物 等也用一樣的方法表示,這些詞在詞 World Space 中就會與 比較接近。

    這種高維度的表示法還有一個優勢是,可以用向量運算推理單字,像是 biggest - big = smallest - small瑞士人 - 瑞士 = 德國人 - 德國 等等。

    以 GPT-3 為例,詞向量的維度高達 12288,比 Google 的 word2vec 還要高出 20 倍。

  • LLM
    會由多層 Transformer,前幾層的神經網路會專注理解句子的語法,解決字上的歧義,像是代詞 his 和多義詞 bank 等等。後面的層會專注於理解整個文本段落的理解。

  • Memory

    • optimizer states, gradients, parameters, activations
  • Batch size、 sequence length 與 activation memory 的關係


LLM
https://933yee.github.io/notes/2025/05/11/llm/
Author
Kevin Lee
Posted on
May 11, 2025
Licensed under