933yee's Notes
  • Home
  • Archives
  • Categories
  • Tags
  • About

Paper

Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models摘要本文提出一種名為 Quantized Side Tuning (QST) 的訓練框架,旨在快速且記憶體效率高地微調大型語言模型(LLMs)。該方法透過兩階段處理: 將模型權重量化為 4-bit,減少儲存所需的記憶體
2025-11-13
paper
#research #paper

Deep Learning

Linear AlgebraSpan & Linear Dependence在 Machine Learning 裡面,不管原本的 function 是不是 Linear,我們都會試著用 Linear function 來 Approximate 它。 $\text{span}(A_{:,1}, A_{:,2}, \ldots, A_{:,n})$ 被稱為 column space of
2025-11-06
AI
#deep learning #ai #machine learning

LeetCode Contest

Weekly Contest 4743731. Find Missing Elements - Easy給定 nums 陣列,找出裡面最小和最大的值之間缺少的所有整數。 123456789101112131415161718class Solution {public: std::vector<int> findMissingElements(std::vector&l
2025-11-02
Leetcode
#leetcode

Tech Reflections

軟體開發的第一原則 Make it work Make it right Make it fast Make it work 如果總是糾結於 refactor、優化,沒有完整能運作的系統,一切都是空談。 軟體的生命始於上線,一個沒有上線、沒有被實際使用過的軟體,無論架構多好、程式碼多漂亮,都是毫無意義的。 Make it right 隨著對問題的理解,會接觸到更多的 edge case 和新技
2025-11-01
#tech

Algorithm

Moore’s Voting Algorithm 摩爾投票法找出一個序列中出現次數超過一半的元素。 (majority element) 123456789candidate = Nonecount = 0for num in nums: if count == 0: candidate = num if num == candidate: count +=
2025-10-24
Algorithm
#algorithm

Deep Learning Lab

Lab 10: Word2Vec & Noise Contrastive Estimation using Subclassing1234567891011121314151617181920import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # disable warning and info mes
2025-10-11
AI
#deep learning #ai #machine learning

TOEIC

Corporate Developmentinnovation The company encourages innovation to stay ahead of its competitors. encourage innovation drive innovation foster innovation strategy Our marketing strategy focuses o
2025-09-29
toeic
#toeic #english #test

Natural Language Processing

以前一定要從語言學去分析,才能處理比較好。現在都用統計的方式做,雖然人看不懂,但效果更好。 Information Retrieval (IR): 資訊檢索 Stemming: 詞幹還原 Lemmatization: 詞形還原 Stop Words: 常見但無意義的詞彙(如 “the”, “is”, “in”) Term Frequency (TF): 詞彙在文件中出現的頻率 $TF(t, d)
2025-09-24
AI
#ai #machine learning #nlp

數學筆記

我的數學好爛,忘光光,小補一下 Entropy$$H(P) = -\sum_{i} P(i) \log P(i)$$ 對於真實分布 $P$,設計最佳的編碼表,平均需要多少 bits。 bits 代表了資訊量,$H(P)$ 越小,代表分佈本身資訊量小 Cross Entropy$$H(P, Q) = -\sum_{i} P(i) \log Q(i)$$ 對於真實分布 $P$,
2025-08-12

LLM

詞向量像是如果要表示 貓,會用類似 [0.0074, 0.0023, -0.0012…] 的數字來表示貓的特徵,這些數字就是詞向量,共有 300 個數字。用這樣的向量可以表示詞空間的關係,像是 狗、寵物 等也用一樣的方法表示,這些詞在詞 World Space 中就會與 貓 比較接近。 這種高維度的表示法還有一個優勢是,可以用向量運算推理單字,像是 biggest - big = sm
2025-05-11
llm
#llm #research
123…7

Search

Hexo Fluid