Paper Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models摘要本文提出一種名為 Quantized Side Tuning (QST) 的訓練框架,旨在快速且記憶體效率高地微調大型語言模型(LLMs)。該方法透過兩階段處理: 將模型權重量化為 4-bit,減少儲存所需的記憶體 2025-11-13 paper #research #paper
Deep Learning Linear AlgebraSpan & Linear Dependence在 Machine Learning 裡面,不管原本的 function 是不是 Linear,我們都會試著用 Linear function 來 Approximate 它。 $\text{span}(A_{:,1}, A_{:,2}, \ldots, A_{:,n})$ 被稱為 column space of 2025-11-06 AI #deep learning #ai #machine learning
LeetCode Contest Weekly Contest 4743731. Find Missing Elements - Easy給定 nums 陣列,找出裡面最小和最大的值之間缺少的所有整數。 123456789101112131415161718class Solution {public: std::vector<int> findMissingElements(std::vector&l 2025-11-02 Leetcode #leetcode
Tech Reflections 軟體開發的第一原則 Make it work Make it right Make it fast Make it work 如果總是糾結於 refactor、優化,沒有完整能運作的系統,一切都是空談。 軟體的生命始於上線,一個沒有上線、沒有被實際使用過的軟體,無論架構多好、程式碼多漂亮,都是毫無意義的。 Make it right 隨著對問題的理解,會接觸到更多的 edge case 和新技 2025-11-01 #tech
Algorithm Moore’s Voting Algorithm 摩爾投票法找出一個序列中出現次數超過一半的元素。 (majority element) 123456789candidate = Nonecount = 0for num in nums: if count == 0: candidate = num if num == candidate: count += 2025-10-24 Algorithm #algorithm
Deep Learning Lab Lab 10: Word2Vec & Noise Contrastive Estimation using Subclassing1234567891011121314151617181920import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # disable warning and info mes 2025-10-11 AI #deep learning #ai #machine learning
TOEIC Corporate Developmentinnovation The company encourages innovation to stay ahead of its competitors. encourage innovation drive innovation foster innovation strategy Our marketing strategy focuses o 2025-09-29 toeic #toeic #english #test
Natural Language Processing 以前一定要從語言學去分析,才能處理比較好。現在都用統計的方式做,雖然人看不懂,但效果更好。 Information Retrieval (IR): 資訊檢索 Stemming: 詞幹還原 Lemmatization: 詞形還原 Stop Words: 常見但無意義的詞彙(如 “the”, “is”, “in”) Term Frequency (TF): 詞彙在文件中出現的頻率 $TF(t, d) 2025-09-24 AI #ai #machine learning #nlp
數學筆記 我的數學好爛,忘光光,小補一下 Entropy$$H(P) = -\sum_{i} P(i) \log P(i)$$ 對於真實分布 $P$,設計最佳的編碼表,平均需要多少 bits。 bits 代表了資訊量,$H(P)$ 越小,代表分佈本身資訊量小 Cross Entropy$$H(P, Q) = -\sum_{i} P(i) \log Q(i)$$ 對於真實分布 $P$, 2025-08-12
LLM 詞向量像是如果要表示 貓,會用類似 [0.0074, 0.0023, -0.0012…] 的數字來表示貓的特徵,這些數字就是詞向量,共有 300 個數字。用這樣的向量可以表示詞空間的關係,像是 狗、寵物 等也用一樣的方法表示,這些詞在詞 World Space 中就會與 貓 比較接近。 這種高維度的表示法還有一個優勢是,可以用向量運算推理單字,像是 biggest - big = sm 2025-05-11 llm #llm #research