933yee's Notes

Paper

Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models摘要本文提出一種名為 Quantized Side Tuning (QST) 的訓練框架，旨在快速且記憶體效率高地微調大型語言模型（LLMs）。該方法透過兩階段處理：將模型權重量化為 4-bit，減少儲存所需的記憶體

2025-11-13

paper

#research #paper

Deep Learning

Linear AlgebraSpan & Linear Dependence在 Machine Learning 裡面，不管原本的 function 是不是 Linear，我們都會試著用 Linear function 來 Approximate 它。 $\text{span}(A_{:,1}, A_{:,2}, \ldots, A_{:,n})$ 被稱為 column space of

2025-11-06

AI

#deep learning #ai #machine learning

LeetCode Contest

Weekly Contest 4743731. Find Missing Elements - Easy給定 nums 陣列，找出裡面最小和最大的值之間缺少的所有整數。 123456789101112131415161718class Solution {public: std::vector<int> findMissingElements(std::vector&l

2025-11-02

Leetcode

#leetcode

Tech Reflections

軟體開發的第一原則 Make it work Make it right Make it fast Make it work 如果總是糾結於 refactor、優化，沒有完整能運作的系統，一切都是空談。軟體的生命始於上線，一個沒有上線、沒有被實際使用過的軟體，無論架構多好、程式碼多漂亮，都是毫無意義的。 Make it right 隨著對問題的理解，會接觸到更多的 edge case 和新技

2025-11-01

#tech

Algorithm

Moore’s Voting Algorithm 摩爾投票法找出一個序列中出現次數超過一半的元素。 (majority element) 123456789candidate = Nonecount = 0for num in nums: if count == 0: candidate = num if num == candidate: count +=

2025-10-24

Algorithm

#algorithm

Deep Learning Lab

Lab 10: Word2Vec & Noise Contrastive Estimation using Subclassing1234567891011121314151617181920import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # disable warning and info mes

2025-10-11

AI

#deep learning #ai #machine learning

TOEIC

Corporate Developmentinnovation The company encourages innovation to stay ahead of its competitors. encourage innovation drive innovation foster innovation strategy Our marketing strategy focuses o

2025-09-29

toeic

#toeic #english #test

Natural Language Processing

以前一定要從語言學去分析，才能處理比較好。現在都用統計的方式做，雖然人看不懂，但效果更好。 Information Retrieval (IR): 資訊檢索 Stemming: 詞幹還原 Lemmatization: 詞形還原 Stop Words: 常見但無意義的詞彙（如 “the”, “is”, “in”） Term Frequency (TF): 詞彙在文件中出現的頻率 $TF(t, d)

2025-09-24

AI

#ai #machine learning #nlp

數學筆記

我的數學好爛，忘光光，小補一下 Entropy$$H(P) = -\sum_{i} P(i) \log P(i)$$ 對於真實分布 $P$，設計最佳的編碼表，平均需要多少 bits。 bits 代表了資訊量，$H(P)$ 越小，代表分佈本身資訊量小 Cross Entropy$$H(P, Q) = -\sum_{i} P(i) \log Q(i)$$ 對於真實分布 $P$，

2025-08-12

LLM

詞向量像是如果要表示貓，會用類似 [0.0074, 0.0023, -0.0012…] 的數字來表示貓的特徵，這些數字就是詞向量，共有 300 個數字。用這樣的向量可以表示詞空間的關係，像是狗、寵物等也用一樣的方法表示，這些詞在詞 World Space 中就會與貓比較接近。這種高維度的表示法還有一個優勢是，可以用向量運算推理單字，像是 biggest - big = sm

2025-05-11

llm

#llm #research