๐ ์์ฝ ๐
โจ Point โจ
Abstract๋ก ํ๋ฆ ํ์ ํ๊ธฐ
quantization, knowledge distillation, model pruning ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ ๋ง์ ์ด์๋ค์ ์ํด ์ ์ฝ์ด ์๋ค. (hardware support, ๋ฐฉ๋ํ ํ์ต, ๋ชจ๋ธ ๋ด๋ถ ๊ตฌ์กฐ ๋ณํ)
-> ๊ฐ๊ฒฐํ(concise) layer-wise pruner์ธ Layer Collapse(LaCo)๋ฅผ ์ ์ํ๋ค.
์ด ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ ํ๋ฐ layer๋ฅผ ์์ชฝ layer์ ํฉ์น๋(collapse) ๋ฐฉ๋ฒ์ด๋ค. -> ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉด์ ์ฌ์ด์ฆ๋ฅผ ์ค์ผ ์ ์์
25-30%์ pruning ratio์์๋ 80%๋ฅผ ์๋๋ ์ฑ๋ฅ์ ์ ์งํ๋ค. (ํ์กดํ๋ SOTA ๋ชจ๋ธ๋ณด๋ค ์์ํผํฌ๋ฐํจ.) ในใ ..?
์ถ๊ฐ์ ์ผ๋ก post-training ์คํ ์งํ, layer-wise similarity, various pruning ratio์ ๋ํด ๋ ผ์ํ๋ค.
1. Introduction
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ LLM์ ๋ค์ํ ํ ์คํฌ์์ ์๋นํ ๋ฅ๋ ฅ์ ๋ณด์ด๊ณ ์์ผ๋, ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด์ computational resource์ ํ์๋๋ ๋์์ง๊ณ ์๋ค.
์ถ๋ก ์๋๋ฅผ ํฅ์์ํค๊ณ , ํ์ต cost๋ฅผ ์ค์ด๊ณ , ์์ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐฉ๋ฒ๋ค : quantization, knowledge distillation, model pruning
๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ๋ค์ ๋จ์ ์ด ์กด์ฌํจ.
- quantization : ํน์ ํ ํ๋์จ์ด๊ฐ ํ์ํ๋ค. ๋๋ก๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ค (์ด๋ ๊ฒ ๋น์ฐํ๊ณ ๋ค๋ฅธ ๊ฑฐ์๋ ํด๋นํ๋ ๋ง์ ์จ๋ ๋๋ ๊ฑฐ์?)
- kd : ์์ ๋ชจ๋ธ์ ์ฌํ์ตํด์ผ ํ๋ค.
- non-structured pruning: ๋ชจ๋ธ์ด sparseํด์ง๋ฉฐ ์ฑ๋ฅ ์ ํ ์ ๋ฐ๋จ, ํน์ ํ ํ๋์จ์ด๊ฐ ํ์ํ๋ค.
- strucrured pruning: ๋ชจ๋ธ์ ๊ตฌ์กฐ๊ฐ ๋ฐ๋๊ฑฐ๋ ๋ชจ๋ธ์ portability๊ฐ ๊ฐ์ํ๋ค.
์์ ๊ฐ์ ์ด์๋ค์ ๊ณ ๋ คํ์ฌ, ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
- ์ด๋ฏธ ํ์ต๋ LLM์์ ๋ช layer๋ฅผ pruningํ๋ค.
- ํ ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ค๋ฅธ ์ฌ๋ฌ ๋ ์ด์ด๋ก ๋์ฒดํ๋ค. (substitute the parameters of one layer for multiple layers) (ํฉ์น๋ค๋ ๋ป)
ํน์ ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ์ ์ฐจ์ด(differentials)์ ์ดํ๋ ์ด์ด๋ค์ mergegํด๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ์ฃผ์ง ์๋ ๊ฒ์ ๋ฐ๊ฒฌ.

Reserving-Differences-whileSeeking-Common (RDSC) Layer Merge ์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ก ํจ.
In this paper :
- 30-50% ๋ฅผ ์ ๊ฑฐํด๋ ์ถ๊ฐํ์ต์์ด ์ฑ๋ฅ ์ ์งํจ. ๋ค์ํ benchmarks ํ ์คํธ๋ฅผ ํตํด SOTA๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋จ์ ๋ณด์ฌ์ค
- LLM์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ์ ์งํจ. ์์คํ ๊ตฌํ์ ๋ณ๊ฒฝํ์ง ์๊ณ ๋ ๊ธฐ์กด ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํํ๊ฒ ํตํฉ๋ ์ ์์
- ์์ถ๋ ๋ชจ๋ธ์ด ํจ์จ์ ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ์์์ผ๋ฉฐ(interit), ์ต์ํ์ ํ์ต๋ง์ผ๋ก ์๋ณธ ๋ชจ๋ธ์์ค์ผ๋ก ๋ณต๊ตฌ๊ฐ ๊ฐ๋ฅํ์ง ํ์ธํ๊ธฐ ์ํด post-training์ ์งํ.
2. Method
2.1. Reserving-Differences-wile-Seeking-Common Layer Merge
l : LLM์ ๋ ์ด์ด
$๐_l$ : l๋ฒ์งธ ๋ ์ด์ด์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ค
$๐^*_l$ : ํฉ์ณ์ง ์ต์ข ๋ ์ด์ด

์ฌ๊ธฐ์ $theta_(l+k) - theta_l$์ layer-wise ํ๋ผ๋ฏธํฐ์ ์ฐจ์ด(difference)๋ฅผ ์๋ฏธํ๋ค.
์ค์ ๋ก ๊ณ์ฐํ ๋๋ self-attention(SAN)๊ณผ MLP ๋ ์ด์ด๋ฅผ ๊ฐ๊ฐ ์ฒ๋ฆฌํจ.
๊ทธ๋ฆฌ๊ณ ๋ฐ์์ด ๋ m๊ฐ์ ๋ ์ด์ด๋ ์์ ๋ฒ๋ฆฐ๋ค.
์ดํ์ pruning ๊ณผ์ ์์ ๊ณ์ RDSC Layer Merge๊ฐ ํฌํจ๋๋ฉฐ, ์ด๋ ํน์ ๋ ์ด์ด๋ก์ ์ฐ์์ ์ธ layer collapse๋ก ๋ณผ ์ ์๋ค. ์ด๋ฌํ ์ด์ ๋ก ‘Layer Collapse’๋ผ๋ ์ด๋ฆ์ ๋ถ์
2.2. Layer Collapse
์ต์์ ๋ ์ด์ด(topmost layer, ==ํ๋ฐ ๋ ์ด์ด)๋ถํฐ ์ธ์ ํ ๋ ์ด์ด๋ฅผ dynamicallyํ๊ฒ mergeํ๋ค.
few-shot calibration sample์ ์ฌ์ฉํ์ฌ ์๋ ๋ชจ๋ธ๊ณผ์ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ค.

(1) Preparation
M : LLM
C : mergeํ ๋ ์ด์ด ์
[L, H] : mergeํ ๋ ์ด์ด ๋ฒ์
I(i) : merge ์ฐ์ฐ ์ฌ์ด์ ์ต์ ๊ฐ๊ฒฉ
D : few-shot calibration data
T : ์๋ณธ ๋ชจ๋ธ๊ณผ merge๋ ๋ชจ๋ธ์ ์ ์ฌ๋ threshold
(2) Pruning (lline 1-17)

l : layer pointer (H-C) : ์ฆ ํ๋ฐ ๋ ์ด์ด๋ถํฐ ๋ด๋ ค์ค๋ฉด์ ๊ณ์ฐํ๋ค.
K :C -1(ํฉ์น ๋ ์ด์ด ๊ฐ์-1) ๊ณผ M^* - l(์ ์ฒด ๋ ์ด์ด ์์์ l์ ๋บ ๊ฐ) ์ค ์์ ๊ฐ
RDSC Layer Merge (line 4-5)
-๋ ์ด์ด l ๋ฐ๋ก ๋ค์์ K๊ฐ ๋ ์ด์ด๋ฅผ ๋ ์ด์ด l์ mergeํ ํ, ์ค๋ณต๋ K๊ฐ์ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐ
Calculate similarity (line6)
- calibration data (D)๋ฅผ ์ฌ์ฉํ์ฌ, ์๋ณธ ๋ชจ๋ธ๊ณผ ์์ถ๋ชจ๋ธ ๊ฐ๊ฐ์ ๋ง์ง๋ง ๋ ์ด์ด์ Output hidden state๋ฅผ ๊ตฌํ๋ค.
- ๊ตฌํ ๋ ๊ฐ์ ๊ฐ์ similarity score (s)๋ฅผ ๊ตฌํ๋ค.
Merge Evaluation and Adjustment (line 7-15)
- similarity score ๊ฐ threshold(T)๋ฅผ ๋์ผ๋ฉด mergeํ๋ค.
๊ทธ๋ฆฌ๊ณ ํฌ์ธํฐ l์ ๊ฐ๊ฒฉ ์ค์ ๊ฐ(i)๋งํผ ๋ด๋ ค๊ฐ๋ค.
- ์งํํ๋ค๋ณด๋ฉด ํฌ์ธํฐ l์ด ๋ ์ด์ด ๊ฐ์๋ณด๋ค ์ ์ด์ง ์ ์๊ธฐ ๋๋ฌธ์ l์ M^* - C๋ก ์ฌ์ค์ ํ๋ค. (line11)
2.3. Complexity Analysis
complexity๋ ๋ชจ๋ธ์ inference ์๋์ ๋ฌ๋ ค์๋ค.
์ต์ ์ ๊ฒฝ์ฐ, L = 0, H=์ ์ฒด๋ ์ด์ด์ , ๋ชจ๋ ๋ฐ๋ณต์์ s < T ์ด๋ฉด ๋ชจ๋ ๋ ์ด์ด๋ฅผ ์ํํ๊ฒ ๋๋ค.
-> O(H × ||D||)
e.g., Llama2-13B (40layers) ์ calibration data 10๊ฐ ์ฌ์ฉํ๋ฉด, ์ต๋ inference ํ์๋ 400๋ฒ์ด๊ธฐ ๋๋ฌธ์
single GPU ํ๊ฒฝ์์ ๋ช๋ถ๋ด๋ก ์๋ฃํ ์ ์๋ค.
3. Experiments
3.1. Models
Llama2-7B, 13B
Baichuan2-7B, 13B (์ค๊ตญ์ด, ์์ด)
3.2. Benchmarks
ํ๊ฐ ํด: OpenCompass evaluation framework
- Reasoning: CMNLI, HellaSwag, PIQA
- Language: CHID, WSC
- Knowledge: CommonSenseQA, BoolQ
- Examination: MMLU, CMMLU
- Understanding: Race-Higt/Midddle, XSum, C3
์ ๋ก์ท์ด๊ฑฐ๋ few์ท (์ถ๊ฐ ํ์ต x)
Evaluation
- perplexity(PPL), generation(GEN) for CHID, XSum, WSC
(ํ๊ฐ ํด์ธ OpenCompass์ ๋ฐ๋ผ ์ ์๊ฐ ๋ณํ๋์ด, ๋์ ์ ์๊ฐ ์ข์ ์ฑ๋ฅ์ ์๋ฏธํ๋ค)
3.3. Baselines
SOTA structured pruning ๋ฐฉ๋ฒ๋ค์ ์ ํํจ.
- LLM-Pruner, SliceGPT (์ฌ๊ธฐ ๋ ๋ชจ๋ธ์ SparseGPT๋ฅผ ๋ฅ๊ฐํ methode๋ค์)
3.4. Settings
Hyperparameter Setting

Calibration data
Llama2 : English Widipedia ์์ ๋๋ค 10๊ฐ
Baichuan2 : eng/cn wikipedia์์ ๊ฐ๊ฐ ๋๋ค 5๊ฐ
- Eng: English Widipedia ์์ ๋๋ค 10๊ฐ
- Cn: Chinese Widipedia
GPU
8 Nvidia A100 80GB GPU๋ฅผ ์ฌ์ฉ
3.5. Main Results

- ๋ค๋ฅธ baseline ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋, LaCo๊ฐ pruning ๋น์จ์ด ๋ ๋์์๋ ๋ถ๊ตฌํ๊ณ ์ฝ๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์๋ค.

- Reasoning ๋ฅ๋ ฅ์ ์ฝ๊ฐ ๋จ์ด์ง์ง๋ง, ๊ทธ๋๋ ๋น์ทํ ์์ค์ด๋ค.
- ์ ์ฒด์ ์ผ๋ก LoCo์ ์ฑ๋ฅ์ด ์ฐ์ํ๋ค. ์๋ณธ ๋ชจ๋ธ์ 80%์ ๋์ ์ฑ๋ฅ ์ ์ง๋ฅผ ํ๊ณ ์์. (๋ฐ๋ฉด ๋ค๋ฅธ baseline์ 70%๋ ๋์ง ๋ชปํจ)

- ์ฃผ๋ชฉํ ์ ์, GEN ๋ชจ๋๋ก ํ๊ฐํ ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ(CHID, XSUM, WSCG)์์ LaCo๋ก pruningํ LLM์ ๋น๊ต์ ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ์งํ๋ ๋ฐ๋ฉด, ๊ธฐ์กด ๋ฐฉ์์ผ๋ก pruningํ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ด ์ ํ๋์ด ์ผ๋ถ ๊ฒฐ๊ณผ๋ 0.00๊น์ง ๋จ์ด์ก๋ค๋ ๊ฒ
- ๊ธฐ์กด ๋ฐฉ์์ผ๋ก pruningํ ๋ชจ๋ธ์ ์๋ฏธ ์๋ ๋ฐ๋ณต ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฒฝํฅ (Table.23)

- Llama2-70B์์๋ outperformํ ๊ฒฐ๊ณผ
๊ฒฐ๋ก ์ ์ผ๋ก LaCo๋ ์ฐ์ํ pruner์ด๋ฉฐ,
๋ชจ๋ธ์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ๋ณ๊ฒฝํ์ง ์๊ณ , ํ๋ผ๋ฏธํฐ์ ์ฐจ์ด์ ์ถ๊ฐ์๋ง ์์กดํ๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฒฐํ๊ณ ํจ์จ์ ์ธ pruning ๋ฐฉ๋ฒ์ด๋ค.
3.6. Comparison of Perplexity
- Llama2-7B
27% sparsity
500 sentences selected from Wikipedia (length of 512 tokens)

3.7. Pruning Time
llama2-7B / 27% sparsity / A100 GPU

๋ชจ๋ธ ๋ก๋ฉ, ๋ฐ์ดํฐ ๋ก๋ฉ, ๋ชจ๋ธ ์ ์ฅ ์๊ฐ์ ์ ์ธํ๊ณ ์ฃผ์ pruning ๊ณผ์ ๋ง ์ธก์
- LaCo๋ ๋ ๋ฎ์ ์๊ฐ ๋ณต์ก๋์ ๋ ๋น ๋ฅธ pruning ์๋
3.8. Memory Usage and Inference Speed
llama2-13B / English Wiki dataset / bf16 / A100 GPU

-> consume less memory / achieve faster inference speed !
- baseline๋ค์ dense ๋ชจ๋ธ๋ณด๋ค ์ถ๋ก ์๋๊ฐ ๋๋ ค์ก๋ค (์คํธ..) ๋ฐ๋ฉด LaCo๋ ๊ทธ๋ฐ ๋ฌธ์ ์์.
4. Further Analysis
4.1. Post-training and Re-pruning
4.1.1. Post-training
purning์ผ๋ก ์ธํ ๋ถ๊ฐํผํ ์ฑ๋ฅ ์์ค ๋๋ฌธ์, LaCo ๋ชจ๋ธ์ด ์๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ณด์กดํ๊ณ ์์ผ๋ฉฐ, post-training์ผ๋ก ํ๋ณต์ด ๊ฐ๋ฅํ์ง ํ ์คํธํ์๋ค.
llama2-7b / Baichuan2-7b
- LLaMA-Factory framework๋ฅผ ์ฌ์ฉํด์ post-training์ ์งํ.

- ํ์ต ๊ณผ์ ์์ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ฉฐ, ์ฝ 250 ์คํ ์ดํ ์์ค์ด ๊ธ๊ฒฉํ ๊ฐ์ํ ๋ค ์์ ํ.
- 5B ํฌ๊ธฐ์ pruned llama2-7B์ Baichuan2-7B ๋ชจ๋ธ์ ์ต์ข convergence loss๋ ๊ฐ๊ฐ 1.6๊ณผ 2.0์ผ๋ก, ์ด๋ Llama2-7B(1.75)์ Baichuan2-7B(1.9)์ ๊ธฐ์ ๋ณด๊ณ ์์ ๊ธฐ์ฌ๋ ๊ฐ๊ณผ ์๋นํ ์ ์ฌ
- Nvidia A100 80GB GPU 4๊ฐ ์ฌ์ฉ, ํ์ต ์๊ฐ์ ๊ฐ๊ฐ ์ฝ 28์๊ฐ๊ณผ 35์๊ฐ
(์ฐธ๊ณ ๋ก, 5B(50์ต) ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ LLM์ ์ฒ์๋ถํฐ ํ์ตํ๋ ค๋ฉด ์๋ฐฑ ๊ฐ์ A100 GPU๋ฅผ ๋ช๊ฐ์ ๋์ ์ฌ์ฉํด์ผ ํจ.)
---
[ ํ๊ฐ ]


- llama2-7b์ ๊ฒฝ์ฐ, post-training์ ์งํํ์ ๋ ์ฑ๋ฅ์ด ๋ ์ค๋ฆ
-> ์ผ๊ด๋ ์ ์ ํฅ์์, LaCo ๋ฐฉ๋ฒ์ผ๋ก pruning๋ ๋ชจ๋ธ์ด ์๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ณ์นํ๊ณ , low-cost post-training์ ํตํด ์ฑ๋ฅ์ ํ๋ณตํ ์ ์์์ ๋ณด์ฌ์ค
- ๋ฐ๋ฉด baichuan2-7b์ ๊ฒฝ์ฐ, ์ผ๋ถ ๋ฒค์น๋งํฌ์์๋ ํฅ์ํ๊ณ ์ผ๋ถ์์๋ ํ๋ฝํจ
-> ์ฌ์ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ค์ํ ์ถ์ฒ๋ฅผ ํฌํจํ๊ณ ์์ด, ์ฐ๋ฆฌ์ post-training ๋ฐ์ดํฐ์ ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ post-training์ ํจ๊ณผ๊ฐ ์ ํ๋์๋ค๊ณ ์ถ์ธก
4.1.2. Re-pruning
post-training์ผ๋ก ์ฑ๋ฅ์ ํ๋ณต์์ผฐ๊ธฐ ๋๋ฌธ์, ์ฌ๊ธฐ์ ๋ purningํ์ฌ 50%์ ์์ถ๋ฅ ์ด ๊ฐ๋ฅํ ๊น?์ ๋ํ ์คํ์ ์งํ.
- llama2-7b / 17 layers (55%)


- ์๋ณธ 7b์ 70%์ ์ฑ๋ฅ์ ๋ณด์กดํ๋ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋จ.
- ๋ ๋์ data์ ๋ ๋ง์ data๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ๊ฒ์.
4.2. Layer-wise Similarity

[ ๊ฐ์ค์น ์ ์ฌ๋ ๋ถ์ ]
๊ฐ์ฅ ํฐ L2 ๊ฐ์ด 200์ ๋์ง ์๋๋ค. ์ฆ ์ธ์ ํ ๋ ์ด์ด๋ผ๋ฆฌ ๋งค์ฐ ์ ์ฌํ๋ค.
MLP matrix ์ฌ์ด์ฆ(11008*4096) ์ SAN q,k,v ์ฌ์ด์ฆ (4096*4096)๋ฅผ ๊ณ ๋ คํ์๋, ์ธ์ ํ ๋ ์ด์ด๊ฐ์ ๊ฐ ๋ณํ๋ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
(L2 distance๊ฐ 200์ด๋ฉด, ๊ฐ ์์๋น ํ๊ท ์ ์ธ ์ฐจ์ด๊ฐ 0.05์ ๋์ธ ๊ฒ์)

[ ๋ธ๋ญ ์์ํ ์ ์ฌ๋ ๋ถ์ (5-a) ]
3-28 layer์์ cosine ์ ์ฌ๋๊ฐ ๊ฑฐ์ 1์ ๊ฐ๊น๋ค.
[ ๋ธ๋ญ merge (5-b) ]
RDSC Layer Merge๊ฐ ์ฌ๋ฌ ์ธต์ ํ๋๋ก ๋์ฒดํ ์ ์์์ ๊ฒ์ฆํ๊ธฐ ์ํด ์คํ
- 10์ธต๋ถํฐ 19์ธต ์ฌ์ด์ ์ฐ์๋ 4๊ฐ ์ธต์ ํ๋๋ก ๋ณํฉ
- ๋ณํฉ๋ ์ธต์ ์ถ๋ ฅ๊ณผ ์๋ ๋ง์ง๋ง ์ธต์ ์ถ๋ ฅ ๊ฐ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํ๊ฐ (๋ญ๋ง์ด์ผ์ด๊ฒ)
4096์ฐจ์ ๋ฒกํฐ์ ๋ํ ์ต์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ 0.996 ์ด์์ผ๋ก ๋ํ๋, RDSC Layer Merge๊ฐ ํํ์ ์ ๋ณด์กดํจ์ ํ์ธํ์๋ค.
4.3. Varying Pruning Ratio

- llama2-7b / llama2-13b
- 10%, 25%, 50%

- pruning ๋น์จ์ด ์ปค์ง์๋ก ์ฑ๋ฅ๋ ํ๋ฝํ๋ค.
- ๊ทธ๋ฌ๋ 10-25%์์๋ ๋น์ทํ ์ฑ๋ฅ์ ์ ์งํ๊ณ ์๊ธฐ ๋๋ฌธ์, ์ด range์์๋ LaCo๊ฐ ์์ ์ ์ผ๋ก ์๋ํจ.
- 50%์ ratio์์๋ ์๋ณธ์ 70% ์ฑ๋ฅ์ ์ ์งํ๊ณ ์๋ค.
5. Related Work
- Model Quantization
- Knowledge Distillation
- Model Pruning
6. Conclusion
์ด ๋ ผ๋ฌธ์์๋ Layer Collapse(LaCo)๋ผ๋ ๊ฐ๊ฒฐํ ์ธต๋ณ ๊ตฌ์กฐํ pruning ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. LaCo๋ ๋ชจ๋ธ์ ๋ค์ชฝ ์ธต๋ค์ ์์ชฝ ์ธต์ ๋ณํฉํ์ฌ ๋น ๋ฅด๊ฒ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค์ธ๋ค. LaCo๋ ํน์ ํ๋์จ์ด ์ง์์ด ํ์ ์์ผ๋ฉฐ ๋ชจ๋ธ์ ๊ณ ์ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ค. ์คํ ๊ฒฐ๊ณผ LaCo๋ ํ์ฌ์ SOTA structured pruning ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํ์ ํ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๊ธฐ์กด LLM์์ ์ ์ฌ์ ์ธ ํ๋ผ๋ฏธํฐ ์ค๋ณต์ฑ์ ๋๋ฌ๋๋ค. ๋ํ, ๋ค์ํ LaCo ์ค์ ์ ๋ํ ์ ๊ฑฐ(ablation) ์ฐ๊ตฌ๋ฅผ ์ํํ์๋ค. pruned ๋ชจ๋ธ์ ๋ํด post-training์ ์งํํ์ฌ LaCo๊ฐ ์๋ณธ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ณ์นํจ์ ํ์ธํ๋ค. ์์ธ๋ฌ ์ธต๋ณ ์ ์ฌ์ฑ ๊ด์ ์์ ๋๊ธฐ๋ฅผ ๋ ผ์ํ๊ณ , ์๋ก ๋ค๋ฅธ pruning ๋น์จ์์ LaCo pruning ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ตฌํ์๋ค.
Limitations
1. layer-wise ์ด๊ธฐ ๋๋ฌธ์, pruning ๋น์จ์ ์์ ๋กญ๊ฒ ์ค์ ํ ์ ์๋ค.
2. ๐(์๋ณธ ๋ชจ๋ธ๊ณผ merge๋ ๋ชจ๋ธ์ ์ ์ฌ๋ threshold)์ ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํด์ผ ํ๋ค.
3. ๊ธฐ์กด ์ฐ๊ตฌ๋ค(baselines)๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ์ด๋ก ์ ์ธ ์ฆ๋ช ์ด ๋ถ์กฑํ๋ค. (our method lacks a complete theoretical proof)