๐ ์์ฝ ๐
โจ Point โจ
block-level (Transformer block)๋ก importance ๊ณ์ฐ (mag / taylor / ppl)
LoRA / Continued Pretraining์ผ๋ก ์ฌํ์ต (retraining)
Abstract๋ก ํ๋ฆ ํ์ ํ๊ธฐ
pruning์ ๋ฐฉ๋ฒ์ผ๋ก width์ depth๊ฐ ์๋๋ฐ,
๋๋ถ๋ถ์ ์ฐ๊ตฌ๊ฐ width-only ๋๋ blend of width and depth๋ก ์ด๋ฃจ์ด์ง๊ณ ์๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๊ฐ๋จํ depth pruning๋ง์ผ๋ก๋ LLM์ ํจ๊ณผ์ ์ผ๋ก compressํ ์ ์๋ค๊ณ (?) ์ฃผ์ฅํ๋ค.
์ถ๋ก ์๋๋ ๋น ๋ฅด๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ๋ ๊ณ ๋ คํ์๋ค(์ ํ๋ Batch size)
1. Introduction
- ๋ณธ ์ฐ๊ตฌ๋ structured pruning์ ๊ดํ๋ค.
structured pruning์ ๋ถํ์ํ ๊ฐ์ค์น ๊ทธ๋ฃน์ ์ ๊ฑฐํ๊ณ , hardware-agnostic acceleration์ ์ฉ์ดํ๊ฒ ํ๋ค.
* hardware-agnostic acceleration: ํน์ ํ๋์จ์ด์ ์ข ์๋์ง ์๊ณ ๋ค์ํ ํ๋์จ์ด(์: CPU, GPU, NPU, FPGA ๋ฑ) ์์์๋ ์ ๋์ํ๋ฉด์ ์ฑ๋ฅ์ ๋์ด๋ ๊ธฐ์
- LLM inference๋ autoregressive decoding ๋งค์ปค๋์ฆ์ ๋ฐ๋ฅธ๋ค. ์ ํ ํฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ ํฐ ํ๋์ฉ ์์ธกํ๋ ๋ฐฉ๋ฒ์ด๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ memory-bound nature๋ฅผ ๋ณด์ด๋๋ฐ, ์ด๋ GPU ์ฐ์ฐ๋ฅ๋ ฅ ์ธก๋ฉด์์ ์๋นํ ๋นํจ์จ์ ์ด๋ค.
-> batch size๋ฅผ ํค์ฐ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ณ ์์ง๋ง, ์ ํ๋ GPU ํ๊ฒฝ์์๋ ๋ฐฐ์นํฌ๊ธฐ๋ฅผ ์๊ฒํ ์๋ฐ์ ์๊ธฐ ๋๋ฌธ์, ์ด๋ฐ ํ๊ฒฝ์์๋ ์ถ๋ก ์๋๋ฅผ ๋์ด๊ณ ์ ํ์์.
- depth pruning์ ํฐ ์ ๋์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ด๋ค๋ณด๋ width์ ๋นํด ๋นํจ์จ์ ์ด๋ผ๊ณ ์ฌ๊ฒจ์ก์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์์ ๊ผญ ๊ทธ๋ ์ง๋ ์๋ค๋ ๊ฒ์ ๋ฐํ๋ค.
Contribution:
1. ์ ํ๋ ๋ฐฐ์น์ฌ์ด์ฆ์์, width pruning์ ์ถ๋ก ์๋ ํฅ์ X
2. ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ depth pruning ๋ฐฉ๋ฒ ์ ์
3. pruning ratio๊ฐ ์ ๋นํ๋ฉด LoRA๋ฅผ ํตํ retraining์ด, ratio๊ฐ ์ปค์ง๋ฉด full-parameter update๊ฐ ์ฑ๋ฅ ํฅ์์ ์ค์ํ๋ค.
2. Problem: Small-batch LLM Inference

our focus is on accelerating the inference of LLMs under small-batch conditions caused by hardware restrictions. (๋ฐฐ์น์ฌ์ด์ฆ๋ฅผ ํค์์ inference ์๋๋ฅผ ํฅ์์ํค๋ ๊ฒ ์๋๋ผ, pruning์ ํตํด์ ์๋๋ฅผ ํฅ์์ํจ๋ค๋ ์๋ฏธ์์ ์ธ๊ธํ ๊ฒ ๊ฐ์. ๋ฐฐ์น์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋ ๋ฐฉ๋ฒ์ GPU ๋ถ์์ผ ๋๋ง ๊ฐ๋ฅํ๋ฏ๋ก, ์์ ๋ฐฐ์น์ฌ์ด์ฆ์์๋ ์ ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ์ด๋ค.-)
1. width ํ๋ฃจ๋์ ์์ฑ ์๋๋ฅผ ํฅ์์ํค์ง ์์ผ๋ฉฐ, ๊ฐ์ค์น์ ์ฐจ์์ด GPU์ ์ ํฉํ์ง ์๊ฒ ๋ณํ๋ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ์ ํ๋๊ธฐ๋ ํ๋ค.
2. ์๋ฏธ์๋ ์๋ ๊ฐ์ ์ depth ํ๋ฃจ๋์ ํตํด์๋ง ๊ฐ๋ฅํ๋ค.
3. Method: Block Pruning
ํธ๋์คํฌ๋จธ ๋ธ๋ญ ์์ฒด๋ฅผ ํ๋ฃจ๋ํ ํ๋์ ์ ๋์ผ๋ก ๋ณธ๋ค.
๋ฐฉ๋ฒ: ๊ฐ๋จํ metric์ผ๋ก ์ค์ํ์ง ์์ ๋ธ๋ญ์ ์๋ณํ๊ณ , one-shot pruning์ ํ๋ค.
3.1. Evaluation of Block-level Importance

: linear weight matrix
size: (d_out, d_in)
k: type of operation (e.g. ๋ฉํฐํค๋์ดํ ์ ์ query projection,, FFN์ up projection ๋ฑ)
n: n๋ฒ์งธ ํธ๋์คํฌ๋จธ ๋ธ๋ญ
- output neuraon level๋ก weight importance score์ ๊ณ์ฐํ๋ค...(๋ญ๋ผ๋๊ฑฐ)
Magnitude(Mag).

์์ norm์ ๊ฐ์ง weight์ ๋ ์ค์ํ ์ ๋ณด์ด๋ค.
Taylor

: ์ด๋ค weight $W_{i,j}^{k,n}$๋ฅผ 0์ผ๋ก ๋ง๋ค์์ ๋ ๋ชจ๋ธ ์ฑ๋ฅ(Loss)์ด ์ผ๋ง๋ ๋ณํ๋์ง(์ฆ, ์ ๊ฑฐํ์ ๋์ ์ํฅ๋ ฅ)๋,
๊ทธ weight์ ํฌ๊ธฐ์ ์์ค์ ๋ํ gradient์ ๊ณฑ์ ์ ๋๊ฐ์ผ๋ก ๊ทผ์ฌํ ์ ์๋ค.
์ฐํญ : ๋ณํ๋ฅผ 1์ฐจ ๋ํจ์๋ก ๊ทผ์ฌํ ๊ฐ (Taylor expansion)

ํน์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๊ฑฐํ์ ๋ ์๊ธฐ๋ error๋ฅผ ํตํด ์ค์๋๋ฅผ ์ธก์ ํ๋ค.
Mag+ and Taylor+
ํธ๋์คํฌ๋จธ ์ด๋ฐ ๋ธ๋ญ์ ์ค์ํ์ง ์๋ค๊ณ ๋ ์ด๋ธ๋๊ธด ํ๋๋ฐ, ๋ง์ ์์ ๋ฉด ์ฑ๋ฅ ์ ํ๋๋ค๋ ์ด์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ
-> ์ฒซ 4๋ธ๋ญ, ๋ง์ง๋ง 2๋ธ๋ญ์ ๋ณด์กด
Perplexity (PPL)

๊ฐ ๋ธ๋ญ์ ์์ ๋ฉด์ PPL ๋ณํ๋ฅผ ์ธก์ (calibration set ์ฌ์ฉ)
์ธํ^n : n๋ฒ์งธ ๋ธ๋ญ์ ๋บ ๋ชจ๋ธ
s = 1,...,S : ์ํ์ค
l = 1,...,L : ํ ํฐ
- PPL์ next-token prediction loss์์ ์ ๋๋๊ณ , forward-apss computation๋ง ์๊ตฌํ๋ค.

์ ๋ค ๋ธ๋ญ์ ๋นผ๋ฉด ppl์ด ์น์๋๋ค..
(์ค................... ์ค... ์คํ๋ ค ์ค๊ฐ ๋ ์ด์ด๋ฅผ ๋บ ๊ฒฝ์ฐ๊ฐ ppl ๋ณํ๊ฐ ์ ๋ค.. ์ค..
์ ๋ค ๋ธ๋ญ์ ์ค์ํ ์ ๋ณด๊ฐ ๋ด๊ฒจ์๋ ๊ฑด๊ฐ??? ์?
๊ทธ๋ฅ ๋จ์ํ '์ ๊ฑฐ'๋ง ํ ๊ฑฐ๋ผ์ ppl์ด ์ฆ๊ฐํ๋ ๊ฑฐ๊ฒ์ง? distill์ฒ๋ผ ์กฐ์น๋ฅผ ์ทจํ๋ฉด ใฑใ ์์ง ๊ฑฐ ๊ฐ๊ธฐ๋ ..ํ๊ณ .....)
accuracy ๊ฒฐ๊ณผ๋ ๋น์ทํ๋ ค๋???
3.2. One-shot Pruning
๋ธ๋ญ๋ณ๋ก ์ค์๋ ์์๋ฅผ ๊ตฌํด๋๊ณ ์ด์ ํ๋ฃจ๋์ ์งํํ ์์์ด๋ค.
๋ธ๋ญ์ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ฅผ ๊ตฌํ ์ ์์ผ๋ฏ๋ก, ์ํ๋ ์ฌ์ด์ฆ๋ก ํ๋ฃจ๋ํ ์ ์๋ค.
iterative pruning์ one-shot pruning๋ณด๋ค ์ปดํจํ ํ์์ด ๊ธธ๋ค๋ ๋จ์ ์ด ์๋ค.
๊ฒ๋ค๊ฐ ์ด๋ค ํ๋ฃจ๋ scheme์ ์ผ๋๋๋ณด๋ค retraining ์ ๋ต์ด ๋ ์ค์ํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ๋ค.
3.3. Retraining for Performance Restoration
structured pruning์ ์ฌํ์ต์ด ํ์์๊ฑฐ๋ ๋ฎ์ ์ฌํ์ต ๋น์ฉ์ผ๋ก ์คํ ๊ฐ๋ฅํ๋ค๊ณ ์ต๊ทผ ์ฐ๊ตฌ์์๋ ์์ํ๋ค.
ํ์ง๋ง ์ฌํ์ต '๋ฐฉ๋ฒ types'์ ๋ํ ๋ถ์์ ์ถฉ๋ถํ์ง ์๊ธฐ ๋๋ฌธ์ ์งํํ์๋ค.
๊ทผ๋ฐ ํ๋ฃจ๋์ ํ๊ณ ์ฌํ์ต์ ํ๋ฉด.............................................์ข์ ์ด๊ธฐํ๋ง๊ณ ์ฅ์ ์ด ๋ ์๋? ํ์ผ์ผ์
ํฐ ๋ชจ๋ธ์ ์ด์ผ ์ด๋ฆด ๊ฑด์ง?? ์๊ฐํ๋ค๊ฐ MoE๋ก ๋์ด๊ฐ๋ค ์ด ,, ํฐ ๋ชจ๋ธ๊ณผ ์ ๋ฌธ๊ฐ.........................
Low-Rank Adaptation (LoRA)
width์ ์ ์ฉํ ์ด์ ์ฐ๊ตฌ(Ma et al. (2023)) (๋ฆฌ๋ทฐ) ๋ฅผ ๋ฐ๋ผ ๋ณธ ์ฐ๊ตฌ์๋ ์ ์ฉํด๋ด.
ํจ๊ณผ๊ฐ ์์์ผ๋ ํ๋ฃจ๋ ๋น์จ์ด ๋์์ง๋ฉด ์ ๋๋ก ์๋ํ์ง ์๋ ํ์ (width, depth ๋ชจ๋)
Continued Pretraining (CPT)
large-scale pretraining corpus๋ก ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ.
LoRA๋ณด๋ค๋ ๋ ๋ง์ ๋ฆฌ์์ค๊ฐ ํ์ํ์ง๋ง ํ์ต ์๋๋ ๋น ๋ฅด๊ณ , ๋๋ค ์ด๊ธฐํ๋ณด๋ค ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ธ๋ค.
CPT -> LoRA
CPT ํ๊ณ ๋์ instruction set์ ์ฌ์ฉํด์ LoRA๋ฅผ ์ ์ฉํด์ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅํฅ์์ด ์๋์ง ๋ณด์๋ค.
4. Experimental Setup
Source Model
LLaMA-7B
Vicuna-{7B, 13B}-v1.3
Baseline
[ Width pruning ]
LLM-Pruner
FLAP
Wanda-sp
[ Retraining-free block pruning method ]
SLEB

Data
BookCorpus
Alpaca (for LoRA)
SlimPajama (for CPT)
Evaluation
zero-shot accuracy (BoolQ, PIQA, HellaSwag, WinoGrande, ARC-easy, ARC-challenge, OpenbookQA)
zero-shot PPL (WidiText2, PTB)
Latency and Throughput(์ฒ๋ฆฌ๋)
(์ถ๋ก ์๋๊ฐ ๋น ๋ฅด๋ค๋ ๊ฑธ ๋ณด์ฌ์ฃผ๊ธฐ ์ํจ)
batch size: M
output sequence length: L
latency: T (M L ์์ํ ํ ํฐ ์์ฑ๊น์ง)
throughput: M L / T
Implementation
..
5. Results
5.1. Moderate Pruning and LoRA Retraining

- width pruning์ด LLM ์ถ๋ก ํจ์จ์ฑ์ ์ฆ๊ฐ์ํค์ง ์๋๋ค.
- width pruning์ ๊ฒฝ์ฐ ์๋๊ฐ ์คํ๋ ค ์ฆ๊ฐํ ๊ฒฝ์ฐ๋ ์๋๋ฐ, GPU์ ์ต์ ํ๋์ง ์์ ์ฐจ์์ผ๋ก ๋ฐ๋์๊ธฐ ๋๋ฌธ์ด๋ค (e.g., FFN์ hidden size๊ฐ 8๋ก ์ ๋๋ ์ง)
- ๋ฐ๋ฉด depth๋ ์๋๋ ๋นจ๋ผ์ง๊ณ , ์ ์ ๋ฉ๋ชจ๋ฆฌ ์ ๊ทผ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- LLM-Pruner๋ ๋๊ฐ์ด LoRA๋ฅผ ์ฌ์ฉํ์ง๋ง width๋ ๋น์ทํ๊ฒ ์ฑ๋ฅ์ด ๋์๋ค.. .. .
- SLEB๋ ๋น๊ตํ์ ๋, ์ฌ์ด์ฆ๊ฐ ์์์ง๋ฉด ์๋์ ์ผ๋ก ๋ณ๋ก์
5.2. Aggressive Pruning and CPT Retraining

- ํ๋ฃจ๋ ratio๊ฐ ํด ๋(fewer than 3.7B param) LoRA-based tuning์ด๋ retraining-free approach ๋ ๋ค ์ฑ๋ฅ์ด ๋ฎ๋ค.
- CPT ๋ฐฉ๋ฒ์ ํจ๊ณผ์ ์ / CPT->LoRA๋ zs accuracy๋ ์กฐ๊ธ ํฅ์, PPL์ ์กฐ๊ธ ์ ํ
- CPT ๋ฐฉ๋ฒ์ LoRA๋ ๋น๊ตํ์ ๋๋ ๊ณ์ฐ ๋น์ฉ ๋๊ธดํ๋ฐ, ๊ธฐ๋ณธ ๋ชจ๋ธ์ CPT(GPU8๊ฐ๋ก 2์ฃผ)ํ๋ ๊ฒ๋ณด๋ค๋ ์์ ํจ์จ์ ์(GPU1๊ฐ๋ก ํ๋ฃจ)

- 60% ํ๋ฃจ๋๋ ๋ชจ๋ธ (2.7B) , our๋ ์ ์์ฑํ๋ค.

- ๊ฐ์ ์ฌ์ด์ฆ์ ๋ชจ๋ธ์ธ ๊ฒฝ์ฐ, ๋๋ค ์ด๊ธฐํ๋ณด๋ค pruning์ผ๋ก ์์ํ๋ ๊ฒ ๋ ์ข์ ๊ฒฐ๊ณผ
5.3. Applicability with Quantization

GPTQ ๋ฐฉ๋ฒ์ผ๋ก ํฐ ์ฑ๋ฅ์ ํ ์์ด VRAM ์ฌ์ฉ์ ์ค์๋ค.
* PTQ: ๋ชจ๋ธ ํ์ต(traning)์ด ๋๋ ํ, ๋ฌด๊ฒ๊ณ ๋๋ฆฐ ๋ชจ๋ธ์ ๊ฐ๋ณ๊ฒ(๋น ๋ฅด๊ฒ) ๋ง๋ค๋ ค๊ณ ์ซ์(ํ๋ผ๋ฏธํฐ, ์ฐ์ฐ ๊ฒฐ๊ณผ)๋ฅผ ‘์๊ฒ’ ๋ฐ๊ฟ์ฃผ๋ ๊ธฐ์
* VRAM: Video RAM, GPU์ ์ฉ ๋ฉ๋ชจ๋ฆฌ
5.4. Ablation Study
5.4.1. Importance Criteria for Block Pruning

'+' ํ์๊ฐ ์๋ ๋ฉ์๋๋ค์ essentialํ initial block๋ค์ ์ ์งํ๋๋ฐ ์คํจํ์ -> ์ฑ๋ฅ ์ ํ
- ๊ฐ์ค์น์ ํฌ๊ธฐ์๋ง ์์กดํ๋ Mag ๋ฐฉ๋ฒ๋ณด๋ค๋ Taylor ๋ฐฉ๋ฒ์ด ์ฐ์ํ๋ค
5.4.2. Structural Unit for Depth Pruning
๊ฐ ๋ชจ๋(MHA, FFN)์ ๊ธฐ์ค์ผ๋ก ์ ๊ฑฐํ์ ๋์ ์ํฅ์ ์ธก์ (+LoRA)

- 5B ๋ณด๋ค ํด ๋๋ ๊ฐ ๋ชจ๋์ ๊ธฐ์ค์ผ๋ก ์ ๊ฑฐํ์ ๋ accuracy๊ฐ ์ข ๋ ๋์ง๋ง, ๊ทธ ์ธ๋ ๋ธ๋ญ ๋จ์๊ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์.
์ด๋ ์์ ๋จ์๋ก ์ ๊ฑฐํ ์๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ์ผ๋ฐ์ ์ธ ๋ฏฟ์๊ณผ ๋ค๋ฅด๋ค. (์ฅ? ๋น์ฐํ .. ์ค๊ฐ์ ์๋ MHA๋ FFN์ด ์ ๊ฑฐ๋๋ฉด ํ์ต๋ ํ๋ฆ์ด ๋๊ธฐ๋๊น ์์ฒญ ์ ์ข์ ๊ฑฐ ๊ฐ์๋.;; ๊ทผ๋ฐ ๊ทธ๋ฐ๊ฑฐ ์น๊ณ ๋ ์ฑ๋ฅ์ด ๋์ ํธ์ธ ๊ฒ ๊ฐ๊ธฐ๋ ํ๊ณ )
- ์ฌ์ค ๊ฐ ๋ชจ๋์ ๊ณต๋์ ์ญํ ์ด ์๊ธฐ ๋๋ฌธ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ ์ต์ ์ ๋ฐฉ๋ฒ์ ์๋ ์ ์๋ค๊ณ ์ธ๊ธํ๋ค.
- Table 6์์ 5.3B์ ๊ฒฝ์ฐ ์ผ๋ถ ๊ตฌ๊ฐ์์ FFN๋ง ์ฐ์์ ์ผ๋ก ๋จ์ ๊ฒฝ์ฐ๋ ์์๋ค -> attention์ด ์์ด์ ธ์ word interaction์ ๋ค๋ฃจ๋ ๋ชจ๋ธ ๋ฅ๋ ฅ ๋จ์ด์ก์ ๊ฒ
- ๋ฐ๋ฉด ๋ธ๋ญ๋จ์ ํ๋ฃจ๋์, ์ด์ํ ๋ธ๋ญ๋ค์ด ์์ค๋ ์ ๋ณด์ ์ ์ฌํ ๊ธฐ๋ฅ์ ํ์ ๊ฒ
5.4.3. Calibration(๊ต์ ) Data Volume

- block-level importance๋ฅผ ๊ตฌํ๊ธฐ ์ํด calibration data๋ฅผ ์ฌ์ฉํ๋ค.
- Table 7์ ๋ณด๋ฉด ์ ์ ์๋ฏ 10๊ฐ๋ก๋ ์ถฉ๋ถํ๋ค.
- Taylor+์ ๊ฒฝ์ฐ์๋, 1k๊ฐ์ ์ํ์ ์ธ ๋ ์ ํ๋๊ฐ ๋ ๋ฎ์์ง๋ ๋ชจ์ต์ ๋ณด์ธ๋ค.
(์์ธ์ ๋ํ ํ๊ตฌ๋ future research๋ก ๋๊ธด๋ค)
6. Related Work
* SparseGPT (Frantar and Alistarh, 2023) addresses the layer-wise reconstruction problem for pruning by computing Hessian inverses.
* structured pruning removes organized patterns, such as layers (Fan et al., 2020; Jha et al., 2023), (์๋ abstract๋ง ๋ณด๊ธด ํ์ง๋ง ๋ ์ด์ด ๋จ์ ์๋๊ฑฐ ๊ฐ์๋ฐ ;;;;;;) FFN’s hidden sizes (Nova et al., 2023; Santacroce et al., 2023), and some hybrid forms (Lagunas et al., 2021; Xia et al., 2022; Kwon et al., 2022; Kurtic et al., 2023)
* Sheared-LLaMA (Xia et al., 2024) introduces a mask learning phase aimed at identifying prunable components in both the network’s width and depth.
* depth pruning approaches (Song et al., 2024(SELB); Men et al., 2024(ShortGPT); Tang et al., 2024(Rethinking...))