๐ ์์ฝ ๐
โจ method ์ ๋ฆฌ โจ
ํ๋ฃจ๋๋ ๋ ์ด์ด ์ฌ์ด์ activation channel๊ฐ magnitude๊ฐ ๋งค์ฐ ๋ถ์ผ์นํ ํ์์ ์ฃผ๋ชฉ.
์ด activation scale์ ๋ง์ถฐ์ฃผ๊ธฐ ์ํ scaling factor๋ฅผ ๋์ ํ๋ค.
1. channel-wise scaling : d
ํ๋ฃจ๋ ์ดํ ์ํฅ์ ๋ฐ๋ ๋ ๋ ์ด์ด๊ฐ์ activation (X)์ ํ๊ท activation magnitude์ ๋น์จ
2. token-wise scaling : H
outlier๊ฐ ๋๋ ํ ํฐ๋ค์ด ์๋ค.(eg. [BOS] ...) ์ด๋ฅผ ์ํํ๊ธฐ ์ํด Hadamard transform์ ์ ์ฉํ๋ค.
์ ๋ ๊ฐ์ scaling ๊ณผ์ ์ ํ๋๋ก ๊ฒฐํฉํ์ฌ patch matrix P๋ฅผ ๋ง๋ ๋ค. (dim x dim)
P๋ offline distillation ๊ณผ์ ์ผ๋ก KL-div๋ฅผ ์ฌ์ฉํ์ฌ finetuning ์ํจ๋ค.
์์ฑ.
---
* ๊ทผ๋ฐ pruningํ ๋ ์ด์ด ์ ํ๋ ๊ฑฐ๋ ๊ทธ๋ฅ ๊ธฐ์กด์ ๋ง์ด ์ฌ์ฉํ๋ ๋๋ก cosine sim์ ์ผ๋ค๊ณ ๋ฐํ.
๊ทธ๋ผ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์๋ก์ด ๋ ์ด์ด๋ฅผ ๋ฃ๋ ๋ฐฉ๋ฒ์ด๋ ๋น์ฐํ๊ฒ๋ ์ข์์ง์ง ์์ผ๋ ค๋ ์ถ๊ธด ํจ.
์ ์๋ก์ด patch ๋ง๋๋ ๋ฐฉ๋ฒ์ด ํ์(activation mag ๋ถ์ผ์น) ์์ด๋ณด์ด๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ(hardamard transform)์ ๋์ด๋ค์๊ฐ์ง๊ณ novelty๊ฐ ์๊ธด ๊ฒ ๊ฐ๋ค.
* ๊ทธ๋ฆฌ๊ณ ํ๋ ์ํฐ๋ฒ ์ด์ ์ด ์๋ค๋ฉด.. ๊ทธ๊ฒ์กฐ์ฐจ ํฐ์ฒ๋ชจ๋ธ์์ ๋์จ๊ฑด๋ฐ ์ ์งํด์ผ ํ๋ ๊ฑฐ ์๋๊ฐ? ์ ์๋ค๋ง๋ฅด ๋ณํ์ ๊ทธ๊ฑธ ์ ์งํ๋?? ์๋ ๋ ์ด์ด๊ฐ ์ ๊ฑฐ๋์ง ์์ผ๋ฉด ๊ทธ ํ๋ ์ํฐ๋ฒ ์ด์ ์ด ์ ์ ์ฌ๋ผ์ง๋ ๊ฑฐ์ผ? ๊ทธ๊ฒ ์๋๋ผ๋ฉด ๊ตณ์ด ์์จํ์๊ฐ ์์์
---
๋ชฉ์ฐจ๋ถํฐ ๋ญ๊ฐ ๊น๋ํ๋ค
์ ๋ฐํ๊ธด ํจ
์๋ก์ด ๋ ์ด์ด..
์ด์จ๋ finetuning์ ์ํค๋ ๊ฑฐ๋ฉด ์ด๊ธฐํ์ ๋ถ๊ณผํ ๊ฒ ๊ฐ์. (์ข์์ด๊ธฐํ? ์ผ๋ง๋ ์ข์๋ฐ??)
๊ทธ๋ฆฌ๊ณ ๋ท์ชฝ ๋ ์ด์ด์ ์์ํ๊ณผ activation์ ์ ์ฌํ๊ฒ ๋ง์ถฐ์ ๋ฃ์ด์ค๋ค....๋ผ๋ ๊ฒ ์ ์๋์ ํ์ง??
์๋ input์ผ๋ก ๋ค์ด๊ฐ๋ activation์ด ๋น์ทํด์ ๊ทธ๋ฐ๊ฑด๊ฐ???
Abstract๋ก ํ๋ฆ ํ์ ํ๊ธฐ
Layer pruning์ LLM์ compressํ๋๋ฐ widelyํ๊ฒ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด๋ค.
ํ์ง๋ง ๊ธฐ์กด layer purning ๋ฐฉ๋ฒ๋ค์ ์๋นํ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ค.
๋ณธ ๋ ผ๋ฌธ์๋ ์ด๋ฌํ ์ฑ๋ฅ ์ ํ์ ๋๋ถ๋ถ์ด ์ด์ ์๋ ๊ฐ๊ณผ๋์๋ ํ๋ฃจ๋ ์ธํฐํ์ด์ค์์์ activation magnitudes ๋ถ์ผ์น ๋ฌธ์ ์์ ๊ธฐ์ธํจ์ ํ์ธํ๋ค.
ํ๋ฃจ๋ ์ ํ์ ํ์ฑํ๋๋ ์ค์ผ์ผ(????)์ด ๋ง์ด ๋ฌ๋ผ์ ธ์, ๋จ์ ๋ ์ด์ด๋ฅผ ๊ฑฐ์น๋ฉด์ distributional shift๊ฐ ์ผ์ด๋๋ค.
different activation scale์ด ๋จธ์?????????????????? ์ค๋ช ์ ๋๋ก ํด์ฃผ์ง ์์ผ๋ฉด ํ๊ฐ ๋ ๊ฒ.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LinearPatch๋ฅผ ์ ์,
lightweight ํ๊ณ plug-and-playํ ๋ฐฉ๋ฒ์ด๋ฉฐ, ํ๋ฃจ๋ ๊ณผ์ (interface)์์ ๋ ๊ฐ์ ์ฐ์ฐ์ ํ๋์ matrix multiply๋ก ํตํฉํ๋ค.
(i) ํน์ ํ ํฐ์์ ๋ฐ์ํ๋ ๊ฑฐ๋ํ outlier๋ค์ ์ต์ ํ๊ธฐ ์ํ Hadamard transformation
์คํธ ์ด๋ถ๋ถ ๊ถ๊ธํจ.. ๊ฑฐ๋ํ outlier์กฐ์ฐจ ์๋ ๋ชจ๋ธ์ ์ง์์ผํ ๋ฐ.. ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ๋ฝ์์ ์ฌ์ฉํ๋ฉด ๋ ๊ฒ ๊ฐ์๋ฐ? ์๋์ ์ผ๋ก ์ ๊ฑฐํ๊ธฐ?
๊ฑฐ๋ํ outlier ๋ฐ์ดํฐ๊ฐ ์ด๋ calibration ๋๋ ๋ช๋ฒ์งธ๋ ์ด์ด์์ ๋์ค๋์ง๋ ์๋ ค์ฃผ๋? ์๋ ค์ฃผ๊ฒ ์ง?
(ii) activation statistics๋ฅผ ์ ๋ ฌ(align)ํ๊ธฐ ์ํ channel-wise scaling
LaMA-3-8B ๋ชจ๋ธ์์ LINEARPATCH๋ 32๊ฐ ๋ ์ด์ด ์ค 5๊ฐ๋ฅผ ํ๋ฃจ๋ํ ๋๋ 94.15%๋ฅผ ์ ์งํ๋ฉฐ, ์ด์ SOTA ๋ฐฉ๋ฒ ๋๋น 4% ๋์ ์ฑ๋ฅ. (5๊ฐ๋ .... 15% ํ๋ฃจ๋ํ๊ฑด๋ฐ ....... ๋๋ ์ด๋ ๊ฒ ์๋ํด์ผ๊ฒ ๋ค...... )
5์ฒ ๊ฐ์ ๋ผ๋ฒจ ์๋ ์ํ์ ํ์ฉํ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ offine distillation์ผ๋ก ํจ์น๋ฅผ ์ถ๊ฐ๋ก ์ ์ ํ๋ฉด, ๋จ์ผ GPU์์ 30๋ถ ๋ง์ ์ฑ๋ฅ ์ ์ง์จ์ 95.16%๊น์ง ๋์ด์ฌ๋ฆด ์ ์๋ค.
1. Introduction
๋ ์ด์ดํ๋ฃจ๋์ด emergeํ๊ณ ์๋ค. ํน๋ณํ ํ๋์จ์ด specificํ optimization์ด๋ low-level kernel modification์ ์์กดํ์ง ์๋ ๋ฐฉ๋ฒ์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๋ณ๋์ dependency ์์ด ๋ถํ์ํ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๋ ๊ฐ๋จํ ๋ฐฉ์์ด๋ค.
๋ฐ๋ฉด unstructured pruning์ ๋ถ๊ท์น์ ์ธ ๋ฉ๋ชจ๋ฆฌ ์ ๊ทผ ํจํด ๋๋ฌธ์ ๊ฐ์ํ๊ฐ ์ด๋ ต๊ณ ,
structured์ ๊ฒฝ์ฐ์๋ ์ข ์ข ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ณํ ๋๋ ๋ง์ถคํ kernel์ด ์๊ตฌ๋๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค.
๋ ์ด์ดํ๋ฃจ๋์! ๋ณ๋์ dependency ์์ด ๋ถํ์ํ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๋ ๊ฐ๋จํ ๋ฐฉ์์ด๋ค. --> ํ์ง๋ง ์ฑ๋ฅ ์ ํ๊ฐ ์ฌํ๋ค๋ ํฌ๋ฆฌํฐ์ปฌํ challenge๋ค์ด ์๋ค.
์ด ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ์ฑ๋ฅ ์ ํ๋ฅผ ์ค๋ช
ํ๋ ์๋ก์ด ํ์์ ๋ฐ๊ฒฌํ์๋ค: ํ๋ฃจ๋ ์ง์ ์์ layer๊ณผ token ๊ฐ์ activation magnitude ๋ถ์ผ์น์ด๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ์ผ๋ถ ์ธต์ด ํ๋ฃจ๋๋ ๋ ๋จ์ ์ธต๋ค์ activation ๊ฐ์ ์ข
์ข
์๋ก ๋ค๋ฅธ ์ค์ผ์ผ์ ๋ณด์ด๋ฉฐ, ํ๋ฃจ๋ ์ง์ ์ด์ ์ธต์ activation์ด ์ดํ ์ธต์ activation ์ ๋ ฌ๋์ง ์์ ์ ์๋ค. ์ด๋ฌํ ๋ถ์ผ์น๋ ํน์ ํ ํฐ(eg.: [BOS] ๋๋ ๊ตฌ๋ถ์ ํ ํฐ)์ ํ์ฑํ์์ ๊ด์ฐฐ๋๋ ๊ทน๋จ์ ์ธ outlier ์กด์ฌ๋ก ์ธํด ๋์ฑ ์ฌํ๋๋ค. (ref1, ref2)
๊ฒฐ๊ณผ์ ์ผ๋ก ํ๋ฃจ๋๋ LLM์ ์ฌ๊ฐํ activation ๋ถ์ผ์น๋ฅผ ๊ฒช๊ฒ ๋๋ฉฐ, ์ด๋ ๊ฒฐ๊ตญ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง๋ค.
์ด๋ฌํ ์ด์๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํด LinearPatch ๋ฉ์๋๋ฅผ ์ ์ํ๋ค. ์์์ ์ธ๊ธํ activateion mismatch๋ฅผ ์ํํ๊ธฐ ์ํด ๋์์ธ๋ plug-and-play ๋ฐฉ๋ฒ์ด๋ค. LInearPatch๋ ๋ค์ํ pruning metric์ ๊ฐ๋จํ๊ฒ ์ ์ฉ๋ ์ ์๋ค.
์ฐ์ Hadamard transformation๋ฅผ ์ ์ฉํ์ฌ ์คํ์ ํ ํฐ์ ๋ํ activation (== outliers) ๋ฅผ ์ต์ ์ํจ๋ค.
์ดํ channel-wise scaling parameter๋ฅผ ๋์ ํ์ฌ, activateion magnitude์ ์๋ ๊ฐญ์ ๋ฉ์ด๋ค. Spectral Theory์ ์ํ๋ฉด hardamard transformation๊ณผ diagonalized channel-wise scaling์ ํ๋์ real symmetric matirx๋ก ํํํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ LinearPatch์ ํ์ฉํ๋ค. (๋จธ๋ผ๋ ธ๋ค๋ฅธ์ง์๋ญ์ผ์ด๊ฑฐ)
์ด ๋ฐฉ๋ฒ์ ์ถ๋ก (inference) ์ค๋ฒํค๋๋ฅผ ๊ฑฐ์ ๋ฐ์์ํค์ง ์์ผ๋ฉด์๋ ํ์ฑํ ํฌ๊ธฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๋ ฌ(alignment)ํ๋ค.
์ ๋ ฌ ์ด์ธ์๋, memory-efficient knowledge distillation๋ฅผ ํตํด ๊ฐ์ง์น๊ธฐ๋ LLM์ ์ถ๊ฐ๋ก ํฅ์์ํจ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ชจ๋ ๋ค๋ฅธ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ ์ ํ ์ฑ LINEARPATCH ํ๋ ฌ๋ง finetuning ํ๋ค. ๋จ 5,000๊ฐ ์ํ๋ง ์ฌ์ฉํด๋ ๋๋ฉฐ, 7B ๊ท๋ชจ ๋ชจ๋ธ ๊ธฐ์ค์ผ๋ก ๋จ์ผ GPU์์ 30๋ถ ์ด๋ด์ ์๋ฃํ ์ ์๋ค.
์คํ ๊ฒฐ๊ณผ~~
๋ฒค์น๋งํฌ์์ LLaMA-3-8B์ 5๊ฐ ์ธต์ ๊ฐ์ง์น๊ธฐํ ๊ฒฝ์ฐ, LINEARPATCH๋ ๊ธฐ์กด ์ฑ๋ฅ์ 94.15%๋ฅผ ์ ์ง,
LLM-Streamline(90.84%) ๋ฑ ์ต์ ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐ (์คํธ.)
2. Related Work
Weight Pruning
- (unstructured) Wanda
- (structured) entire groups of weights๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ (attention heads, MLP neuraons, or hidden dimenstions)
- N:M sparsity
- unstructure purning๋ณด๋ค๋ ํ๋์จ์ด friendlyํ์ง๋ง, ์ญ์ ์ฌํ์ต์ด ํ์ํ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค.
Layer Pruning
๋ ์ด์ดํ๋ฃจ๋ ๋ฑ์ฅ
width pruning๊ฐ ์ข ์ข ๋ถ๊ท์นํ ์ํคํ ์ฒ๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ๋ ์ด์ด ๊ฐ์ง์น๊ธฐ๋ Transformer์ ์ ์ฒด ์ธต(์ฆ, Attention๊ณผ MLP ๋ชจ๋ ๋ชจ๋)์ ์ ๊ฑฐํ๋ฏ๋ก, ๋ฐฐํฌ ๋ฐ ๊ฐ์ํ๊ฐ ๋ ์ฉ์ดํ๋ค.
- ShortGPT (์ธต ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๊ฐ์ cosine similarity๋ฅผ ์ฌ์ฉํด ๊ฐ ์ธต์ ์ค์๋๋ฅผ ํ๊ฐํ๊ณ , ๊ฐ์ฅ ์ค์๋๊ฐ ๋ฎ์ ์ธต์ ์ ๊ฑฐ)
- SLEB (ppl + iterative! pruning)
- Shortened LLaMA (tayler, ppl (ํ๋ฒ์๊ตฌํด๋ ) + LoRA)
- UIDL (๊ฐ ์ธต ๊ฐ์ ๊ฐ๋ ๊ฑฐ๋ฆฌ(angular distance)๋ฅผ ๋์ ํ์ฌ ์ฐ์์ ์ธ ์ธต์ ์๋ณํ๊ณ ์ ๊ฑฐํ๋ฉฐ, ์ดํ QLoRA ์ ์ฉ)
- LLM-Streamline (cosine sim + ์ฐ์์ ๋ ์ด์ด ์ ํ + lightweight layer๋ก ๋์ฒด)
3. Method
3.1. Preliminaries on LLM Layer Pruning

- transformer layer์ ๊ธฐ๋ณธ ์.
X: Input activation
theta : parameters
Pruning Metrics.
๋ณดํต cosine similarity[ShortGPT, LLMStremline], gradient-based score[Shortened Llama,LLM-Pruner] , perlexity-based score[Shortened Llama, SLEB]๋ฅผ ์ฌ์ฉํ๋ค.
Layer Pruning.

- ํ๋ฃจ๋ ์ดํ ์
l* ๋ฒ์งธ ๋ ์ด์ด๋ถํฐ n๊ฐ์ ์ฐ์๋ ๋ ์ด์ด๊ฐ ์ ๊ฑฐ๋์์ ๊ฒฝ์ฐ, l*์ ์ธํ์ด l*+n ๋ฒ์งธ ํ๋ผ๋ฏธํฐ(๋ ์ด์ด)์ ๋ค์ด๊ฐ๋ค.
๊ทธ๋ฐ๋ฐ, ๊ฐ์ง์น๊ธฐ ๊ฒฝ๊ณ(pruning interface)์์ channel magnitude์ ํฐ ๋ถ์ผ์น๋ฅผ ์ ๋ฐํ๋ฉฐ, ์ด๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ฌ๊ฐํ๊ฒ ์ ํ ์ํจ๋ค๋ ๊ฒ์ Figure 1์์ ํ์ธํ๋ค. (cont. sections 3.2 / 3.3)

3.2. Channel Magnitude Alignment
Layer-wise Channel Mismatch.

figure1(a)์ ๋ํ๋ ๊ฒ์ฒ๋ผ, hidden state์ ํฌ๊ธฐ๋, layer์ channel์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
* channel: ๋ชจ๋ธ์ hidden dimension์ ์๋ฏธ. Llama2-7b ๊ธฐ์ค์ผ๋ก 4096.
์ด๋ฅผ ์ํํ๊ธฐ ์ํด, channel-wise scaling factor๋ฅผ statisticallyํ๊ฒ ๊ณ์ฐํ๋ค.
๊ฐ ์ฑ๋ k์ ๋ํด, calibration set์ ์ฌ์ฉํ์ฌ, l*๋ฒ์งธ ๋ ์ด์ด์ (l*+n)๋ฒ์งธ ๋ ์ด์ด์ ํ๊ท activation magnitude์ ๋น์จ์ ๊ณ์ฐํ๋ค.
์ด๋ฅผ ํตํด scaling vector d ๋ฅผ ๋ง๋ค์ด๋ธ๋ค.

-> Channel wise ์ค์ผ์ผ๋ง ์งํ
Quantitative Evaluation.

์ถ๊ฐ์ ์ธ scaling factor์ธ ์ํ๋ฅผ ์ฌ์ฉํด์ d ์ฃผ๋ณ์์ ๋ณํํ๋ค.

figure1(b)์ ๋ํ๋ ๊ฒ์ฒ๋ผ, ๊ทธ๋ฅ ์ํ==1์ธ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ฅ ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ฌ๊ธฐ์ ๋ฒ์ด๋ ๊ฒฝ์ฐ ์ฑ๋ฅ ์ ํ๊ฐ ์ฌํ๊ฒ ๋ฐ์ํ๋ค.
3.3. Token Magnitude Smoothing
Token-wise Scaling Mismatch
์ต์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, [BOS]ํ ํฐ์ด๋ ๊ตฌ๋ถ์ํ ํฐ๊ณผ ๊ฐ์ ํน์ ํ ํฐ์ ๋ํด ํฌ๊ธฐ๊ฐ 10^3์ด์์ธ ๊ฑฐ๋ํ outlier๊ฐ ์กด์ฌํ๋ค.
๋ฐ๋ผ์ single channel scaling d_k๋ง์ผ๋ก๋ ์ฑ๋ ๋ด์ ๋ชจ๋ ํ ํฐ์ ์ ํฉํ์ง ์์ ์ ์๋ค. (figure2(a))

X_i,k : the activations of channel k for batch i ( i๋ฒ์งธ ๋ฐฐ์น์ ๋ํ ์ฑ๋k์ activation)
σ(·) : standard deviation
σ_d๊ฐ ์์์๋ก ํ ํฐ ๊ฐ ์ค์ผ์ผ๋ง์ด ์ผ๊ด๋จ์ ์๋ฏธํ๋ค. (ํ์คํธ์ฐจ๊ฐ ์๋ค๋ ๊ฒ์ด๋ฏ๋ก)
๊ทธ๋ฌ๋ LLaMA-2-7B์์ 9๊ฐ ๋ ์ด์ด๋ฅผ pruningํ ๋ σ_d= 2137.75๋ก ๋ํ๋, ํ ํฐ ์์ค์์ ์ฌ๊ฐํ ๋ถ์ผ์น๊ฐ ์กด์ฌํจ์ ๋ณด์ฌ์ค๋ค.
Hadamard Transformation
-> ํ ํฐ๋ณ scaling์ ์งํ
์ต๊ทผ ์ฐ๊ตฌ [30, 34, 4, 45]์ ๋ฐ๋ฅด๋ฉด, Hadamard transform์ ์ ์ฉํ๋ฉด outlier๋ฅผ ์ต์ ํ ์ ์๋ค.
* Hadamard transform : ์ ํ๋ณํ ๋ฐฉ๋ฒ. ๋ชจ๋ ์์๊ธฐ +1 ๋๋ -1์ด๊ณ , orthogonal(์ง๊ต)ํ๋ค.

1๏ธโฃ Walsh–Hadamard ํ๋ ฌ Hโ ๋ง๋ค๊ธฐ (2x2)
- 1/root2๋ ์ ๊ทํ ์์. ์ด๊ฑธ ๊ณฑํด์ค์ผ ๋ณํ ํ์๋ ๋ฒกํฐ ๊ธธ์ด๊ฐ ๋ฐ๋์ง ์๋๋ค.
--> H_2๋ฅผ ๋ฒกํฐ์ ๊ณฑํ๋ฉด, ๋ฒกํฐ๋ฅผ 45๋ ํ์ ์ํค๊ณ , ๋ฐ๋๋ก ๋ค์ง์ ์ฑ๋ถ๊น์ง ํฌํจ์ํจ๋ค.
2๏ธโฃ ๋ ํฐ ํ๋ ฌ Hโโฟ ๋ง๋ค๊ธฐ (์ฌ๊ท)
์ฌ๊ธฐ์ ⊗๋ ํฌ๋ก๋ค์ปค ๊ณฑ(Kronecker product)

3๏ธโฃ C๊ฐ 2โฟ์ด ์๋ ๊ฒฝ์ฐ
C = 2^n m \quad \Rightarrow \quad H_C = H_{2^n} \otimes H_m
• ๋ง์ฝ ์ฑ๋ ์๊ฐ 2์ ์ ๊ณฑ์๊ฐ ์๋๋ฉด, ๊ฐ์ฅ ํฐ 2์ ์ ๊ณฑ์ ๋ถ๋ถ๊ณผ ๋๋จธ์ง๋ฅผ ๋๋ ์ ๋ง๋ค ์ ์์ด์.
• ์ด๋ ๊ฒ ํด๋ ์ง๊ต ์ฑ์ง์ ๊ทธ๋๋ก ์ ์ง๋ฉ๋๋ค.
Hadamard matrix์ ์ง๊ต์ฑ(H^T * H = I) ๋๋ถ์ ๋ค์ ๋ณํ์ด ๋์ผํ๊ฒ ์ ์ฉ๋๋ค:

** activation X์๋ค๊ฐ H๋ฅผ ๊ณฑํ๋ฉด activation ๊ฐ๋ค์ด ์ฑ๋์ ๊ณจ๊ณ ๋ฃจ ์์ด๊ณ
** H^T๋ฅผ ๋ค์ ๊ณฑํ๋ฉด ์๋ ๊ฐ์ผ๋ก ๋์์จ๋ค.
์ฆ, ์ ๋ณด ์์ค ์์ด rotated activation์ ์งํํ ๊ฒ.
์ด ํ์ ์ outlier๋ฅผ ๋ชจ๋ channel์ ์ฌ๋ถ๋ฐฐํ๊ณ , ์ฑ๋ ๊ฐ activation์ ๋ถํฌ๋ฅผ ๋ณด๋ค ๊ท ํ ์๊ฒ ๋ง๋ ๋ค.
ํ์ ๋ activation์ ์ฌ์ฉํ๋ฉด ๋ชจ๋ ํ ํฐ์ ๋์ผํ ์ค์ผ์ผ๋ง ํ๋ผ๋ฏธํฐ d๋ฅผ ์ ์ฉํ๊ธฐ๊ฐ ์ฉ์ดํด์ง๋ฉฐ, σ_d๋ 230.32๊น์ง ๋ฎ์์ง๋ค.
(๊ทผ๋ฐ.. ์. (l*๋ฒ์งธ ๋ ์ด์ด์) Output์ผ๋ก ๋ฐ๋ ์ํฐ๋ฒ ์ด์ ๋ง๋ค ์ H ํ๋ ฌ์ ๊ณฑํ๊ณ , ์ค์ผ์ผ๋ง ํ๋ผ๋ฏธํฐ d๋ฅผ ๊ณฑํ ๊ฒ์ ๋ค์ ๋ ์ด์ด(l*+n)์ input์ผ๋ก ๋ฃ์ด์ค๋ค๊ณ ..? - ๊ทธ๋ผ ์ด๊ฑด (l*+n)๋ฒ์งธ ๋ ์ด์ด์ ์๋ input๊ณผ๋ ํฌ๊ฒ ์๊ด์๊ณ , ์์ ์์ํ๊ณผ ์ ์ฌํ magnitude๋ก ๋ณํํด์ ๋ฃ์ด์ฃผ๋ ๊ฑฐ ๊ฐ์๋ฐ ์ด๋ค ์๋ฏธ๊ฐ ์๋๊ฑด์ง??? ์คํธ ๊ทธ๋ฅ ์ด ๋ณํ์ด ์ ๋ถ๋ค?)
3.4. LinearPatch: the Ultimate Recipe

๋จผ์ X์๋ค๊ฐ Hadamard transform์ ์ ์ฉํ ๋ค, ํ์ ๋ ๊ณต๊ฐ์์ D๋ก ์ค์ผ์ผ๋งํ๋ค.
์ ๋ ์ฐ์ฐ์ ํ๋์ ๋์นญํ๋ ฌ P๋ก ํตํฉ๋๋ค.

๋ง์ง๋ง ๋ฑ์์ ์คํํธ๋ผ ์ ๋ฆฌ [21]์์ ์ ๋ํ๋ฉฐ, ์ฆ ๋ชจ๋ ์ค์ ๋์นญ ํ๋ ฌ์ ์ง๊ต ํ๋ ฌ(H)๊ณผ ๋๊ฐ ํ๋ ฌ(D)๋ก ๋ถํดํ ์ ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. (ํ..๋ญ๋ผ๋ ธ..)
figure3. patch matrix P๊ฐ ๋ ์ด์ด๊ฐ ์ ๊ฑฐ๋ LLM์์ ๋ฐ์ํ๋ ๊ฒฉ์ฐจ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ณด์ํจ์ ๋ณด์ฌ์ค๋ค. ๋ํ LINEARPATCH๋ ๋ณํ ์ค๋ฒํค๋๋ฅผ ์ค์ด๊ณ ํจ์จ์ ์ธ ํ์ธํ๋์ ๊ฐ๋ฅํ๊ฒ ํ๋๋ฐ, ํ๋ ฌ ๊ณฑ์ ์ํ ๋จ์ผ GEMM (General Matrix Multiplication_ ๊ฑ ์ผ๋ฐ์ ์ธ ํ๋ ฌ ๊ณฑ์ ์ ์๋ฏธ) ์ฐ์ฐ๋ง ํ์ํ๋ฉฐ, ์ธ ๊ฐ์ ๋ณ๋ GEMM ์ฐ์ฐ์ด ํ์ํ์ง ์๋ค.
Memory-Efficient Offline Knowledge Distillation (ํ์ต!!!!!!!!!!!!!!!!!!!)
๊ธฐ์กด์ KD ๋ฐฉ๋ฒ์ Teacher๊ณผ Student์ ๋ชจ๋ GPU ๋ฉ๋ชจ๋ฆฌ์ ์ฌ๋ ค์ผ ํ๋ฏ๋ก, LLM์์๋ ๋ง๋ํ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ผ๋ก ์ธํด ํ์ค์ ์ผ๋ก ์ด๋ ต๋ค. ๋ฐ๋ฉด, ์ (9)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ LINEARPATCH๋ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ ์คํ๋ผ์ธ ์ฆ๋ฅ ์ ๋ต์ ์ง์ : ํฐ์ฒ๋ชจ๋ธ์ ์ ์ถ๋ ฅ๋ง ์ ์ฅํ๊ณ , distillation ๊ณผ์ ๋์์ offline์ผ๋ก ์ ์งํ๋ค.
์์ training corpus X (์.5000๊ฐ)๊ฐ๋ฅผ ์ฌ์ฉํด์, ํฐ์ฒ๋ชจ๋ธ์ top-K๊ฐ์ ์์ํ logit probability distribution o_t ์ ๊ทธ ์ธ๋ฑ์ค๋ฅผ ์ถ์ถํ๋ค. ์ค์ ๋ก๋ K=100์ผ๋ก ์ค์ ํ์ฌ ์ ์ฒด 32K ์ดํ๋ฅผ ์ ์ฅํ๋ ๊ฒ๊ณผ ๋น๊ตํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 320๋ฐฐ ์ ๊ฐํ๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก ํ์๋ชจ๋ธ์์ ๋์ผํ ์ธ๋ฑ์ค๋ฅผ ์ฌ์ฉํ์ฌ top-K๊ฐ์ ์์ํ logit probability distribution o_s๋ฅผ ์์งํ๋ค.
์ด๋ ๊ฒ ์ป์ ๋ ๊ฐ์ logit probability distribution์ KL divergencee๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก patch matrix P๋ฅผ ์ต์ ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ์งํํ๋ค.

ํ์ธํ๋ ๊ณผ์ ์์๋ P์ ๋ํ ์์ ์ ๋ถํธ ์ ์ฝ(positive-definite constraint)์ ์ ๊ฑฐํ์ฌ ๋ ํฐ ์ ์ฐ์ฑ์ ๋ถ์ฌํ๊ณ , ๋๋จธ์ง ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ freezeํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ต์ํํ๋ค.
* positive-definite constraint : ํ๋ ฌ์ ๋ชจ๋ ๊ณ ์ ๊ฐ์ด 0 ์ด์์ด์ด์ผ ํ๋ค๋ ์ ์ฝ. ๋ชจ๋ธ ์ฐ์ฐ ์์ ์ฑ ๋๋ฌธ์ ์ฌ์ฉํ๋๋ฐ, finetuning ์์ ๋๊ฐ ์ ํ๋จ.
์ด ๊ณผ์ ์ ์ฒด๋ ๊ฐ๋ฒผ์์, ์๋ฅผ ๋ค์ด LLaMA-2-7B ํ์ธํ๋์ ๋จ์ผ NVIDIA V100 GPU์์ 30๋ถ ๋ง์ ์๋ฃ๋๋ค.

- ๋ง์์ง์๋ก ํ๊ท ์ฑ๋ฅ์ด ์ฆ๊ฐํ๊ธฐ๋ ํ๋, benefits๊ณผ costs ์ธก๋ฉด์์ k=100์ด ์ ํฉ.
- MSE๋ KL๋ณด๋ค ์์ข์๊ณ ์ค๋ฒํผํ ๋๋ ํ์์ด ๋ํ๋ฌ๋ค๊ณ ํจ.
4. Experiments
4.1. Setup
Models and Baselines.
[Models]
LLaMA2-7b, 13b
LLaMA3-8b
Baichuan2-7b
DeepSeek-R1-Distill
[Baselines]
(gradient based)
LLM-Pruner
(ppl based)
SLEB
(Taylor based)
shortend Llama
(cosine sim based)
ShortGPT
LLM-Streamline
Evaluation.
(ppl)
WikiText-2
C4
PTB
(NLU)
MMLU
(QA)
ARC-e / c
BoolQ
BellaSwag
PIQA
WinoGrande
WSC273
Race-h
CoPA
- MMLU๋ ์คํผ์ ์ฝ๋ ์ฌ์ฉ, ์ด์ธ์๋ lm-eval-harness ์ฌ์ฉ
4.2. Implementation Details
Calibration and Fine-tuning
Calibration :
ํ๋ฃจ๋ํ ๋ ์ด์ด๋ฅผ ์ ํ๊ณ channel-wise scaling ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๊ธฐํํ๊ธฐ ์ํ calibration dataset์ด ํ์ํจ.
WikiText-2์์ sequence length 2048์ธ 128๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋๋ค ์ํ๋งํจ.

- wiki-2 ๋ฐ์ดํฐ์ ๊ฐ์๋ฅผ ๋ค๋ฅด๊ฒํ์ฌ ํ ์คํธํจ.
- ๋ฐ์ดํฐ์๊ณผ ์ฑ๋ฅํฅ์์ ์ฌ๋ดค์ ๋ 128์ด ์ต์ ์ด๋ค.

- ํ๊ฒ๋๋ฉ์ธ๊ณผ ๊ฐ์ ๋๋ฉ์ธ์ calibration set์ ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋จ.
- ๋๋ฉ์ธ์ด ๋ฌ๋ผ๋ ppl์ ๊ฑฐ์ ๋ณํ์ง ์์ -> ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ ์์ ์ฑ (.........์ ์ด๋ ๊ฒ ํด์ํ๋๊ตฌ๋...)
- ๋ฐ์ดํฐ ํ์ง์ด ๋ฌ๋ผ๋ ppl์ ๊ฑฐ์ ์ ์ฌํจ -> ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ ์์ ์ฑ (22)
For fine-tuning :
LINEARPATCH, we use AdamW with a learning rate of 1e−4, training for one epoch on 5,000 WikiText-2 sentences of length 2048

- ๋ฐ์ดํฐ์๊ณผ ์ฑ๋ฅ ํฅ์ํญ์ ๋น๊ตํ์ ๋, 5000์ด ์ต์ ์ ๊ฐ์ด๋ค.
Resource Consumption
- PyTorch ์ฌ์ฉ
- single NVIDIA V100 GPU with 24GB memory
- 7b ๋ชจ๋ธ์์, LinearPatch์ ์ด๊ธฐํ๋ 30์ด, fine-tuning์ 30๋ถ๋ง์ ์๋ฃ๋จ.
Pruning Configurations
์ด์ ์ฐ๊ตฌ๋ฅผ ๋ฐ๋ผ ๊ฐ์ง์น๊ธฐ ๋น์จ์ 30% ๋ฏธ๋ง์ผ๋ก ์ ํ
4.3. Main Results

์ฐ๋ฆฌ๋ ๋จผ์ LINEARPATCH์ ํ์ต ์๋(training-free) ํ๊ฒฝ์์์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ๋ฃจ๋๋ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์ธ์ด ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ ์ ์ง ์ ๋๋ฅผ ์ธก์ ํ๋ ๋ฐ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์์ ๊ธฐ๋ฐ ์ง๋ฌธ ์๋ต(QA) ๋ฒค์น๋งํฌ์ ํผํ๋ ์ํฐ(PPL) ๋ฒค์น๋งํฌ์ ์ด์ ์ ๋ง์ถ๋ค. ๋น๊ต์ ๊ณต์ ์ฑ์ ์ํด, ๊ณ ๋ ค๋ ๋ชจ๋ ์ ๊ทผ๋ฒ์ fine-tuning์ ์ํํ์ง ์๋๋ค. ํนํ, LLM-Pruner์ ๊ฒฝ์ฐ LoRA ๊ธฐ๋ฐ ํ์ธํ๋ ๋จ๊ณ๋ฅผ ์ ์ธํ๋ฉฐ, LLM-Streamline์ ๊ณต์ ํ๋กํ ์ฝ์ ๋ฐ๋ฅด๋, ๋ ์ด์ด ๊ต์ฒด(layer replacement)์ ์คํ๋ผ์ธ ์ฆ๋ฅ(offline distillation)๋ฅผ ์ ๊ฑฐํ ๋ณํ์ LLM-Streamline (None)์ผ๋ก ํ๊ธฐํ๋ค. ์ถ๊ฐ LLM ๋ฐฑ๋ณธ ๋ฐ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ๋ ๋ถ๋ก I(Appendix I)์์ ํ์ธํ ์ ์๋ค.
(??????????????? LLM-stremline์ ํต์ฌ ๋ฐฉ๋ฒ์ ์ ๊ฑฐํด๋ฒ๋ฆฌ๋ฉด ์ด์บ?????? ๋ด๊ฐ ์ ์์์ผ๋ฉด ๊ทน๋๋ ธํ์๋ฏ)
4.3.1. Comparison on Training-free Methods
Results on QA Benchmarks
Results on PPL Benchmarks
Results on PPL Benchmarks
4.3.2. Comparison on Post-training Methods
Results on QA Benchmarks
Results on PPL Benchmarks
4.4. Discussions and Ablation Studies
Tunable Parameters and Loss Functions
The Ingredients of LinearPatch
Online Inference Overhead
Offline Storage Overhead
5. Conclusion
6. Limitation and Broader Impact
Limitation
๋ ์ด์ด ํ๋ฃจ๋์ ์๋ก ๋ค๋ฅธ ์์ (task)์์ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ถ๊ท ํ์ ์ธ ์ ํ๋ฅผ ์ด๋ํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ์ผ๋ถ ์ง๋ฌธ ์๋ต(QA) ์์ ์ ์ฌ์ ํ ๊ฐ์ธํ๊ฒ ์ ์ง๋ ์ ์์ง๋ง, ๋ณต์กํ ์ถ๋ก (complex reasoning)์ด๋ ๋ฌธ๋งฅ ์์กด(context-dependent) ์์ ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋ ์ ์๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ํจ์จ์ฑ ํฅ์๊ณผ ์์ ๋ณ ์ฑ๋ฅ ๊ฐ์ ๊ท ํ(trade-off)์ ํ๊ฐํ ์ ์๋ ์ฒด๊ณ๋ฅผ ๊ตฌ์ถํ ํ์๊ฐ ์๋ค.
Broader Impact
๋ ์ด์ด ํ๋ฃจ๋ ๋ฐฉ๋ฒ์ LLM์ ๋ฐฐํฌ์ ํ์ํ ๊ณ์ฐ ๋น์ฉ์ ํฌ๊ฒ ์ค์ฌ, ๋ ๋ง์ ์ฌ์ฉ์์๊ฒ ์ ๊ทผ์ฑ์ ๋์ธ๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ๋ฒ์ LLM์ ๋ด์ฌ๋ social biases์ ํด๊ฒฐํ์ง ๋ชปํ๋ฉฐ, ์ด๋ฌํ ํธํฅ์ ์ข ์ข training data์์ ๋น๋กฏ๋์ด ๊ณต์ ์ฑ๊ณผ ํฌ์ฉ์ฑ(fairness and inclusivity)์ ์ํฅ์ ์ค ์ ์๋ค. ๋ฐ๋ผ์ LLM์ ์ค๋ฆฌ์ ์ผ๋ก ๋ฐฐํฌํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ๋ค.