๐ ์์ฝ ๐
LLM-Streamline
1. Layer pruning
* cosine ์ ์ฌ๋๋ก ์ ๊ฑฐํ ์ฐ์๋ ๋ ์ด์ด ์ ํ
(๋ค๋ฅธ ๋ฉํธ๋ฆญ์ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์ ์ธ, ppl์ data dependency๋์์ ์ ์ธ)
2. Layer replacement
* ๋์ฒดํ๋ ๋ ์ด์ด ์ํคํ ์ฒ: FNN, Transformer block(์๋ณธ๋ชจ๋ธ์ด๋ ๋์ผํ ๊ตฌ์กฐ)
* finetuning: ๋์ฒด ๋งจ์๋ ์ด์ด์ input๊ณผ ๋์ฒด ๋งจ๋ค๋ ์ด์ด์ ์์ํ ํ๋ ๋ฒกํฐ๋ก ํ์ต
* finetuning ํ ๋ loss: MSE loss
* ์์ ์ ๊ฑฐํ๊ณ ์ถ์ ๋ ์ด์ด ๊ฐ์๋ฅผ ์ ํด๋๊ณ , ๊ทธ ๊ฐ๊ฒฉ๋ผ๋ฆฌ์ cosine sim์ ๊ตฌํ๋ค.
์๋ฅผ๋ค๋ฉด 7๊ฐ๋ฅผ ์ ๊ฑฐํ ๋ชฉ์ ์ด๋ผ๋ฉด, 0๋ฒ์งธ์ 6๋ฒ์งธ hidden vector์ cos sim, 1-7์ cos sim .... ์ด๋ฐ์์ผ๋ก ๊ตฌํ๊ณ , ๊ฐ์ฅ ์ ์ฌ๋๊ฐ ๋์ ์ ๋ฅผ ๊ตฌํด์ ๋ญํ ์ด๋ก ๋ ๋ ค๋ฒ๋ฆฌ๋ ๋ฐฉ๋ฒ. (๊ณต์ ์ฝ๋ ์ฐธ๊ณ )
โจ ๋ณผ๋งํ ๋ถ๋ถโจ
.* .. ๋ฐ๋ผ์ ๋ฒกํฐ ํฌ๊ธฐ์ ์ํฅ์ ๋ฐ์ง ์๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ์ ํํจ .
(ํ์..์ฝ์ฌ์ธ์ ์ฌ๋๋ ๋์ง๋ง, magnitude ์ ์ฌ๋๊ฐ ์์ผ๋ฉด ์ด๊ฑด ์ด๋ป๊ฒ ๊ณ ๋ คํ ๊ฑด๋?? - '๋ฒกํฐ์ ์ ์ฌํจ'์ ๋ํ ์ข ๋ ๋ช ํํ ์ด์ ๊ฐ ์์ผ๋ฉด ์ข์๋ฏ)
* ๋ฐ๋ฉด LoRA๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ฃจ๋ ํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ณผ์ ์, ์ ๊ฑฐ๋ ๋ ์ด์ด์ ๊ธฐ๋ฅ์ ๋จ์ ๋ ์ด์ด์ ์ฌ๋ถ๋ฐฐํ๋ ๊ณผ์
์ผ๋ก ๋ณผ ์ ์๋ค.
* - ๋ชจ๋ ํ๋ฃจ๋ ๋ฐฉ์์ด GSM8K ๋ฒค์น๋งํฌ๋ฅผ ์ ๋ชป์ก๊ณ ์์!!
* calibratin/train dataset์ SlimPajama๋ง ์ฌ์ฉํจ
* -> FFN ๋ ์ด์ด๊ฐ transformer layer๋ณด๋ค ์๋ ด์ด ๋น ๋ฅด๋ค
* ๋ฒค์น๋งํฌ ๋ง์ด ์
* Stability๋ผ๋ ์๋ก์ด ๋ฉํธ๋ฆญ ์ ์
--
์คํ๋ฆฌ๋ทฐ ๋ฆฌ๋ทฐ์ด๋ค ๋ฆฌ๋ทฐ๊ฐ ๋งค์ฐ ์ข๋ค... ์ค๊น ๊ถ๊ธํ๋ค.
๋ฆฌ๋ทฐ๊น์ง ์ฝ์ด๋ดค๋๋ฐ.. ๊ทธ๋ฅ ์ธ์ธํ ๋น๊ต์คํ๋ค์ด ๋ง์์ ๊ทธ๋ฐ ๊ฒ ๊ฐ์ ..
๋ ๋ค์ํ (์ข ๋ฅ/์ฌ์ด์ฆ) ๋ชจ๋ธ์ ๋ํ ์คํ ๊ฒฐ๊ณผ ๋น๊ต, LoRA์ ๋น๊ต ์คํ -> ๋ฆฌ๋ทฐ์ง์ ๋ฐ๊ณ ์ถ๊ฐ๋จ
Abstract๋ก ํ๋ฆ ํ์ ํ๊ธฐ
๊ฐ์ฅ ๋ ์ค์ํ ๋ ์ด์ด๋ฅผ ์๋ณํ๊ณ ์ ๊ฑฐํ๋ LLM์ layer pruning์ ๋ํ ์ฐ๊ตฌ๋ก, LLM-Streamline์ ์ ์ํ๋ค.
LLM-Streamline์ ๋ ๋จ๊ณ๋ก ๋๋๋ค.
1. layer pruning: ๊ฐ์ฅ ๋ ์ค์ํ ์ฐ์๋ ๋ ์ด์ด๋ค์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ
2. layer replacement: lightweight network๋ฅผ ํ์ตํ๊ณ pruned layer๋ฅผ ๋์ฒดํ๋ ๋ฐฉ์. ์ฑ๋ฅ ์์ค์ ์ํํ๊ธฐ ์ํจ์ด๋ค.
์ถ๊ฐ์ ์ผ๋ก, Stability๋ผ๋ ์๋ก์ด metric์ ์ ์ํ๋ค.
์ด ๋ฉํธ๋ฆญ์ model compression ํ ์คํฌ์์ accuracy๋ง ์ฌ์ฉํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํจ์ด๋ค.
๋ค๋ฅธ sota pruning method๋ฅผ ์ฑ๋ฅ๊ณผ ํ์ตํจ์จ์ฑ ์ธก๋ฉด์์ ์์ํผํผํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.
1. Introduction
LLM์ ์ฌ์ด์ฆ๊ฐ ์ปค์ง๋ฉด์, ํ๋์จ์ด์ ์๊ตฌ๊ฐ ์๋นํ ์ฌํด์ง๊ณ , ๋ฐ๋ผ์ real-world scenario์ ์ ์ฉํ๊ธฐ์ ์ ์ฝ์ด ๋๊ณ ์๋ค. ์ด๋ฐ ์ ์ฝ์ ์์ ๊ธฐ ์ํด, model compression์ ํตํด ๋์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ compactํ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ ํ๋ ์ฐ๊ตฌ๋ค์ด ์์์ง๊ณ ์๋ค.
model compression => {kd, quantization, pruning}
Knowledge distillation achieves compression by transferring the capabilities of a larger teacher model to a smaller student model. Quantization compresses the model by quantizing the weights to lower precision. Alternatively, pruning compresses the model by eliminating unimportant parameters and modules.
์ด๋ฒ ์ฐ๊ตฌ์์๋ popular pruning method์ ํฌ์ปค์ฑํ๋ค. ์ด์ ํ๋ฃจ๋ ์ฐ๊ตฌ์์์ ํ๋ฃจ๋ ๋จ์๋ dense matrices (SliceGPT), attention heads, filters, parameters ๋ฑ์ด ์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ด ํจ๊ณผ์ ์ด๊ธด ํ์ง๋ง, ๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ถ๊ท์น์ฑ(structural irregularity)์ ์ด๋ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์, ํ๋ฃจ๋๋ ๋ชจ๋ธ์ ์ ์ฅํ๊ฑฐ๋ ๋ฐฐํฌํ๊ธฐ์ inflexibleํ๋ค๋ ํ๊ณ๊ฐ ์๋ค.
๋ฐ๋ฉด layer pruning method๋ ๋จ์ํ LLM์ depth๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์ด๋ค. nn.ModuleList ์ ๊ฐ์ ๋ฐ์ดํฐ๊ตฌ์กฐ ์์ ์ ์ฅ๋์ด์๋ ๋ ์ด์ด๋ฅผ ๋จ์ํ๊ฒ ์ ๊ฑฐํ๋ฉด ๋๋ ์์ฃผ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ด๋ค. ๋ฐ๋ผ์ ํจ์จ์ ์ธ layer-wise pruning ๋ฐฉ๋ฒ์ ํ๊ตฌํ๋ ๊ฒ์ ์ค์ํ๋ค.
layer purning์ LLM์์ ๋ ์ค์ํ ๋ ์ด์ด๋ฅผ ์ฐพ๊ณ ์์ ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ๋ ์ด์ด๋ Hidden states๋ฅผ ๋ณํํ๋ ์ญํ ์ ํ๋ค๊ณ ๋ณผ ์ ์์ผ๋ฉฐ, ๋ฐ๋ผ์ ํน์ ๋ ์ด์ด์ Input/output hidden state์ ์ ์ฌ๋๊ฐ ๋๋ค๋ฉด, ๋ ์ด์ด์ ์ํฅ์ด ์๋ค๊ณ ํ ์ ์๋ค.

๊ด๋ จ์ฐ๊ตฌ
without further training - SLEB, ShortGPT
with finetuning - Shortened llama, LaCo, Gromov at al.
๊ทธ๋ฌ๋ ๋ ์ด์ด๋ฅผ ์ง์ ์ ๊ฑฐํ๋ ๊ฒฝ์ฐ ์ฑ๋ฅ ์ ํ๊ฐ ๋ ํฌ๊ฒ ๋ฐ์ํ ์ ์๋ค.
๋ํ LoRA(Hu et al., 2021)์ ๊ฐ์ parameter-efficient fine-tuning ๊ธฐ๋ฒ์ ์ฌ์ฉํด ํ๋ฃจ๋๋ LLM์ ํ์ตํ ์ ์์ง๋ง,
์๋์ ๋น์ฐ์์ ์ธ(non-contiguous) ๋ ์ด์ด๋ค์ด ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ํ๋๋ก ๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ๋ ๊ณผ์ ์ ์ฝ์ง ์๋ค(2.3 ์ฐธ์กฐ)
๋ณธ ์ฐ๊ตฌ์์๋ LLM-Streamline์ด๋ผ๋ ํ๋ฃจ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
์ ์ ํ์ต๋ฐ์ดํฐ๋ก, ๋์ ์ฑ๋ฅ, ํ์ตํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ ์ ์์.
1. ๋ ์ด์ด ํ๋ฃจ๋ 2. ๋ ์ด์ด replacement
lightweight network๋ ๋ค์ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์ ์๋ค. (FFN, SwiGLU, Transformer ๋ฑ..)
์ถ๊ฐ์ ์ผ๋ก, ๋ชจ๋ธ compression method๋ฅผ ํ๊ฐํ๋ metricd์ ํ๊ณ๋ฅผ ๋ฐ๊ฒฌํ์๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, multiple-choice classification๋ฅผ ํฌํจํ๋ NLU ๊ณผ์ ์์, ์์ถ๋ ๋ชจ๋ธ์ ์๋ ๋ชจ๋ธ์ด ๋ถํ์คํ๋ ์ํ์ ๋ํด ์ฐ์ฐํ ์ ๋ต์ ๋ง์ถ๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ ์ ์๋ค. ์ด๋ฌํ ํ์์ ์ฑ๋ฅ์ ๊ณผ๋ํ๊ฐํ๊ฒ ๋ง๋๋ ๋ฌธ์ ๋ฅผ ์ด๋ํ๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์๋ก์ด metric์ธ stability์ ์ ์ํ๋ค. ์ด metric์ ํ๋ฃจ๋ ์ ํ ์์ธก ์ผ๊ด์ฑ(consistency)์ ์ธก์ ํ๋ฉฐ, ํนํ ์๋ ๋ชจ๋ธ์ prediction confidence๋ฅผ ํจ๊ป ๊ณ ๋ คํ๋ค.
2. LLM-Streamline

2.1. Layer Redundancy in LLMs

- ๊ฐ ๋ ์ด์ด์ input/output hidden vector๋ฅผ cosine similarity๋ก ์ ์ฌ๋ ๊ณ์ฐ
- layer importace๋ฅผ ์ธก์ ํ๊ธฐ ์ํ ๋ฐ์ดํฐ๋ pre-training data์์ ๋๋ค์ํ๋ง ํด์ด.

- ๋ชจ๋ธ ์ฌ์ด์ฆ์ ์ข ๋ฅ์ ๋ฐ๋ฅธ ์ํฅ์ ์ํํ๊ณ ์, 4๊ฐ ๋ชจ๋ธ์ ์ฌ์ฉํจ.
-> ๋ชจ๋ ๋ชจ๋ธ์์, ์ฐ์๋ ๋ ์ด์ด๋ค์ input/output์ ์ฌ๋๊ฐ ๋๊ฒ ๋ํ๋จ.

Discussion I: Why not use other similarity to measure the importance of layers?
๋ด์ (dot product)์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ ์ฌ์ฉ๋์ง๋ง, ์ด๋ค์ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ๊ณ ๋ คํจ.
์ ๋ฐ๋ฅด๋ฉด, pre-norm ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ transformer์ hidden states๋, ๋ ์ด์ด์ ๊น์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ ์ ์ปค์ง๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค.
์ด๋ก ์ธํด ํ๋ฐ ๋ ์ด์ด์์๋ dot product similarity๊ฐ ๋์์ง๊ณ ,
์ด๋ฐ ๋ ์ด์ด์์๋ duclidean distance๊ฐ ์์์ง๋ ํธํฅ์ด ๋ฐ์ํ๋ค.
๋ฐ๋ผ์ ๋ฒกํฐ ํฌ๊ธฐ์ ์ํฅ์ ๋ฐ์ง ์๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ์ ํํจ ..
(ํ์..์ฝ์ฌ์ธ์ ์ฌ๋๋ ๋์ง๋ง, magnitude ์ ์ฌ๋๊ฐ ์์ผ๋ฉด ์ด๊ฑด ์ด๋ป๊ฒ ๊ณ ๋ คํ ๊ฑด๋?? - '๋ฒกํฐ์ ์ ์ฌํจ'์ ๋ํ ์ข ๋ ๋ช ํํ ์ด์ ๊ฐ ์์ผ๋ฉด ์ข์๋ฏ)
Discussion II: Why not use perplexity as the metric to measure the importance of layers?
ppl์ ์ฌ์ฉํ๋ ์ด์ ์ฐ๊ตฌ์์๋,๊ฐ ๋ ์ด์ด๋ฅผ ํ๋์ฉ ์ ๊ฑฐํ๋ฉด์, pre-training ๋ฐ์ดํฐ์์ ๋ชจ๋ธ์ ํผํ๋ ์ํฐ ๋ณํ๋ฅผ ์ธก์ ํ๊ณ , ํผํ๋ ์ํฐ ๋ณํ๊ฐ ๊ฐ์ฅ ์์ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ์์ผ๋ก ์งํํ๋ค.
๊ทธ๋ฌ๋ ppl ์งํ๋ ๋งค์ฐ data-sensitiveํ๋ค๊ณ ํ๋จ, ์ฆ, ์๋ก ๋ค๋ฅธ ์ฌ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ ๊ฑฐ๋๋ ๋ ์ด์ด๊ฐ ๋ฌ๋ผ์ง๋ฉฐ,
๊ฒฐ๊ณผ์ ์ผ๋ก ํ๋ฃจ๋์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์์๋ ํผํ๋ ์ํฐ๊ฐ ๋ฎ๋๋ผ๋, ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์๋ ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
๋ฐ๋ฉด cosine similarity๋ ๋งค์ฐ ์์ ์ ์ด๋ฉฐ, ํญ์ ๋์ผํ ๋ ์ด์ด๊ฐ ์ ํ๋๋ consistency๋ฅผ ๋ณด์ธ๋ค .

2.2. Layer Pruning (step1)

2.3. Layer Replacement (step2)

Discussion: Layer Replacement of Fine-Tuning Pruned LLMs?
์ฐ์ , resource overhead ๊ด์ ์์, layer replacement๊ฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๋นํด hardware ๋ฆฌ์์ค ์ ์ฝ์ด ์ ๋ค. PEFT ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ธ์ ๋ชจ๋ weight, activation value, PEFT๋ชจ๋์ optimizer ์ํ ๋ฑ์ gpu์ ์ฌ๋ ค์ผ ํ๋ค. ๋ฐ๋ฉด layer replacement ๋ฐฉ๋ฒ์, ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ๋ชจ๋ธ ๊ฐ์ค์น์ ์์ ํ(forward) ์ฐ์ฐ ์ค๋ฒํค๋๋ง ์ ์ฅํ๊ณ , ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ lightweight network ๊ฐ์ค์น, activation ๊ฐ, ์ตํฐ๋ง์ด์ ์ํ๋ง ์ ์ฅํ๋ฉด ๋๋ค.
๋๋ฒ์งธ๋ก, MSE ์์ค ํจ์๋ฅผ ์ฌ์ฉํด ์ ๊ฑฐ๋ ๋ ์ด์ด์ ์ง์์ ๊ฒฝ๋ ๋คํธ์ํฌ์ ์ฆ๋ฅ(distill)ํ๋ค.
๋ฐ๋ฉด LoRA๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ฃจ๋ ํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ณผ์ ์, ์ ๊ฑฐ๋ ๋ ์ด์ด์ ๊ธฐ๋ฅ์ ๋จ์ ๋ ์ด์ด์ ์ฌ๋ถ๋ฐฐํ๋ ๊ณผ์ ์ผ๋ก ๋ณผ ์ ์๋ค.
๋ฐ๋ผ์ ํ๋ฃจ๋๋ ๋ ์ด์ด๋ฅผ ๊ฒฝ๋ ๋คํธ์ํฌ๋ก ๋์ฒดํ๋ ๊ฒ์ด, ๋จ์ ๋ ์ด์ด์ ๊ธฐ๋ฅ์ ์ฌ๋ถ๋ฐฐํ๋ ๊ฒ๋ณด๋ค ํ์ต ๋์ด๋๊ฐ ๋ฎ์ ์ ์๋ค.
3. Metrics for Evaluating Pruned Models
3.1. Shortcoming of Accuracy Metric


TP์ TN์ ํ์คํธ์ฐจ(std) ๊ฐ FN๊ณผ FP๋ณด๋ค ํ์ ํ ๋๊ฒ ๋ํ๋ฌ๋ค.
→ ์ด๋ ๋ชจ๋ธ์ด FN๊ณผ FP ์ํ์ ๋ํด ์๋์ ์ผ๋ก ๋ถํ์ค์ฑ(uncertainty) ์ด ํฌ๋ค๋ ๊ฒ์ ์๋ฏธ
3.2. Stability Metric

์ ํ๋(accuracy)์ ๋ฌ๋ฆฌ, stability๋ ๋ชจ๋ธ์ ๋ต๋ณ์ ๋ํ ์ ๋ขฐ๋(confidence)์ ํ๋ฃจ๋ ์ ํ ๋ชจ๋ธ์ ์ผ๊ด์ฑ(consistency)์ ์ด์ ์ ๋ง์ถ๋ค.
๋ฐ๋ผ์ stability๋ ํ๋ฃจ๋ ํ ๋ชจ๋ธ์ด ์๋ ๋ชจ๋ธ๊ณผ ์ต๋ํ ์ ์ฌํ๊ฒ ์ ์ง๋๋๊ฐ๋ผ๋ ๋ชจ๋ธ ์์ถ์ ๋ณธ๋ ๋ชฉํ์ ๋ ๋ถํฉํ๋ ์งํ์ด๋ค.
4. Experiments
4.1. Setup
Model
Llma2-7B, 13B
pruning ratio : 25%
lightweight network: 1) FFN (๋๋คinit) 2) Transformer layer(ํ๋ฃจ๋๋ ์ฒซ๋ฒ์งธ ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ๋ฆ)
calibration dataset : SlimPajama
๋ฐ์ดํฐ๋ฅผ ๋ฌด์์ ์ํ๋งํ์ฌ, ์ต์ข ์ ์ผ๋ก 30,000๊ฐ์ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
500๊ฐ์ ์ํ์ ๋ฌด์์๋ก ์ ํํ์ฌ LLM์ ์ ๋ ฅํ๊ณ , Fig. 2๋ฅผ ์์ฑํ์ผ๋ฉฐ, ์ด 500๊ฐ์ ๋ฐ์ดํฐ ์ํ์ ๋ ์ด์ด ํ๋ฃจ๋(layer pruning)์ ์ฌ์ฉ๋์๋ค. ๋๋จธ์ง 30,000๊ฐ์ ๋ฐ์ดํฐ๋ ๊ฒฝ๋ ๋คํธ์ํฌ(lightweight network) ํ์ต์ ์ฌ์ฉ
* SlimPajama: CommonCrawl ์ฝ 52.2 %, C4 ์ฝ 26.7 %, GitHub ์ฝ 5.2 %, Books ์ฝ 4.2 %, arXiv ์ฝ 4.6 %, Wikipedia ์ฝ 3.8 %, StackExchange ์ฝ 3.3 %.
4.2. Benchmark
12๊ฐ NLU task.
CMNLI, HellaSwag, PIQA, CHID, WSC, CommonSencseQA, BoolQ, MMLU, CMMLU, Race-High/Middle/ C3
์ถ๊ฐ 3๊ฐ. (OpenCompass ํ๋ ์์ํฌ ์ฌ์ฉ)
XSum, GSM8K, StrategyQA
4.3. Baseline
LLM-Pruner
SliceGPT
LaCo
4.4 Main Results

-> benchmark๋ค์ ๋ํ accuracy ๊ฒฐ๊ณผ

-> benchmark๋ค์ ๋ํ Stability (์๋ค๋ค์ด ์ ์ํ metric) ๊ฒฐ๊ณผ

- ๋ชจ๋ ํ๋ฃจ๋ ๋ฐฉ์์ด GSM8K ๋ฒค์น๋งํฌ๋ฅผ ์ ๋ชป์ก๊ณ ์์!!
OPT-1.3B, OPT-2.7B, OPT-6.7B, Baichuan-7B, Baichuan-13B, Baichuan2-7B, Baichuan2-13B(Yang et al., 2023), Llama3.1-8B, Llama3.1-70B(Dubey et al., 2024), Mixtral-8x7B-v0.1(Jiang et al., 2024)์์๋ ์คํ์ ์ํ (Appendix E)

-> purning ratio=50%
4.5. Impact of Different Lightweight Networks
Why FFN achieves the best result, Transformer layer still has performance potential.
- ๋ค์ํ lightweight network ๊ตฌ์กฐ์ ๋ํ ์คํ
1) FNN 2)SwiGLU ๊ธฐ๋ฐ FNN 3)Transformer layer
+ Transformer layer๋ฅผ ์ด๊ธฐํํ๋ ๋ฐฉ๋ฒ
3-1) ๋๋ค 3-2) ์ฒซ๋ฒ์งธ ํ๋ฃจ๋๋ ๋ ์ด์ด ์์ 3-3)๋ง์ง๋ง ํ๋ฃจ๋๋ ๋ ์ด์ด ์์ 3-4)ํ๋ฃจ๋๋ ์ด์ด๋ค ํ๊ท

=> FFN์ด ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ. ํํธ, Transformer ๋ ์ด์ด์์๋ ํ๋ฃจ๋๋ ์ฒซ ๋ฒ์งธ ๋ ์ด์ด๋ฅผ ์์ํ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋๋ค. ๋ฐ๋๋ก LaCo์์ ์๊ฐ์ ๋ฐ์ Layer-Avg๋ ๊ฐ์ค์น ํ๊ท ํ๊ฐ ํ๋ฃจ๋๋ ์ฒซ ๋ฒ์งธ ๋ ์ด์ด๋งํผ ํจ๊ณผ์ ์ด์ง ์์์ ๋ณด์ฌ์ค๋ค
(LaCo๋ ํ๊ท ์ด ์๋๋ผ ์ฐจ์ด๋ฅผ ๋ํด์ฃผ๋ ๊ฑด๋ฐ...)

-> FFN ๋ ์ด์ด๊ฐ ์๋ ด์ด ๋น ๋ฅด๋ค
4.6. Impact of Different Pruning Ratios
The performance of the pruned model is linearly correlated with the number of parameters at modest pruning ratios.

ํ๋ผ๋ฏธํฐ ์์ ์ ํ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ชจ์ต์ ๋ณด์๊ณ , ์ด๋ LLM-Strimeline ๋ฐฉ๋ฒ์ผ๋ก ํ๋ฃจ๋๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋์ผํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๊ฐ์ง ์ฌ์ ํ์ต ๋ชจ๋ธ๊ณผ ๋น๊ตํ ๋งํ๋ค (๊ฒฌ์ค๋ค)๋ ๊ฒ์ ์์ฌํ๋ค.
(์์ฅ ๋ผ๋ง 3b ๋ ์ ๋น๊ต์ํจ? ๋ ผ๋ฆฌ ๊นจ์ ธ์ ๊ทธ๋ฐ๋ฏ ใ ใ ์ด๋๋๋ผ?)
4.7. Comparison of Layer Replacement and LoRA
Layer Replacement outperforms LoRA in both performance and GPU memory consumption

- layer replacement๋ LoRA์ ํ์ต ๋ชฉ์ ์ด ๋ค๋ฅด๋ฏ๋ก, ์ถ์๊ฑฐ์ผ๋ก 1epoch LM loss๋ก ํ์ต์ ์งํํ ๊ฒฐ๊ณผ์.
- layer replacement๋ 30,000๊ฐ์ ๋ฐ์ดํฐ, LoRA๋ 300,000๊ฐ์ ๋ฐ์ดํฐ๋ก ํ์ตํจ.
- LoRA์ rank๋ ๋น์ทํ๊ฒ ๋ง์ถ๊ธฐ ์ํด 128๋ก ์ค์
LoRA๋ณด๋ค ํญ์ ์ฐ์ํจ. ์ฆ ํจ์ฌ ์ ์ GPU ๋ฉ๋ชจ๋ฆฌ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๊ตฌํ๋ ๋ฐฉ๋ฒ์.
AppendixE.8.
[layer replacement ํ์ต ๋ฐ์ดํฐ ๊ฐ์์ ๊ดํ์ฌ]
SlimPajama-6B ์ ์ฒด๋ก post training์ ํ์ ๋, ์ฑ๋ฅ์ด ์ฝ๊ฐ ์ค๋ฅด๊ธด ํ์ง๋ง computational time์ด 100๋ฐฐ ์ฆ๊ฐํ ๊ฒ์ ๋นํ๋ฉด ๊ทธ์ ๊ทธ๋ ๋ค.
5. Related Work
LLM-Streamline๊ณผ ๋์์ ์งํ๋ ๋ ์ด์ด ํ๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์๋ LaCo (Yang et al., 2024), ShortGPT (Men et al., 2024), UIDL (Gromov et al., 2024), SLEB (Song et al., 2024), Shortened Llama (Kim et al., 2024) ๋ฑ์ด ์๋ค.

- LaCo (Yang et al., 2024) ๋ ์ฐ์๋ ์ฌ๋ฌ ๋ ์ด์ด๋ฅผ ํ๋์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ๊ณ , ๊ทธ๋ค์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ๊ท ๋ด์ด ๋ ์ด์ด๋ฅผ ์์ถ(compress) ํ๋ค. (์๋ laco ํ๊ท ์๋์์!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!)
- ShortGPT (Men et al., 2024) ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋(cosine similarity) ์ ๋์ผํ BI ์ ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ ์ด์ด์ ์ค์๋๋ฅผ ํ๊ฐํ๊ณ , ๋ ์ค์ํ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๋ค.
- UIDL (Gromov et al., 2024) ์ญ์ ์ฝ์ฌ์ธ ์ ์ฌ๋์ ํด๋นํ๋ ๊ฐ ๊ฑฐ๋ฆฌ(angular distance) ๋ฅผ ์ด์ฉํด ๋ ์ค์ํ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๋ฉฐ, ์ฑ๋ฅ ํฅ์์ ์ํด QLoRA ๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ค.
- SLEB (Song et al., 2024) ๋ ํผํ๋ ์ํฐ(perplexity) ๋ฅผ ํตํด ๋ ์ด์ด์ ์ค์๋๋ฅผ ๊ณ์ฐํ๊ณ , ์ค์ํ์ง ์์ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๋ค.
- Shortened Llama (Kim et al., 2024) ๋ ๋ค์ํ ๋ ์ด์ด ์ ํ ๊ธฐ์ค(metric) ์ ํ์ํ๊ณ , ํ๋ฃจ๋ ์ดํ ์ฐ์ ์ฌ์ ํ์ต(continual pre-training) ๊ณผ LoRA ์ ์ฉ์ ํจ๊ณผ๋ฅผ ๋ถ์ํ๋ค.
์ ํต์ ์ธ ๋ ์ด์ด ํ๋ฃจ๋ ๊ธฐ๋ฒ๊ณผ ๋ฌ๋ฆฌ, LLM-Streamline์ ํ๋ฃจ๋๋ ๋ ์ด์ด๋ฅผ ๋จ์ํ ์ ๊ฑฐํ๊ฑฐ๋ ํ๋ฃจ๋๋ ๋ชจ๋ธ์ ์ฌํ์ต(retrain)ํ๋ ๋์ , ๊ฐ๋ฒผ์ด ๋์ฒด ๋ชจ๋ธ(lightweight model)์ ํ์ต์์ผ ๊ทธ ๋ ์ด์ด๋ฅผ ๋์ฒดํ๋ค.
6. Conclusion
๋ณธ ๋
ผ๋ฌธ์์๋ LLM-Streamline์ด๋ผ๋ LLM์ฉ ๋ ์ด์ด ํ๋ฃจ๋ ๋ฐ ๋์ฒด(layer pruning-and-replacement) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค.
๋ํ ๊ธฐ์กด์ ์ ํ๋(accuracy) ์งํ์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ , ๋ชจ๋ธ ์์ถ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ์งํ์ธ stability๋ฅผ ์ ์ํ๋ค.
๊ด๋ฒ์ํ ์คํ ๊ฒฐ๊ณผ, ๊ฐ๋ฒผ์ด ๋คํธ์ํฌ(lightweight network) ๋ฅผ ํ์ฉํ ๋ณธ ๋ ์ด์ด ๋์ฒด ๋ฐฉ์์ ๊ธฐ์กด์ SOTA ํ๋ฃจ๋ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ฉฐ, ๋์๋์ ๋ค๋ฅธ ๋ ์ด์ด ํ๋ฃจ๋ ๊ธฐ๋ฒ๋ค๋ณด๋ค ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๋ชจ๋์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.