๐ ์์ฝ ๐
โจ Point โจ
(1-1) Extracting Layer Activations
(1-2) Applying the Diffusion Kernel ์๊ณ ๋ฆฌ์ฆ (์ฐจ์ ์ถ์)
(2-1) NPIB๋ฅผ ์ฌ์ฉํ์ฌ similarity matrix๋ฅผ ๊ตฌ์ถ
(2-2) ์ต์ ํ๋ merging ratio๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด, adaptive weight allocation function์ ๋์ .
(2-3) weighted sum ์ ํตํด ์ ํ๋ (์ ์ฌํ) layer์ ํ๋ผ๋ฏธํฐ๋ฅผ fuse(merge)ํ๋ค.
Abstract๋ก ํ๋ฆ ํ์ ํ๊ธฐ
LLM์ complexity์ scale ๋ฌธ์ ๋ก, resource-limited ํ๊ฒฝ์์ ํ์ฉ์ด ์ด๋ ต๋ค.
parameter pruning๊ฐ์ compression ๊ธฐ์ ์ ์ ๊ฑฐ๋๋ ํ๋ผ๋ฏธํฐ์ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ์ง ๋ชปํ๋ค๋ ๋ฌธ์ ์ .
-> Manifold-Based Knowledge Alignment and Layer Merging compression (MKA)
manifold learning(Diffusion Kernel Algo.)์ ์ฌ์ฉ, Normalized Pairwise Information Bottleneck (NPIB)๋ฅผ ์ฌ์ฉํด์ mergeํ ์ ์ฌํ ๋ ์ด์ด๋ฅผ ์ ํ(?)ํจ
(๋ ์ด์ด์ ๋จ์๊ฐ ๋ญ์ผ? activation๋ผ๋ฆฌ๋ง mergeํ๋ ๊ฑด ์๋ ๊ฑฐ์์)
=> ์ฑ๋ฅ ์ ์ง, ์๋จํ ์์ถ ๋น์จ
quantization๊น์ง ์ ์ฉํ ๊ฒฝ์ฐ ๋ ์ข์ ์์ถ์ ํด๋
1. Introduction
computational resources, memory requirements, and energy consumption ใ ใ
- ๋ชจ๋ธ compression์ ๋ฌํํ๊ฒ ๋ ๊ฐ์ง๋ก ๋๋ ๋ณผ ์ ์์
1) quantization
- ๋ ์ ์ ๋นํธ๊ฐ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ (low-precistion values)
- ํ๋์จ์ด ์ง์์ ์์กด์ ์
- ์ด๋จ ๋ ์ถ๊ฐ finetuning ํ์ํจ
2) pruning
- retraining ํ์ ์๋ ๊ฒฝ์ฐ๋ ์์ (๋ญ์ผ ์๋ ๊ฐ์ ๋ง์ธ๋ฐ ๋งํ๊ธฐ ๋๋ฆ์ด๋ค;;)
- hardware-friendly
- While effective, pruning usually risks losing valuable model structures and determining how to prune the LLM with minimal disruption to the origin remains an unsolved problem [LLM-Pruner]
- ์ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด model merging์ ๋ํด delve into(์ฒ ์ ํ๊ฒ ์กฐ์ฌ)ํจ.
1) ์ฌ๋ฌ ๋ชจ๋ธ์ merge ํ๋ ๋ฐฉ๋ฒ (ํ์ฌ ์ฐ๊ตฌ๋ ์ด์ชฝ์ ๊ตญํ๋์์)
- ์ฌ๋ฌ ๋ชจ๋ธ์ ๊ฐ์ ๊ณผ ์ง์์ ์ํํ๊ฒ ๊ฒฐํฉ
- ๊ฐ์ architecture๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ค์ weight๋ฅผ ํ๊ท ๋ด๋ ๋ฐฉ์
- bias์ error๋ฅผ ์์ํจ์ผ๋ก์จ ์ฑ๋ฅ์ด ํฅ์(!)๋๋ ๊ฒฝ์ฐ๋ ์๋ค๊ณ ํจ (ref)
2) ํ๋์ ๋ชจ๋ธ ๋ด๋ถ์์ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ merge ํ๋ ๋ฐฉ๋ฒ (๋ณธ ๋ ผ๋ฌธ์ ์ด์ชฝ!)
- ๋ ์ด์ด ๊ฐ ์ง์์ ์ ์ง์ ์ธ merge์ ํตํด ์ ์ฒด ๋ ์ด์ด ์๋ฅผ ์ค์ด๋ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ ์์ถ์ด ๊ฐ๋ฅํ ๊น?
-> Manifold-Based Knowledge Alignment and Layer Merging Compression (MKA) ๋ฐฉ๋ฒ ์ ์

(1) Manifold Learning for LLM Knowledge:
manifold learning ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ ๋ ์ด์ด์ activation์ ์ถ์ถ
-> Diffusion Kernel ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ, ๋ ์ด์ด ๊ฐ ์ง์์ alignment ํ๋ค.
==> activation์ ์๋ nonlinear structure์ ๋ ์ ์บก์ฒํ ์ ์์.
์ค์ํ activation feature๋ฅผ ๋ณด์กดํ๋ฉด์ ์ฐจ์์ถ์๊ฐ ๊ฐ๋ฅํจ.
๋ฐ๋ผ์ ์๋ก๋ค๋ฅธ ๋ ์ด์ด ๊ฐ์ knowledge ํจํด์ ํจ๊ณผ์ ์ผ๋ก ๋น๊ตํ ์ ์๋ค.
(2) Similarity Alignment Layer Merging:
- Normalized Pairwise Information Bottleneck (NPIB)์ ์ฌ์ฉํ์ฌ
๋ ์ด์ด ๊ฐ ์ ์ฌ๋๋ฅผ ์ ๋ํํ๋ ์ ์ฌ๋ํ๋ ฌ(similarity matrix)์ ๊ตฌํ๋ค.
- ์ด ์ธก์ ๊ฐ์ ๊ฐ ๋ ์ด์ด์ ์ํธ๋กํผ๋ฅผ ๊ณ ๋ คํ๋ฉด์, ์ํธ ์ ๋ณด๋(mutual information)์ ์ต๋ํํ๋ ๋ฐฉ์์ผ๋ก ๋ ์ด์ด ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ค.
(๋ญ๋ผ๋ ธ)
- ์ด๋ ๊ฒ ๊ตฌํ ์ ์ฌ๋ํ๋ ฌ(similarity matrix)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์ ์ฌํ ๋ ์ด์ด ์์ ์ ํํ์ฌ mergeํ๋ค.
(merge๋ ์ด์ผ ํ๋๋ฐ?? ์ด๊ฒ๋ ๊ฑ ์ด์ ๋ฐฉ๋ฒ ๋ฐ๋ผ์ ํ๊ท ๋ด??)
cf. Information Bottleneck

Main Contributions:
- innovative model compression technique: MKA (alignํ๊ธฐ ์ํด manifold learning ์ ์ฉ / ๋ ์ด์ด์ ์ง์ ํตํฉ) -> ์ฑ๋ฅ ์ ์งํ๋ฉด์ ๋ชจ๋ธ ์ฌ์ด์ฆ ์ค์
- develop a manifold-based knowledge alignment approach (Diffusion Kernel & NPIB) -> ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์ ์ ์ฌ๋๋ฅผ ์ ์บก์ฒํ๊ณ align ๊ฐ๋ฅํ๊ฒ ํจ
- ๋ค์ํ benchmark datasets & ๋ค์ํ LLM ์ฌ์ฉ -> ๋ชจ๋ธ ์ฑ๋ฅ์ ํฐ ์ ํ์์ด ์๋นํ ์์ถ ํด๋
(์ฒซ๋ฒ์งธ ๋๋ฒ์งธ ๊ฐ์๋ง ๊ฐ์๋ฐ ๋ญ๊ฐ ๋ ์๋์ง-?)
2. Manifold-Based(์ฐจ์์ถ์-๊ธฐ๋ฐ) Knowledge Alignment and Layer Merging
๋ชจ๋ธ ํ๋ฐ(the latter) ๋ ์ด์ด์ ์กด์ฌํ๋ redundancy๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. [ref]
input-output ์ ์ฌ๋๊ฐ ๋์ ๋ ์ด์ด๋ค์ ๋ค์์ ์์ผ๋ก(back to front) mergeํจ. (๋ด๊ฐ ์๊ฐํ ๋ฐฉ๋ฒ์ด๋ ๋ฐฉํฅ ๋์ผํ ๊ฒ ๊ฐ์)
๊ณ ์ฐจ์์ intermediate states๋ ๋ถ์์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์,
ํด๋น states์ ์ถ์ถ ๋ฐ ์ฐจ์ ์ถ์ ๊ณผ์ ์ ์ค๋ช ํ๋ค.
๊ทธ ๋ค์, similarity alignment์ ๊ธฐ๋ฐํ layer merging ๊ธฐ๋ฒ์ ์ ์ํ๋ค.
์ด ๊ธฐ๋ฒ์ intermediate states๋ฅผ alignmentํ๋ฉด์ mergeํ๋ ๋ฐฉ์์ผ๋ก ์ฑ๋ฅ์ ์ ์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
2.1. Manifold Learning for LLM Knowledge
LLM์ ๊ณ์ธต ๊ฐ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ์ ๋ ฌํ๊ธฐ ์ํด, MKA๋ manifold learning ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ LLM ๋ด๋ถ ๊ตฌ์กฐ ๋ด์ ๋ณต์กํ ๋น์ ํ ์์กด์ฑ์ ํฌ์ฐฉํ๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ layer activations๋ฅผ ์๋ฏธ ์๋ ๋ฐฉ์์ผ๋ก ๋น๊ตํ๊ณ ์ ๋ ฌํ ์ ์๋๋ก ํ๋ฉฐ, ํต์ฌ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ฉด์๋ ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ์ค์ผ ์ ์๊ฒ ํ๋ค.
layer activations H^l ์ ์ถ์ถํ๋ค. (dataset: w)
์ฌ๊ธฐ์ activations์ ์ธํ ์ํ๋ค์ด ์ฃผ์ด์ก์ ๋, ๊ฐ ๋ ์ด์ด์ ์์ํ์ ์๋ฏธํจ. (๋ญ.. H๊ฐ ํ๋ repre-์ธ๊ฑด๊ฐ๊ทธ๋ผ ๋ฐ์์ ๋ฐ๋ก ์ค๋ช
ํจ)
๊ณ ์ฐจ์์ธ activation์ ์ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋ฐ๊พธ๊ธฐ ์ํด Diffustion Kernel algorithm์ ์ฌ์ฉํ๋ค. (LLM ๋ด๋ถ๊ฐ ์. 128๋๋ฉ์ ๋ง ์ด๋ฌ๋๊น ๊ทธ๋ ๋ค ๊ณ ์ฐจ์์ด๋ค..)
Extracting Layer Activations:
activations of each layers (H^l) ๋ฅผ ์ถ์ถ

Constructing the Pairwise Distance Matrix:
pairwise Euclidean distance matrix (D)๋ฅผ ๊ณ์ฐ
๋ชจ๋ activation์ ์์ distance๋ฅผ ์ ์ ์๋ค.
Applying the Diffusion Kernel:
Diffusion Kernel ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ distance matrix (D)๋ฅผ ์ ์ฐจ์ manifold representation (Φ_i)๋ก ๋ณํํ๋ค.

σ_K : the kernel bandwidth parameter (์คํ์์๋ 8๋ก ์ค์ ํ๋ค๊ณ ํจ)
EigVectors_d : eigenvectors corresponding to the d smallest eigenvalues of the Laplacian matrix L
EigVectors๋ **๋ผํ๋ผ์์ ํ๋ ฌ L**์ ๊ฐ์ฅ ์์ d๊ฐ์ ๊ณ ์ ๊ฐ์ ๋์๋๋ ๊ณ ์ ๋ฒกํฐ๋ฅผ ์๋ฏธํ๋ค.
์ด๋ฌํ ๋ณํ์ ํ์ฑ๊ฐ(activation) ๋ด์ ์กด์ฌํ๋ ํต์ฌ์ ์ธ ํน์ง๊ณผ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๋ฉฐ,
์๋ก ๋ค๋ฅธ ๋ ์ด์ด ๊ฐ์ ํจ๊ณผ์ ์ธ ๋น๊ต๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด์ค๋ค.
..์ผ๋จ ํจใ ์ค..~
* ์ฌ์ฉํ ๋ฐ์ดํฐ์ : the first question from the 57-question MMLU dataset
2.2. Similarity-based Layer Merging (์ด์ merge ํ๋ ๊ฑฐ)
manifold learning representations๋ฅผ ๋ฐํ์ผ๋ก, ์ ์ฌ๋-๊ธฐ๋ฐ(similarity-based) ๋ ์ด์ด merging์ ์งํํ๋ค.
๋ ์ด์ด๋ค ๊ฐ์ similarity๋ฅผ ์์นํํ๊ธฐ ์ํด Normalized Pariwise Information Bottleneck (NPIB) metric์ ์ฌ์ฉํ๋ค!
(1) NPIB๋ฅผ ์ฌ์ฉํ์ฌ similarity matrix๋ฅผ ๊ตฌ์ถ
(2) ์ต์ ํ๋ merging ratio๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด, adaptive weight allocation function์ ๋์ .
(3) weighted sum ์ ํตํด ์ ํ๋ (์ ์ฌํ) layer์ ํ๋ผ๋ฏธํฐ๋ฅผ fuseํ๋ค. (์ใ ใ ใ ใ ใ ใ ใ ใ ์จ์ดํฐ๋์ธ์ด์?;;; ์ด๋ฐ ์ ๋ฐฉ๋ฒ ใฑใ ์?? ์ด๊ฒ ์ง์ ๋ณด์กด์ด ๋ผ????????????????????????????????????????????????????????????? ์คํ์ ํด๋ณผ๋ง ํ๋ฏ ... distillation ๋ก์ค ์ ์ฐ๊ณ ๊ทธ๋ฅ weighted sum...ใ ใ ์์ ๊ฐ๋จํด์ง๊ฒ๋ค ์ฐ์)
Constructing the Similarity Matrix (1)
Normalized Pairwise Information Bottleneck(NPIB)๋ ๊ฐ ๋ ์ด์ด์ ๊ฐ๋ณ ์ํธ๋กํผ๋ฅผ ์ ๊ทํํ๋ฉด์, ๋ ์ด์ด ๊ฐ์ ๊ณต์ ๋๋ ์ ๋ณด๋์ ์ ๋ํํ์ฌ,
๋ ์ด์ด ๊ฐ ์ง์ ํจํด์ ๋น๊ตํ๊ธฐ์ ์ด์์ ์ธ ์ฒ๋๋ฅผ ์ ๊ณต..ํ๋ค..

P(x, y) : E_i์ E_j์ joint probability distribution
p(x) : E_i์ marginal probability distribution
p(y) : E_j์ marginal probability distribution
์ ์ ์ฌ๋ํ๋ ฌ์ ์ด๋ค ๋ ์ด์ด๋ค์ด aligned knowledge representation์ ๊ฐ์ง๊ณ ์๋์ง ์ ์ ์๊ฒ ํด์ค. (์ฆ mergeํ ์ ๋ค ๊ฒฐ์ ใฑใด)
Calculate Weight Ratio (2)
๋ ์ด์ด ์ฌ์ด์ similarity difference์ ๊ธฐ๋ฐํ์ฌ merging weight๋ฅผ ์ ํ๋ค.
๋ ๋ ์ด์ด ์ฌ์ด์ ์ ์ฌ๋ ์ฐจ์ด๊ฐ ํฌ๋ฉด Ψ๋ ์ ์ฌ๋๊ฐ ๋ ๋์ ๋ ์ด์ด์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ํ ๋นํ๊ณ , ์ ์ฌ๋๊ฐ ๋ฎ์ ๋ ์ด์ด์ ๊ฐ์ค์น๋ ์ค์ธ๋ค.
(๋ญ์๋ฆฌ์ผ ๊ธฐ์ค์ด ๋๋ ๋ ์ด์ด๊ฐ ๋ญ๋ฐ?;;;; ๋ ๊ฐ๋ฅผ ๋น๊ตํ๋๋ฐ ๋ ๊ฐ ์ค ๋ ์ ์ฌํ ํ ๊ฐ??? ๋ญ์๋ฆฌ์ผ ์ด๊ฒ)

λ_m : the merging ratio
Ψ : the adaptive weight allocation function
Merging Layer Parameters (3)



L_m : ์๋กญ๊ฒ merge๋ ๋ ์ด์ด (L_i ์ L_j ์ mergence)

3. Experiments
a comprehensive set of experiments to evaluate the effectiveness and generalizability of our MKA method across various domains
3.1. Experimental Setup
3.1.1. Datasets
(์ ๋ถ accuracy)
MMLU
PIQA
HellaSwag
RACE-H
BoolQ
3.1.2. LLMs
Llama-2
Llama-3
Mistral-7B
3.1.3. Baselines
(1. ๊ธฐ์กด pruning ๊ธฐ๋ฒ / 2.๊ธฐ์กด pruning ๊ธฐ๋ฒ + quntization )
SparseGPT
ShortGPT
Reverse Pruning (๋ ์ด์ด์ ์ค์๋๋ฅผ ๋ชจ๋ธ ๋ด ์์์ ๋ฐ๋น๋กํ๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผํ๋ ํด๋ฆฌ์คํฑ ์ ๊ทผ ๋ฐฉ์์ผ๋ก, ์ด๊ธฐ ๋ ์ด์ด๋ฅผ ์ฐ์ ์ ์ผ๋ก ๋ณด์กดํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.)
SmoothQuant
GPTQ
AWQ
3.2. In what ways does MKA surpass conventional pruning techniques?
MMLU dataset using the Llama3-8B, Llama3-70B, Mistral-7B, Llama2-7B, and Llama2-13B models

- Llama3-8B์ ์์ถ๋ฅ ์ 43.5%์ ๋๋ฌํ๊ณ , Mistral-7B๋ 40%, Llama2-13B๋ ๋๋๊ฒ๋ 57.5%
- ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ถ๊ดด(collapse)๋ฅผ ๊ฒฝํํ์ง๋ง, ๋ชจ๋ธ ๋ณํฉ ๋ฐฉ์์ ์ด๋ ์ ๋ ๋ ์ด์ด ๋ถ๊ดด๋ฅผ ์ง์ฐ์ํค๊ณ ๋ชจ๋ธ ์ฑ๋ฅ์ ์์ ์ ์ผ๋ก ์ ์งํ ์
- ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ์ด Reverse Prune์ ๊ธฐ๋ฐํ๊ณ ์๊ธฐ ๋๋ฌธ์ (์ธ์ ๊ทธ๋ฐ ๋ง์..), Llama3-8B, Llama2-7B, Llama2-13B ๋ชจ๋ธ์ ๋ํ ์ ์๋ Reverse Prune๊ณผ ๋งค์ฐ ์ ์ฌ (๋ค๋ฅธ ๊ฒฝ์ฐ๋ ์ ์ฌํ์ง ์๊ธฐ๋ ํ๋ค. ..)
3.3. How Does MKA Combined with Quantization Perform Compared to Pruning Combined with Quantization?

- pruning๋ ๋ชจ๋ธ๋ค์ด ์ถ๊ฐ๋ก quantization๋๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ๊ณ , ๋ ๋์ ์์ถ๋ฅ ์ ๋ฌ์ฑํ ์ ์๋ค
- For example, on Llama3-8B, at a compression ratio of 85.94%, MKA with SmoothQuant achieves 64.20%, far exceeding ShortGPT with SmoothQuant at 37.66%.
- ์ใ ใ ใ ใ ใ ใ ใ ใ ใ ์ฅ?????? pruning ๋น์จ์ด 80%๊ฐ ๋์ด?????? ใ ๋ญ์ผ ๋จ๋ ๊ฒ ์๋ ๊ฑฐ์ผ?? ๋ง์ด ๋ผ,,?

quantization ์ชฝ์ด ์๋ ์ด๋ฐ๊ฑด๊ฐ๋ด ...........
3.4. MKA vs. Other Pruning Methods on varies benchmarks
Llama3-8B
ratios of {34.375%, 37.5%, 40.625%, 43.75%}

- ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ ์ข์ ์ฑ๋ฅ์ ๋
- For example, at a compression ratio of 34.375% on the MMLU dataset, our method can outperform ShortGPT by 21.92% and SparseGPT by 20.42%.
- ์ค.. ํ๋ฃจ๋ํ๋ฉด PIQA๋ HellaSwag(๋ MMLU) ์ฑ๋ฅ ์์ฒญ ๋จ์ด์ง๋ค
3.5. Are Inter-Layer Knowledge Alignment Similarity Matrices Consistent Across different Large Models?

- Visualize the knowledge alignment and layer merging effects of MKA on various models. (์ฅ ๊ทผ๋ฐ before and after MKA๋ผ๋๋ฐ ๋ญ ์ด๋๊ฐ ๋นํฌ๊ณ ์ด๋๊ฐ ์ ํํฐ์ธ์ง;;;;;;;)
- ์ ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ํ๋ฐ๋ ์ด์ด(the later layers)๊ฐ ๋์ ์ ์ฌ๋๋ฅผ ๋ณด์ธ๋ค
- ์ด๋ฐ ๋ ์ด์ด์ ์ค์์ฑ -> Additionally, when merging the earlier layers, we notice a collapse of the matrix in the final figure, suggesting that earlier layers have a significant influence on later layers.
4. Discussion
4.1. Extension to Multimodal and Specialized Models

- MoE ์ Mamba ๋ชจ๋ธ์๋ ์ ์ฉ์ด ๊ฐ๋ฅํ๋ค. (๋ ๋ชจ๋ธ๋ ๋น์ทํ redundancy๋ฅผ ๋ณด์ด๊ณ ์์)
-jamba์ Mixtral-8x7B์ ์ ์ฌ๋ ๋ถํฌ๋ LLM๊ณผ๋ ์ฝ๊ฐ ๋ค๋ฅธ ๊ฒฝํฅ์ ๋๋ค(!) (๊ตฌ์กฐ๊ฐ ๋ค๋ฅด๋๊น ๊ทธ๋ด๋ฒ๋ ํ์ง๋ง ์ด์ ๋ ๊ถ๊ธํ๋ค)
* Mixtral-8x7B : attention ์ฌ์ฉ, Mistral 7B+Mixture of Expert
* Mamba : attention์ ์ฌ์ฉํ์ง ์๋ ๋ณ๋ ฌ ๊ฐ๋ฅํ RNN-like ๊ตฌ์กฐ์ State Space Model(SSM) ๊ธฐ๋ฐ ์ํ์ค ๋ชจ๋ธ
* Jamba : Mamba ๊ธฐ๋ฐ์ MoE ์คํ์์ค ๋ชจ๋ธ
4.2. Analysis of Similarity Measures
Llama3-8B
similarity metric : {Cosine Similarity, Mahalanobis Distance, Euclidean Distance, t-SNE Similarity, Autoencoder Similarity}

์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity), ๋งํ ๋ผ๋ ธ๋น์ค ๊ฑฐ๋ฆฌ(Mahalanobis Distance), ๊ทธ๋ฆฌ๊ณ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ์์ง ์ค๋ฌด๋ฌ์ ๋ค์ํ ์ด ๊ฐ(heat values)์ ๊ฐ์ง๋ ์ ์ฌํ ๋ถํฌ ํจํด์ ๋ณด์์ ๊ด์ฐฐํ ์ ์๋ค. ๊ทธ๋ฌ๋ Mahalanobis Distance๋ ์ด๋ฌํ ์ค๋ฌด๋ฌ ๋ด์์ ๋ถ๊ท์นํ ์ด ๊ฐ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ์ตํฉ๋ ๋ ์ด์ด ๋ฐ์ดํฐ ๊ตฌ์กฐ์์ ๋ถ์ผ์น๋ฅผ ๋ํ๋ธ๋ค. t-SNE ์ ์ฌ๋๋ ๋ฌด์์์ ์ด๋ฉฐ ์ผ๊ด๋ ํจํด์ด ๋ถ์กฑํ๋ค. ์คํ ์ธ์ฝ๋ ์ ์ฌ๋(Autoencoder Similarity)์ ๊ฒฝ์ฐ, ๋์ ์ด ๊ฐ์ด ์ ์ ํ ๋ณํฉ ์์ญ์ด๋ ์์๋๋ ๋์ ์ ์ฌ๋ ์์ญ๊ณผ ์ผ์นํ์ง ์๋๋ค.
- ๊ทธ๋๊น manifold learning์ ํตํด์ similarity๋ฅผ ๊ตฌํ๋ ๊ฒ ๊ฐ์ฅ ์ข๋ค๋ ๊ฒ ๊ฐ์. ๊ทธ๋ฅ ์ผ๋ฐ์ ์ธ metric์ ์ฐ๋ฉด ์ ๋ ๊ฒ ์ด์ํ๊ฒ ๋ํ๋๋๊น.. (๋ค๋ฅธ ๋ ผ๋ฌธ์ ์ ๊ทธ๋ฌ๋๋ฐ... ์ด๋ค matrix๋ฅผ ๊ธฐ์ค์ผ๋ก sim์ ๊ตฌํ๋์ง๊ฐ ๋ฌ๋ผ์ ๊ฒฐ๊ณผ๋ ๋ค๋ฅธ๊ฑด๊ฐ)
4.3. Variations in Accuracy Across Different MMLU Subjects During Layer Merging
Subject : {College Medicine, College Biology, High School Psychology, College Physics}

- ๊ณ ๋ฑํ๊ต ์ฌ๋ฆฌํ(High School Psychology)์ ์ ํ๋์์ ์ฝ๊ฐ์ ๋ณ๋๋ง์ ๋ณด์ด๋ฉฐ ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ์ง
- College Biology์ 12.5% ๋ณํฉ ๋น์จ์์ ์ ํ๋๊ฐ ํฌ๊ฒ ํ๋ฝํ ํ ํ๋ณต๋๋ ์์
- College Physics์ ์ ํ๋์ ์ฆ์ ๋ณ๋์ ๋ํ๋ด๋ฉฐ, ๋ ์ด์ด ๋ณํฉ์ ๋ํ ๋ฏผ๊ฐ๋๊ฐ ๋์
- College Medicine์ ์ฑ๋ฅ์ด ๊พธ์คํ ์ฆ๊ฐํ์๊ณ , ๋ณ๋์ ๋ฏธ๋ฏธ
- ๋ ์ด์ด๋ฅผ ๋ ์์ด๋๋ฐ ์ฑ๋ฅ์ด ์ค๋ฅด๋ ๊ฑด ๋ฌด์จ ์๋ฏธ์ผ๊น (์ ์ด๊ฑด SLEB ์ฒ๋ผ ๊ณ์ ๊ฐฑ์ ์ด ์๋๊ฐ? ๋น์จ๋ง๋ค ํ๋ฃจ๋ ์กฐํฉ์ด ๋ค๋ฅธ๊ฑด๊ฐ)
5. Conclusion
(merge ๋ฐฉ์์ด weighted sum์ด๋ผ๋ ๊ฒ์์ ํฅ๋ฏธ๋ฅผ ์์ ..ใ ใ
adaptive ratio๋ฅผ ๊ตฌํ๋ ๋ฐฉ์์ด ์ฌ๊ธฐ์๋ similarity ์ด์ฉ๊ณ ์ด์ ๊ณ ์๋๋ฐ
์ด ๋ถ๋ถ์ ์๋กญ๊ฒ ์๊ฐํด์ adaptive ratio๋ฅผ ๊ตฌํ๊ณ weighted sum์ ํ๋ ๋ฐฉ๋ฒ ์ ๋๋ ์ป์ ์ ์์ ๋ฏ.
(์๋ ๋๋ importance score๋ similarity ์กฐํฉ์ ๊ตฌํ ํ์๊ฐ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์ถ๊ธฐ ๋๋ฌธ) )
๋ณต์กํ๊ณ ์๋ฏผํ๊ณ ๋ณ๋ก ๊ฑฐ ๊ฐ์๋ฐ novelty ๊ฐ ๋ค ํ ๊ฑด๊ฐ
๋ชจ๋ ์์์ ๋ฏ์ด๋ณด์ง ์์๊ณ (์ฝ๋๋ ์์ด์ ์ด์ผ ๋๊ฑด์ง ๋ชจ๋ฆ), high level๋ก ๋ฐฉ๋ฒ๋ก ๊ณผ ์ค์ํ ๋ถ๋ถใ ใ ์ง์คํด์ ์ฝ์
merge ๋จ์๋ layer๋ผ๊ณ ํ๋๋ฐ ์ ํํ ์ด๋ weight์ ํ๋ผ๋ฏธํฐ๋ค์ mergeํ๋์ง ์ ๋์์ ๋ชจ๋ฅด๊ฒ์.... ์ ๋ถ ๋ค ํ ๊ฑด๊ฐ
Limitations
manifold learning ๊ณผ์ ์์, input dataset์ ํ๋ฆฌํฐ์ ์ฌํ๊ฒ ์์กด(heavily depends on)ํ๋ค๋ ํ๊ณ.
์ํ ๋ฐ์ดํฐ ๊ฐ์(์)๋ manifold learning ๊ฒฐ๊ณผ์ ํฐ ์ํฅ(significantly impact)์ ๋ฏธ์น๋ค.
์กฐ๊ฑด์(Condition Number)๋ฅผ 2000 ์ดํ๋ก ์ ์งํ๋ ๊ฒ์ ํ์ต๋ manifold representations์ ์ ํ์ฑ์ ๋ณด์ฅํ๋ ๋ฐ ๋งค์ฐ ์ค์ํ๋ค. activation๋ฅผ ์ถ์ถํ๋ ๋ฐ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ด ๋ชจ๋ธ์ ๋์ ๋ฒ์(operational range)๋ฅผ ์ถฉ๋ถํ ํฌ๊ดํ์ง ๋ชปํ ๊ฒฝ์ฐ, ํ์ต๋ ๋ค์์ฒด ํํ์ ๋ฐ์ดํฐ์ ์ค์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ์ ๋๋ก ํฌ์ฐฉํ์ง ๋ชปํ ์ ์๋ค.
ํ์ฌ MKA์ ๊ตฌํ์ ์ฃผ๋ก ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ํคํ ์ฒ์์ ํ ์คํธ๋์๋ค. ์ฐ๋ฆฌ๋ ์ฌ์ธต ์ ๊ฒฝ๋ง์ด ๋ณธ์ง์ ์ผ๋ก ์ค๋ณต์ ํฌํจํ๊ณ ์๋ค๊ณ ๋ฏฟ์ง๋ง, MKA๊ฐ ๋ค๋ฅธ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ—์๋ฅผ ๋ค์ด, CNN์ด๋ RNN—์ ์ ์ฉ๋ ์ ์์์ง, ๊ทธ๋ฆฌ๊ณ ๋์ผํ ์์ถ ํจ๊ณผ๋ฅผ ๋ฐํํ ์ ์์์ง๋ ์์ง ์ถฉ๋ถํ ํ๊ตฌ๋์ง ์์๋ค.
* Condition Number : ์ด๋ค ํจ์ y=f(x)์ ์กฐ๊ฑด์(condition number)๋ ํจ์์ ์ ๋ ฅ์ธ x์ ์์ ๋ณํ์ธ์ ๋ํด ํจ์์ ์ถ๋ ฅ์ธ y์ ๋ณํ์จ์ด ์ผ๋ง์ธ์ง๋ฅผ ๋ํ๋ด๋ ์๋ก์, ํจ์์ ๋ฏผ๊ฐ๋๋ฅผ ์ธก์ ํ๋ ์งํ
์ฐธ๊ณ :
Condition number https://pasus.tistory.com/103