SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks

ICML 2024

Code

👀 요약 👀

✨ Point ✨

Abstract로 흐름 파악하기

기존의 pruning 방법은 end-to-end LLM inference 속도 향상에 어려움을 겪는다.

불필요한 transformer blocks을 제거하는 새로운 방식 제안 (streamline 간소화(능률화)하다)

- high similarity between the outputs of neighboring blocks 에 기반한다.

(오 이 논문은 importance score로 프루닝하는 게 아니고 redundency/similarity를 기반으로 프루닝한다)

에? 근데 metric2로 한 거면 유사도 기반이 아니잖아;;;;??

LLM 속도 향상, 성능 유지되었다-

1. Introduction

상당한 양의 parameters는 real-world sevices에 모델 적용을 어렵게 한다. (메모리 사용 증가, computational demands)

따라서 작고 효율적인 모델을 만드는 기술 발전이 중요함.

Network pruning(파라미터 제거)의 단점 - sparse matrix를 처리하는 데 발생하는 어려움. 지금 GPU는 dense matrix를 계산하는데 최적화되어있다.

In the realm of LLMs, a significant similarity in output is observed among successive transformer blocks (Din et al., 2023; Liu et al., 2023).

Transformer 블럭 내부에 있는 residual path 때문에 블럭간 출력이 상당히 유사해지며, 결과적으로 redundancy가 생긴다.

(엇 .. 그럼 pre training 끝난 모델에서, residual connection을 제거하고 finetuning 하면, 좀 더 세부적인 정보를 잡을 수 있으려나? 예를 들면 추론 능력이라든가..)

* residual path는 학습하는 동안, backpropagation을 안정시키기 위해 도입된 것 (ㅋㅋ ㄱ.,그렇구나..)

SLEB 제안함.

이 방법으로 careful elimination of redundant transformer block하면 text generation 능력에 영향없다고 한다.

2. Motivation

2.1. Pruning

compact and fast LLMs을 만드는 두 가지 방법이 있음

1. 개별 블럭의 효율을 향상

2. 전체 블럭의 개수를 줄이기

Challenge 1) Limitation in Achieving LLM Inference Speedup:

프루닝은 두 가지 주요 type이 있음 1. Unstructured 2. Structured

- Unstructured pruning은 individual weight를 제거하는데, 이는 sparse weight matrix를 만들어버린다.

복잡한 data access pattern을 만들고, 관리를 복잡하게 하며, 심지어 모델 가속화를 방해할 수도 있음

NVIDIA GPU에서는 unstructured pruning을 통해 속도 향상을 얻으려면 일반적으로 90% 이상의 높은 sparsity을 달성해야 한다는 연구 결과 ()

현실은 50% 프루닝도 힘들긴 함

- Sturctured pruning은 (각자 정의한) units of weights를 제거한다.

하드웨어 friendly한 dense matrix 형태를 구성하는 것이 목표이다.

이상과는 달리 프루닝 비율에 비례하게 속도 향상이 되지는 않음

- GPU 어쩌고어쩌고 ㅜㅜ 2:4 pruning techniques (일단 넘어감..)

- 최신 프루닝 방법들!! [LLM-Pruner] [SliceGPT]

weight matrix의 전체 채널(row/column) 단위 (channel-wise)로 제거하는 방법을 사용. (dense format이 유지된다)

하지만 extensive fine-tuning의 도움이 필요하다는 단점 [LLM-Pruner]

속도에 큰 향상 X [SliceGPT]

- 새로운 프루닝 방법 [Deja Vu]

입력 context를 기반으로, 레이어 연산의 특정 구간을 dynamic하게 우회할지 평가하는 방식

싱글 배치 시나리오에서 효과적인 추론속도 향상, but Early Exit과 유사한 문제점.. contd...

2.2. Early Exit

트랜스포머 블록 수를 줄이는 것은 처리 속도를 직접적으로 향상시킨다. 이를 이용한 방법이 Early Exit.

모델이 일정한 수준의 confidence level에 도달하면 멈추고 output을 낸다.

트랜스포머 블록을 건너뛰는 방법도 있음 - 이 전략은 특히 LLM의 초기 블록을 제거하는 것이 더 용이할 수 있음을 시사 (오???????????????????????? 충돌한다;;;;;; 어차피 건너뛰는 거면 remove랑 같은 거 아님??)

* dynamic decision-making or extensive training to be effective 이 요구된다는 단점.

얼리엑싯하면 ppl 높아짐 (성능 저하)

제거하는 블럭 수가 많을수록 ppl 높아짐 (성능 저하) - by testing all possible removable points of consecutive blocks

==> 따라서 LLM에서 연속된 블록을 단순히 제거하는 개념은 dynamic decision-making과 training 없이는 효과적이지 않다

Challenge 2) Limitation in Acceleration in Multi-batch Settings

주로 multi-batch 시나리오에서 작동하는데, 개별 토큰에 대해 skip하는 레이어가 다를 수 있다.

implementation을 복잡하게 하거나 효율성을 감소시킨다는 문제

Challenge 3) Inability to Reduce Memory Requirements:

early exit과 같은 dynamic methods는 모델의 모든 파라미터를 저장하고 있긴 해야 하므로,

메모리 사용량을 줄이지 못한다.

Challenge 4) Resource-Intensive Training

위 실험 -> 모델의 후반부분이 되어서야 최종 결과와 비슷해짐.

early exit을 써도 대략 90%의 transformer 블럭은 여전히 필요한 상황이다. 즉 얼리엑싯을 위한 training 많이 해야됨.

그렇기 때문에 LLaMA2-70B 같은 매우 큰 모델에는 얼리엑싯 전략을 채택하기 어렵다.

Solution!!

1) LLM Inference Speedup

transformer block을 제거 단위로 설정

2) Acceleration in Multi-batch Setting

철저한 중복성 검증을 거친 후 트랜스포머 블록을 정적(static) 방식으로 제거하는 접근법을 사용한다.

이는 전통적인 프루닝(pruning) 기법과 동일함

(즉 다이나믹하지 않다는 뜻같음..)

3) Reduction in Memory Requirements

불필요한 블럭을 아예 제거함으로써 ㄱㄴ

4) Training-free Compression (오-)

training-free한 중복성 분석을 진행하기 때문에, intensive(집약적인) (재)학습 과정 필요 없다.

3. Proposed SLEB

3.1. Output Similarity across Transformer Blocks

x_i : i번째 transformer block의 output
T_i : i번째 transformer block의 계산 결과

transformer 블럭의 Output 끼리의 cosine similarity를 구한다.

-> 모델 전반에서는 다양한 유사도가 존재하지만 인접한 블럭끼리는 일관적으로 높은 유사도를 보인다.

이러한 결과는 모델 내에 잠재적인 redundancy가 있음을 시사한다.

- 여기서 early exit의 근본적인 misalignment가 있음을 알 수 잇죠

연속적인 블럭을 유지하면서 진행하기 때문

또한 꼭 필요한 중요 블럭을 놓칠 우려도 있다

3.2. Redundancy Verification of Transformer Blocks

일단 불필요한 블럭을 식별해내는 게 우선임.

Metric 1. 각 블럭의 Input과 Output간의 distance를 계산.

작은 값을 가지면, 전반적인 LLM inference에 있어 minor impact를 가진다고 생각할 수 있다.

* cosine similarity
A_j : j 번째 블럭의 input
B_j : j 번째 블럭의 output

* ppl 급격히 증가함

-> minor changes in that block can be amplified, especially if the block lies in the early stage of the LLM, leading to a more substantial impact on the overall results.

==> 초반 블럭 중요함

* 저 그래프가 [Shortened LLaMA]의 한계 같은데? 그냥 레이어 하나씩 빼면서 구한 ppl 증가률 순위대로 제거하는거

Metric 2. 각 블럭을 뺐을 때 다음 토큰 확률

M_j : j 번째 블럭이 제거된 LLM

* Metric 1보다는 낫지만, 제거하는 블럭이 많아지면 ppl 급격히 증가함.

블럭이 제거될 때마다, 남은 블럭간의 중요도가 변하기 때문일 것.

e.g., 6.7B 모델에서 7개 블럭을 제거하는 경우, 3 4 5 6 7 8 10 th 블럭이 제거되었다고 함. (즉 연속된 애들이 모두 제거)

음?? 이 metric이 그냥 ppl 이잖아..?

Metric 3. iterative removal process

하나 제거할 때마다 redundant block 다시 구하기

LLM의 업데이트되는 상태에 기반해서 제거할 블럭을 결정할 수 있다.

M' : 전 단계에서 블럭이 제거된 LLM

* 성능 양호함

e.g., 6.7B 모델에서 7개 블럭을 제거하는 경우, 6 7 3 24 18 30 11 th 블럭 순서대로 제거되었다고 함

3.3. Proposed SLEB Algorithm

Calibration data를 사용해서 transformer block의 redundancy를 계산한다.

이 방법은 모델 추가학습 없이 모델을 stramline할 수 있게 한다.

(되게.....간단하다...............................)

4. Experiments

4.1. Experimental Setup

- NVIDIA A100 GPUs equipped with 80GB of memory

- SLEB requires 2 GPUs for pruning OPT-66B and LLaMA-70B, and 1 GPU for pruning smaller models

- 라마 70B 프루닝하는데 1.5시간 걸림

- fine-tuning 없이 inference 과정만으로 완료됨.

- Calibration data : WidiText-2에서 128개 랜덤 선택 [SliceGPT를 따름]

- pruning ratio는 약 10% 또는 20%로 실험함

[Model]

OPT fam

LLaMA-2 fam

[Baseline]

(2:4 structured pruning methods)

SparseGPT

Wanda

DSnoT

(channel-wise pruning)

LLM-Pruner

SliceGPT

4.2. Elimination of Transformer Blocks using SLEB

- 모델에 따라 제거되는 transformer 블럭 위치가 다르다

(-> 이를 반영할 수 잇는 metric 3 같은 것이 필요하다~)

4.3. Language Modeling

[Data]

C4 validation dataset

WikiText-2

- 다른 프루닝 방법 보다 ratio는 낮긴 하지만 추론 속도에서 우수하다.

- Wanda와 DSnoT는 OPT-66B 모델에서 완전히 실패

(아니 ppl도 많이 안 올랏네..........머야 좋잖아)

- transformer block 이라는 거대한(안좋아보이는) 단위를 설정했음에도, 상당히 우수한 성능을 보임

4.4. Dependency on Calibration Dataset

- SLEB가 calibration dataset에 가장 낮은 의존도를 보임.

- 이전에 제안된 방법들이 레이어 수준에서 중복성을 측정한 반면, SLEB는 Metric3를 사용하여 전체 네트워크 수준에서 각 트랜스포머 블록의 중복성을 평가한다.

이 접근 방식은 사전 학습된 LLM에 존재하는 정보를 충분히 활용하며, 데이터셋에 대한 의존도가 더 낮음을 보여줍니다.

( calibration set 개수!!!!!!!!! 는 이논문은 실험 안 햇넹 ) 근데 레퍼 따온 SliceGPT에서는 했음. 데이터 개수랑 sequence length까지.. ([SliceGPT] Appendix A.3.)

4.5. Zero-shot Tasks

[Task]

PIQA

WinoGrande

HellaSwag

ARC-easy / challenge

LM Evaluation Harness

라마가 OPT 보다 성능 저하가 심하넹 ....

4.6. Speedup

4.7. Compatibility with Post-Training Quantization

5. Conclusion

저작자표시 비영리 변경금지 (새창열림)

'📎 paper > NLP' 카테고리의 다른 글

LaCo: Large Language Model Pruning via Layer Collapse (0)	2025.08.06
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging (0)	2025.05.19
Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods (0)	2025.04.29
LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering (5)	2024.11.04
A Simple Framework for Contrastive Learning of Visual Representations (SimCLR) (1)	2024.09.03

nlp gong bu

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks

1. Introduction