ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2024 DoLa NLP Seminar
    ML&NLP 2024. 8. 30. 19:52

    DoLa: Decoding by Contrasting Lyaers Improves Factuality in Large Langauge Models. ICLR. 2024 

    DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models. ICLR 2024

     

    요약 : Hallucination 울 줄이기 위한 새로운 디코딩 방식을 제안

    어떻게? : 마지막 Layer 뿐만 아니라 중간 Layer hidden states 기반의 next word distribution 도 구해서 이를 디코딩 활 때 활용

     


    0. Background

    Contrastive Decoding

    Contrastive Decoding: Open-ended Text Generation as Optimization. ACL. 2023

     

    LM의 repetition, incosistent 등의 문제들은 small LM(e.g. OPT-125M) 에서 더 만연하다. 다음 token 을 예측 할 때 small LM 이 높은 확률을 준 token 에는 패널티를 주자!

     -> 다음 token 확률 계산할 때, Large LM(Expert) 의 log token probability 에서 Small LM(Amature) 의 log token probability 를 빼고, 여기에 softmax 를 씌워서 이를 새로운 token probability로 활용.

     

    추가적인 Constraints 

    Expert LM 기준, 어느정도 확률이 있는 token 들만 candidate에 포함시키고 확률이 아주 낮은 token 들은 아예 후보에서 뺌. 기준은 위 수식. 

     

    1) 말도 안되는 Token 이 선택될 가능성을 없애줌

    위 예시 문맥에서 "Net-Message" 란 토큰은 expert LM 에서 확률이 3*10^-9 이고, amateur LM 에서 8 * 10^-14 임 위 log P_exp - log P_ama 수식 적용하면 10.6이라는 1위값이 나옴. 이와 같이 확률이 아주 낮은 것들은 미리 제거해야함

     

    2) 당연한 토큰(Easy to decide)이 선택 안될 가능성을 없애줌

    조사나 당연한 토큰들. 예를 들어 유니콘에 대해서 설명하는 글에는 "unic" 토큰 다음에는 “#orn” 이 와야함. 이 경우amateur LM 에서도 확률이 매우 높아서  log P_exp - log P_ama 적용하면 작은 값이 나오게 됨. 하지만 위 constraints 때문에 상관없음. 위 수식에서, alpha 를 0.1 라 했을 때, 이와 같이 easy token 은 확률이 0.99 처럼 매우 높게 나올 것임. 0.99*0.1 = 0.099 이상 확률을 가지는 토큰들만 후보군에 포함되는 조건인데, 그럼 이 easy token 하나만 후보군에 있어서 문제 없음.


     

    1. Method

    위 Contrastive Decoding와 유사함. 단 small LM 을 활용하는게 아닌 "중간 Layer" 의 next token distribution 예측 결과를 활용 (+ Last Layer 와 next token 확률분포 차이가 가장 큰 Layer를 매 token 마다 dynamic 하게 선택)

    * Jensen-Shannon Divergence? : KL Divergnec 와 유사. KL Divergence 를 symmetry 하게 만들하서 distance 척도로 사용가능하게 한 함수

    * 위 Figure 에서 함수 "F" : Contrastive Decoding 과 같음! ( log P_exp - log P_ama )

     

    ---

    위 다이어그램은 마지막 레이어와 각 중간 레이어의 Jensen-Shannon Divergenece 값임. 문법적 기능을 하는 단어들이나 문맥에 있는 단어를 반복하는(노란색) 토큰들은 후반부 레이어에어서는 마지막 레이어와 차이가 거의 없는 것들을 볼 수 있음. 반면 인명이나 1986 같이 문맥에 없고, 새로 생성해야하는 Factual Knowledge 가 필요하는 단어들은 후반부 레이어들도 마지막 레이어랑 큰 차이가 남을 알 수 있음

     

    --> Dynamic 하게 가장 차이가 큰 레이어를 선택한 거는 1) 차이가 큰 레이어를 활용함으로서 Factual Knowledge 가 선택될 가능성을 높이고, 또 위처럼 토큰에 따라 분포가 다양하기에 dynamic 한 선택 기법을 사용

     

    ---

     

    가장 차이가 큰 값을 찾는 후보군이 되는 중간 레이어들은 전체를 사용하지 않고, 몇개의 Bucket 으로 나눈 다움, TASK 별로 validataion 에서 가장 성능이 좋은 Bucket 을 고르고 해당 Bucket 만 후보군으로 사용하였다고 함.

     

    2. Experiments & Results

    이 부분 부터는 http://dsba.korea.ac.kr/seminar/?mod=document&uid=2796
    고려대 DSBA 홍성희님?이  분이 너무 잘 정리 하셔서 링크로 갈음합니다.

     

     

     

    요약 : Hallucination 울 줄이기 위한 새로운 디코딩 방식을 제안

     

    어떻게? : 마지막 Layer 뿐만 아니라 중간 Layer hidden states 기반의 next word distribution 도 구해서 이를 디코딩 활 때 활용

     

Designed by Tistory.