ML&NLP
-
2024 DoLa NLP SeminarML&NLP 2024. 8. 30. 19:52
DoLa: Decoding by Contrasting Lyaers Improves Factuality in Large Langauge Models. ICLR. 2024 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models. ICLR 2024 요약 : Hallucination 울 줄이기 위한 새로운 디코딩 방식을 제안어떻게? : 마지막 Layer 뿐만 아니라 중간 Layer hidden states 기반의 next word distribution 도 구해서 이를 디코딩 활 때 활용 0. BackgroundContrastive Decoding Contrastive Decoding: Open-ended Text Gen..
-
Chameleon : 메타의 새로운 Multimodal LLMML&NLP 2024. 6. 12. 22:13
원본 자료/LinksPaperChameleon: Mixed-Modal Early-Fusion Foundation ModelsRepositoryhttps://github.com/facebookresearch/chameleon?tab=readme-ov-fileBlogshttps://medium.com/@saadsalmanakram/chameleon-metas-new-pioneering-multi-modal-ai-model-8b3bbed71585https://openpage.store/blog/2024/05/24/ai-info-meta-llm-chameleon/ Chamelon이 잘하는 것" We present Chameleon, a family of mixed-modal foundation models ca..
-
UniS-MMC: Multimodal Classification via Unimodality-supervisedMultimodal Contrastive Learning 논문 리뷰ML&NLP 2024. 6. 5. 21:26
Zou et al., UniS-MMC: Multimodal Classification via Unimodality-supervised Multimodal Contrastive Learning. ACL Findings. 2023 Introduction 배경멀티모달 Representation, 구체적으로는 멀티모달 Classification 문제를 푸는 방법에 대한 논문이고 실험은 텍스트 + 이미지 멀티모달 대해서 진행되었습니다. 멀티모달 문제를 푸는 가장 대표적인 방식은, Uni-Modal 의 Large Pretrained Model 등을 활용하여 각 Uni-Modal Representation을 잘 조합하고 학습하는 것입니다. 이 방법에는 각 Modality의 Feature를 Fusion 하는 agg..
-
E5 Text Embedding 시리즈 논문 및 구현 설명ML&NLP 2024. 3. 6. 23:21
범용 Text Embeeding 을 평가하기 위한 MTEB 리더보드 ( https://huggingface.co/spaces/mteb/leaderboard ) 상에서 최근 최상위권을 기록한 Microsoft 의 E5 Text Embeeding 시리즌 논문 리뷰입니다. 크게 다음 3가지 종류의 모델이고, Model Name Backbone Pre-Trianing Dataset Fine-tuning Dataset Training Method e5 BERT-style Encoder ( < 1B) 자체 구축 기존 Text Pair Labeled Dataset 들 활용 2-Stage Training e5-instruct + LLM (GPT3.5-Turbo&4) 을 사용해 자체 생성한 Text Pair 데이터셋 e..
-
[MoCo] Momentum Contrast for Unsupervised Visual Representation LearningML&NLP 2023. 11. 15. 18:28
Paper : Momentum Contrast for Unsupervised Visual Representation Learning. CVPR. 2020 Code : https://github.com/facebookresearch/moco 요약 Unsupervised Contrastive Learning 할 때, Large Negative Sample 이 성능에 중요하다. MoCo는 queue를 활용해 비약적으로 많은 Negative Sample을 효과적으로 사용할 수 있게 한 기법 읽게 된 배경 Multimodal 관련 representation learning 볼 때, MoCo 얘기가 많이 나왔고 또 인용이 엄청 많이 된 Paper라 읽어 보게 됨. Due to the use of a frozen i..
-
Vision-Language Pretrained Model 리뷰 - BLIP, BLIP2ML&NLP 2023. 8. 31. 22:41
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation International Conference on Machine Learning. PMLR, 2022 https://arxiv.org/abs/2201.12086 https://huggingface.co/docs/transformers/main/model_doc/blip 1. Intorduction 기존 Vision-Language Pretraining 모델 들의 한계 모델 측면 : Encoder-based 모델은 image captioning 과 같은 텍스트 생성 Task 에서 덜 직관적이며, Encoder-decode..
-
PCGrad - Gradient Surgery for Multi-Task Learning 논문 설명 및 구현ML&NLP 2023. 7. 21. 20:15
Multi-Task Learning은 하나의 모델로 여러가지 Task를 동시에 학습 시키는 방식입니다. 전반적인 성능이 향상되기도 하고, 성능을 끌어 올리고자 하는 주요 Task 가 있을 때 보조 Task를 잘 설계/선택하여 Multi-Task Learning 방식으로 주요 Task의 성능을 향상시키기도 합니다. 그러나 Multi Task에 사용되는 각각의 Task 관점에서 보면 개별적으로 학습 되었을 때 보다 성능이 떨어지는 경우가 제법 발생합니다. 이에 이 원인을 상세히 분석하고 Multi Task Learning에서 성능을 안정적으로 향상시키고자 하는 방법들이 연구되어 왔습니다. 대표적인 기법중에 하나가 학습시 Task 간 Gradient를 조절하는 방식으로 접근하는 PCGrad 라는 기법입니다. ..