NLP 1주차

Posted Sep 11, 2024 Updated Sep 11, 2024

By Lee Dongjin

2 min read

Large Language Model(LLM)

Meta.ai 에서 출시한 대규모 언어 모델
LLAMA 시리즈의 두 번째 버전
7억, 13억, 34억, 70억 매개변수 모델로 구성되어 있으며, 70억 매개변수 모델이 가장 크다.
오픈 웨이트 모델로, 모델의 가중치, 아키텍처 및 관련 논문이 공개되어 누구나 활용할 수 있다.
일반적으로 사용되는 언어 모델과는 달리 사용자가 직접 수정할 수 있다.
딥러닝 신경망이란?
현재의 딥러닝 기술로 배우는 스타일런스, ChatGPT, CLOD 등은 이전의 제품과 비교해서 오차율이 굉장이 떨어진다.
그래서 현재의 기술에 맞게 훈련시키려면 전보다 많은 비용이 소요되며, 많은 데이터와 큰 규모의 연산 클러스터가 필요해진다.
그러나 한 번 상세하게 훈련을 마치면, 이미 얻어낸 파라미터를 기반으로 실제로 단어를 예측하기 위해 동작시켜도 컴퓨터 비용이 크게 들지 않는다.
‘압축’과 ‘예측’에 관한 뉴럴 네트워크
단어의 시퀀스를 입력하고, 뉴럴 네트워크가 학습하면 어떤 관계들이 파악된다.
네트워크 내에는 수많은 뉴런들이 있고, 서로 연결되어 작동한다.
예측과 압축은 수학적으로 매우 밀접한 관련이 있다.
다음 단어를 정확히 예측함으로써 데이터셋을 압축하는 방식으로 학습될 수 있다.

This post is licensed under CC BY 4.0 by the author.