NLP 1주차
Large Language Model(LLM)
LLAMA270B
- Meta.ai 에서 출시한 대규모 언어 모델
- LLAMA 시리즈의 두 번째 버전
- 7억, 13억, 34억, 70억 매개변수 모델로 구성되어 있으며, 70억 매개변수 모델이 가장 크다.
- 오픈 웨이트 모델로, 모델의 가중치, 아키텍처 및 관련 논문이 공개되어 누구나 활용할 수 있다.
- 일반적으로 사용되는 언어 모델과는 달리 사용자가 직접 수정할 수 있다.
딥러닝 신경망이란?
- 현재의 딥러닝 기술로 배우는 스타일런스, ChatGPT, CLOD 등은 이전의 제품과 비교해서 오차율이 굉장이 떨어진다.
- 그래서 현재의 기술에 맞게 훈련시키려면 전보다 많은 비용이 소요되며, 많은 데이터와 큰 규모의 연산 클러스터가 필요해진다.
- 그러나 한 번 상세하게 훈련을 마치면, 이미 얻어낸 파라미터를 기반으로 실제로 단어를 예측하기 위해 동작시켜도 컴퓨터 비용이 크게 들지 않는다.
‘압축’과 ‘예측’에 관한 뉴럴 네트워크
- 단어의 시퀀스를 입력하고, 뉴럴 네트워크가 학습하면 어떤 관계들이 파악된다.
- 네트워크 내에는 수많은 뉴런들이 있고, 서로 연결되어 작동한다.
- 예측과 압축은 수학적으로 매우 밀접한 관련이 있다.
- 다음 단어를 정확히 예측함으로써 데이터셋을 압축하는 방식으로 학습될 수 있다.
This post is licensed under CC BY 4.0 by the author.