이 AI 연구에서는 구성 작업에 대한 경험적, 이론적으로 Transformer Large Language Models(LLM)의 한계와 기능을 자세히 살펴봅니다.

ChatGPT는 인기가 높으며 매일 수백만 명의 사람들이 이를 사용하고 있습니다. 질문 답변, 독특하고 창의적인 콘텐츠 생성, 대규모 텍스트 데이터 요약, 코드 완성, 매우 유용한 가상 비서 개발 등 인간을 모방하는 놀라운 기능을 통해 ChatGPT는 우리의 삶을 더욱 편리하게 만들어줍니다. OpenAI에서 개발한 ChatGPT는 GPT 3.5(Generative Pre-Trained Transformer) 및 GPT 4의 변환기 아키텍처를 기반으로 합니다. OpenAI가 출시한 최신 버전의 언어 모델인 GPT 4는 본질적으로 다중 모드입니다. 즉, 이전 버전과 달리 텍스트와 이미지 형식의 입력을 받습니다. PaLM, LLaMA, BERT와 같은 다른 LLM(대형 언어 모델)도 의료, 전자 상거래, 금융, 교육 등과 관련된 다양한 도메인의 애플리케이션에 사용되고 있습니다.

연구원 팀은 최근 발표된 연구 논문에서 복잡한 작업에 대한 GPT와 같은 LLM의 인상적인 성능과 간단한 작업에 대한 어려움 사이의 차이점을 강조했습니다. 팀은 Transformer LLM의 한계와 기능을 자세히 살펴보며 세 가지 대표적인 구성 작업, 즉 여러 자리 곱셈, 논리 그리드 퍼즐 및 고전적인 동적 프로그래밍 문제에 대한 실험을 수행했습니다. 이러한 작업에는 문제를 더 작은 단계로 나누고 이러한 단계를 결합하여 정확한 솔루션을 생성하는 작업이 포함됩니다.

다단계 추론이 필요한 구성 작업을 해결하는 데 있어 Transformer의 한계를 연구하기 위해 저자는 두 가지 가설을 제안했습니다. 첫 번째는 Transformers가 다단계 추론을 경로 일치로 선형화하여 작업을 수행하므로 적절한 솔루션을 개발하는 데 필요한 기본 계산 규칙을 실제로 이해하고 구현하는 대신 패턴 일치 및 지름길 학습에 의존한다는 것입니다. 이 접근 방식을 사용하면 훈련 중에 유사한 패턴으로 빠르고 정확한 예측이 가능하지만 흔하지 않은 복잡한 예를 일반화하는 데는 실패합니다. 두 번째 가설은 Transformer가 고유한 패턴을 갖는 복잡도가 높은 구성 작업을 해결하려고 시도하는 동안 고유한 한계를 가질 수 있다는 것입니다. 초기 계산 오류가 확산되어 이후 단계에서 심각한 복합 오류가 발생하여 모델이 올바른 솔루션에 도달하지 못할 수 있습니다.

저자는 두 가지 가설을 조사하기 위해 구성 작업을 계산 그래프로 공식화했습니다. 이러한 그래프는 문제 해결 프로세스를 더 작고 관리하기 쉬운 하위 모듈 기능 단계로 분해하여 문제 복잡성에 대한 구조화된 측정과 언어 모델에 대한 입력 시퀀스로 컴퓨팅 단계의 언어화를 가능하게 합니다. 심지어 정보 획득을 사용하여 그래프 내에서 전체 계산을 실행하지 않고 기본 작업 분포를 기반으로 모델이 학습할 패턴에 대해 예측합니다.

경험적 결과를 바탕으로 저자는 Transformers가 다단계 추론을 선형화된 하위 그래프 일치로 줄여 구성 문제를 처리할 것을 제안했습니다. 그들은 추상적인 다단계 추론 문제를 바탕으로 이론적 주장을 제시했는데, 이는 작업 복잡성이 증가함에 따라 Transformers의 성능이 급격히 저하된다는 점을 강조합니다. 이는 모델이 매우 복잡한 구성 문제를 처리하는 능력이 이미 제한되어 있을 수 있음을 보여줍니다.

결론적으로, 경험적, 이론적 결과는 기본 사고 프로세스에 대한 철저한 이해보다는 Transformers의 성능이 대부분 패턴 일치 및 하위 그래프 일치에 의해 주도된다는 것을 암시하며, 이는 또한 Transformers가 점점 더 어려워지는 작업을 수행하기 어렵다는 아이디어를 뒷받침합니다. .

확인해 보세요종이.잊지 말고 꼭 가입하세요22,000개가 넘는 ML SubReddit,디스코드 채널, 그리고이메일 뉴스레터 에서는 최신 AI 연구 뉴스, 멋진 AI 프로젝트 등을 공유합니다. 위 기사와 관련하여 질문이 있거나 누락된 내용이 있는 경우 언제든지 이메일을 보내주세요.