MIT 과학자들은 기계 학습의 미스터리를 풀었습니다. Root-Nation.com

2010년 이후 소프트웨어 알고리즘의 상당한 개선이 시작되었고 이것은 강력한 컴퓨터와 함께 신경망의 급속한 발전에 박차를 가했습니다. 소프트웨어 모델은 나중에 자체 작업을 형성하기 위해 수천 개의 예제에 대해 훈련되고 훈련됩니다. 오늘날 가장 유명한 신경망은 이것입니다. 오픈AI GPT-3. 이것은 많은 인터넷 데이터의 도움을 받아 학습하는 기계 학습 모델로, 작은 텍스트 조각을 취하고 부족한 조각을 상당히 높은 수준에서 추가할 수 있습니다. 그리고 이것은 내러티브 텍스트뿐만 아니라 시와 소프트웨어 코드 라인에도 적용됩니다.

그러나 이것이 이 계획의 모델이 할 수 있는 전부는 아닙니다. 연구원들은 대규모 언어 모델이 작업에 대해 교육을 받지 않았음에도 불구하고 몇 가지 예만 보고 작업을 수행하는 방법을 배우는 "상황 학습"으로 알려진 흥미로운 현상을 연구하고 있습니다.

Massachusetts Institute of Technology, Google Research 및 Stanford University의 과학자들은 이 수수께끼를 풀기 위해 노력하고 있습니다. 상황별 학습을 사용하면 모델 매개변수가 업데이트되지 않으므로 모델이 전혀 학습하지 않고 새 작업을 학습하는 것처럼 보입니다.

연구원들의 이론적인 결과는 신경망의 이러한 대규모 모델이 내부에 숨겨진 더 작고 간단한 선형 모델을 포함할 수 있음을 보여줍니다. 그런 다음 대형 모델은 간단한 알고리즘을 구현하여 대형 모델에 이미 포함된 정보만 사용하여 이 소형 선형 모델이 새로운 작업을 수행하도록 훈련할 수 있습니다.

상황 학습에 대한 더 깊은 이해 덕분에 과학자들은 비용이 많이 드는 재교육 없이 모델로 새로운 작업을 구현할 수 있습니다. 즉, 먼저 특정 작업에 대해 교육을 수행할 기반이 되는 많은 데이터를 수집해야 합니다. 따라서 훈련이 이루어지는 덕분에 몇 가지 예만으로 신경망을 제공할 수 있습니다.

"상황적 학습은 이해할 필요가 있는 비합리적으로 효과적인 학습 현상입니다.".

새로운 작업을 수행하도록 이전 모델을 가르칠 수 있는 신경망 모델에는 더 작은 기계 학습 모델이 있다는 가설이 제기되었습니다. 그들의 이론을 테스트하기 위해 과학자들은 아키텍처가 GPT-3와 매우 유사하지만 컨텍스트 학습을 위해 특별히 구축된 신경망 모델을 사용했습니다. 즉, 이전 계층 내부에서 간단한 학습 알고리즘을 구현하는 선형 모델 학습에 참여하는 모델이 구현되었습니다.

"이러한 결과는 모델이 더 복잡한 작업을 학습할 수 있는 방법을 이해하는 디딤돌이며 연구원이 언어 모델을 훈련하여 성능을 더욱 향상시키는 보다 효과적인 방법을 개발하는 데 도움이 될 것입니다.".

또한 읽기:

근원csail.mit.edu

가입하기

0 코멘트

임베디드 리뷰

모든 댓글 보기

기타 기사

매사추세츠 공과 대학의 과학자들이 기계 학습의 수수께끼를 풀었습니다.

최근 댓글