Microsoft 코스모스-1, 인간 수준의 AI로 가는 길을 열다

이번 주 초에 연구진은 Microsoft 콘텐츠에 대한 이미지 분석, 시각적 퍼즐 풀기, 시각적 텍스트 인식 수행, 시각적 IQ 테스트 수행, 자연어 지시 이해 등이 가능한 다중 모드 인공 지능 모델인 Kosmos-1을 발표했습니다. 연구원들에 따르면 이러한 AI 모델은 인간 수준의 공동 작업을 수행할 수 있는 인공 일반 지능(AI)을 만들기 위한 첫 번째 단계입니다. 즉, 이 기술은 모든 지적 작업에서 사람을 대체할 수 있습니다. 그리고 이것이 핵심 비즈니스 파트너인 OpenAI가 밝힌 목표입니다. Microsoft 인공지능 분야에서.

이 경우 Kosmos-1은 회사의 순전히 개인적인 개발입니다. Microsoft. 연구원들은 이 모델의 뿌리가 ChatGPT와 같은 LLM과 같은 텍스트 전용 자연어 처리에 뿌리를 두고 있기 때문에 이 모델을 "다중 모드 확장 언어 모델"(MLLM)이라고 부릅니다. 모델이 입력 이미지를 수용하려면 먼저 이미지를 LLM이 이해할 수 있는 특수한 일련의 토큰(주로 텍스트)으로 변환해야 합니다.

Kosmos-1은 The Pile(800GB 영어 텍스트 리소스) 및 Common Crawl에서 추출한 내용을 포함하여 인터넷의 데이터베이스에서 교육을 받았습니다. 그런 다음 음성 이해, 음성 생성, 광학 문자 인식을 사용하지 않는 텍스트 분류, 이미지 캡션, 시각적 질문 응답, 웹 페이지 질문 응답 및 현지화를 통한 이미지 분류에 대한 여러 테스트를 통해 모델을 테스트했습니다. 에 따르면 Microsoft, Kosmos-1은 이러한 많은 테스트에서 현재 모델보다 성능이 뛰어났습니다.

특히 흥미로웠던 것은 레이븐의 진보적 추론 테스트였는데, 이 테스트는 일련의 모양을 제시하고 피험자에게 그 순서를 완성하도록 요청함으로써 시각적 IQ를 측정했습니다. Kosmos-1은 22%의 경우에 정답을 제시할 수 있었습니다.

향후 최적화를 통해 이러한 초기 단계는 AI 모델이 모든 형태의 미디어를 인식하고 영향을 주어 인공 비서의 기능을 크게 확장할 수 있도록 훨씬 더 중요한 결과를 가져올 수 있습니다.

또한 읽기:

근원아르 테크니카

가입하기

0 코멘트

임베디드 리뷰

모든 댓글 보기

기타 기사

Microsoft 인간 수준의 AI로 가는 길을 여는 다중 모드 접근 방식 제시

최근 댓글