▶ ‘에이전트 팀’ 기능 도입…벤치마크서도 챗GPT·제미나이 능가

엔스로픽 로고[로이터]
인공지능(AI)발 소프트웨어(SW) 위기론'의 진원지인 앤트로픽이 더 강력한 AI 모델을 선보였다.
앤트로픽은 자사의 AI 챗봇 '클로드'의 최상위 모델 '오퍼스 4.6'을 출시한다고 5일(현지시간) 밝혔다.
지난해 11월 말에 이전 판인 '오퍼스 4.5'를 선보인 지 불과 2개월여 만에 새 버전을 내놓은 것이다.
오퍼스 4.6에서 가장 주목되는 기능은 '에이전트 팀'의 도입이다. AI 에이전트를 하나가 아니라 여럿 부릴 수 있는 기능이다.
앤트로픽의 제품 총괄인 스콧 화이트는 미 정보기술(IT) 전문매체 테크크런치에 "한 에이전트가 작업을 차례로 처리하도록 하는 대신 여러 에이전트에 작업을 나눠 줄 수 있다"며 이를 통해 에이전트들이 "협업하고 작업을 더 빨리할 수 있다"고 설명했다.
이 기능이 최근 클로드가 선보여 SW 관련 기업의 주가를 폭락시켰던 '클로드 코워크'와 결합하면 파급력이 배가될 것으로 추정된다.
복잡다단한 작업에 사용됐던 SW의 기능까지 여러 AI 에이전트가 대체할 수도 있기 때문이다.
화이트 총괄은 "개발자가 아닌 사람들도 단지 작업 수행 능력을 보고 클로드 코드를 많이 이용한다는 점을 확인했다"면서 자사 AI 모델 이용자들이 제품관리자, 금융분석가 등 다양한 영역에 퍼져 있다고 설명했다.
실제로 앤트로픽이 공개한 벤치마크 점수를 보면 오퍼스 4.6은 코딩뿐 아니라 지식 노동 분야에서 경쟁사들을 압도하는 성능을 보였다.
사무업무 능력을 평가하는 'GDPval-AA' 지표에서 1천606점을 기록해 오픈AI의 GPT-5.2(1천462점)와 구글 제미나이3 프로(1천195점)를 넘어섰다.
오픈AI가 지난해 공개한, 정보 검색 능력을 측정하는 벤치마크 '브라우즈컴프'(BrowseComp)에서도 오퍼스 4.6은 84%의 성과를 보여 GPT-5.2(77.9%)·제미나이3 프로(59.2%)를 능가했다.
코딩 능력을 측정하는 'SWE-벤치 베리파이드' 점수는 80.8%로 이전 버전의 80.9%보다 미세하게 떨어졌지만, 여전히 GPT-5.2나 제미나이3 프로보다는 높았다.
분야별 전문가급 문제들을 모아 '인류의 마지막 시험'으로 불리는 HLE 점수도 현존 AI 모델 중 처음으로 도구 미사용 기준 점수 40%를 달성했다.
한 번에 입력할 수 있는 데이터양을 100만 토큰(AI 모델의 입출력 단위)으로 늘려, 책 수십 권 분량의 데이터를 입력받아 처리할 수 있도록 했다.
또 마이크로소프트(MS)의 엑셀과 파워포인트에 클로드를 통합해 AI가 데이터 분석부터 프레젠테이션 생성까지 처리하는 기능도 추가됐다.
오퍼스 4.6은 이날부터 사용할 수 있다. 개발자들이 사용하는 API 가격도 이번 버전과 마찬가지로 100만 토큰당 5∼25달러로 유지됐다.
<연합뉴스>
댓글 안에 당신의 성숙함도 담아 주세요.
'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.
자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.
불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.
Close
x