기업에서 원하는 백엔드 개발자의 시작은 오름캠프
#인공지능 

Anthropic, Claude 3.5 시리즈의 획기적인 업데이트 발표

Anthropic이 인공지능 모델 Claude의 새로운 업데이트를 발표했습니다.
이번 업데이트는 Claude 3.5 Sonnet의 성능 개선과 함께 혁신적인 컴퓨터 사용 기능을 비롯한 새로운 모델인 Claude 3.5 Haiku의 출시를 포함하고 있습니다.

2024-10-24 | 김정은

Anthropic, Claude 3.5 시리즈의 획기적인 업데이트

Anthropic이 인공지능 모델 Claude의 새로운 업데이트를 발표했습니다.
이번 업데이트는 Claude 3.5 Sonnet의 성능 개선과 함께 새로운 모델인 Claude 3.5 Haiku의 출시를 포함하고 있습니다.

 

업그레이드된 Claude 3.5 Sonnet의 주요 성과

업그레이드된 Claude 3.5 Sonnet은 특히 코딩 분야에서 괄목할만한 성과를 보여주고 있습니다.
SWE-bench Verified*에서 기존 33.4%에서 49.0%로 성능이 크게 향상되어, OpenAI의 GPT-4를 포함한 다른 공개 모델들을 앞서고 있습니다. 또한 에이전트 도구 사용을 평가하는 TAU-bench에서도 소매 도메인에서 69.2%, 항공 도메인에서 46.0%의 높은 성과를 기록했습니다.

 

SWE-bench Verified* : AI 모델의 소프트웨어 엔지니어링 능력을 평가하는 벤치마크

 

혁신적인 컴퓨터 사용 기능 도입

이번 업데이트의 가장 주목할 만한 특징은 ‘컴퓨터 사용’ 기능의 공개 베타 출시입니다.
이 기능을 통해 Claude는 실제 사람처럼 화면을 보고, 커서를 움직이며, 버튼을 클릭하고 텍스트를 입력할 수 있게 되었습니다.
OSWorld 평가에서 스크린샷 전용 범주 14.9%, 확장 작업에서 22.0%의 성과를 보여 다른 AI 시스템들을 크게 앞선 수치를 보였습니다.

 

 

Claude | Computer use for automating operations

With the upgraded Claude 3.5 Sonnet, we’re introducing a new capability in beta: computer use. Developers can now direct Claude to use computers the way people do-by looking at a screen, moving a cursor, clicking, and typing text. At this stage, it is still experimental-at times cumbersome and error-prone.

 

 

Claude 3.5 Sonnet은 공개 베타에서 컴퓨터 사용을 제공하는 최초의 프런티어 AI 모델입니다.
하지만 아직 실험 단계이며 때에 따라 번거롭거나 오류가 발생할 수 있습니다. 이를 위해 컴퓨터 사용 기능을 조기에 출시하고 피드백을 통해 시간을 두고 기능을 개선하는 것을 염두해두고 있습니다.
이처럼 아직은 완벽하지 않으며 실험 단계에서 발생하고 있는 해프닝도 존재하는 것으로 보입니다. 그 예시로, 공식 X에 아래와 같은 피드 내용을 게시하기도 하였습니다.

 

 

 

“데모를 녹화하는 동안에도 우리는 몇 가지 재밌는 순간을 마주쳤습니다.
그 중 하나는 클로드가 오랫동안 진행 중이던 화면 녹화를 실수로 중단하여 모든 영상이 손실된 것입니다.
나중에 클로드는 코딩 데모를 잠시 중단하고 옐로스톤 국립공원의 사진을 살펴보기 시작했습니다.”

 

Anthropic on X (formerly Twitter): “Even while recording these demos, we encountered some amusing moments. In one, Claude accidentally stopped a long-running screen recording, causing all footage to be lost.Later, Claude took a break from our coding demo and began to peruse photos of Yellowstone National Park. pic.twitter.com/r6Lrx6XPxZ / X”

Even while recording these demos, we encountered some amusing moments. In one, Claude accidentally stopped a long-running screen recording, causing all footage to be lost.Later, Claude took a break from our coding demo and began to peruse photos of Yellowstone National Park. pic.twitter.com/r6Lrx6XPxZ

 

 

Claude 3.5 Haiku: 효율성의 새로운 기준

새롭게 선보이는 Claude 3.5 Haiku는 이전 세대의 Haiku와 동일한 비용과 속도를 유지하면서도, 많은 평가 지표에서 이전 최고 모델인 Claude 3 Opus의 성능과 비견됩니다.
특히 SWE-bench Verified에서 40.6%의 점수를 기록하며, 뛰어난 코딩 능력을 입증했습니다.

 

Claude 3.5

Claude Computer Use 중 코딩

 

실제 적용 사례와 전망

Asana, Canva, DoorDash 등 주요 기업들은 이미 이러한 새로운 기능들을 활용하기 시작했습니다.
특히 GitLab은 DevSecOps 작업에서 최대 10%의 성능 향상을 경험했으며, Browser Company는 웹 기반 워크플로우 자동화에서 탁월한 성과를 보고했습니다.

이번 업데이트는 AI 기술의 새로운 장을 열었다고 평가받고 있으며, 특히 컴퓨터 사용 기능은 앞으로의 AI 발전 방향을 보여주는 중요한 이정표가 될 것으로 기대됩니다.

 

참고자료