본문 바로가기
배움: MBA, English, 운동

클로드 ( Claude ) AI, 새로운 AI

by Heedong-Kim 2024. 3. 8.

차세대 Claude를 소개합니다
2024년 3월 4일
https://www.anthropic.com/news/claude-3-family


오늘 우리는 광범위한 인지 작업에 걸쳐 새로운 업계 벤치마크를 설정하는 Claude 3 모델 제품군을 발표합니다. 이 제품군에는 기능의 오름차순으로 Claude 3 Haiku, Claude 3 Sonnet 및 Claude 3 Opus의 세 가지 최첨단 모델이 포함되어 있습니다. 각 연속 모델은 점점 더 강력한 성능을 제공하므로 사용자는 특정 애플리케이션에 대한 지능, 속도 및 비용의 최적 균형을 선택할 수 있습니다.

Opus와 Sonnet은 이제 claude.ai와 현재 159개국에서 일반적으로 사용 가능한 Claude API에서 사용할 수 있습니다. 하이쿠도 곧 출시될 예정입니다.

지능의 새로운 표준
가장 지능적인 모델인 Opus는 학부 수준의 전문 지식(MMLU), 대학원 수준의 전문가 추론(GPQA), 기초 수학(GSM8K) 등을 포함하여 AI 시스템에 대한 대부분의 일반적인 평가 벤치마크에서 동종 제품보다 뛰어납니다. 복잡한 작업에 대해 거의 인간 수준의 이해력과 유창함을 보여 일반 지능의 최전선을 선도합니다.

 


모든 Claude 3 모델은 분석 및 예측, 미묘한 콘텐츠 생성, 코드 생성 및 스페인어, 일본어, 프랑스어와 같은 영어가 아닌 언어로의 대화에서 향상된 기능을 보여줍니다.

다음은 성능에 대한 여러 벤치마크[1]에서 Claude 3 모델을 동료 모델과 비교한 것입니다.

 

거의 즉각적인 결과
Claude 3 모델은 즉각적이고 실시간으로 응답해야 하는 실시간 고객 채팅, 자동 완성 및 데이터 추출 작업을 지원합니다.

Haiku는 인텔리전스 카테고리에 대해 시장에서 가장 빠르고 비용 효율적인 모델입니다. arXiv(최대 10,000개 토큰)에 대한 정보 및 데이터 밀도가 높은 연구 논문을 차트와 그래프로 3초 이내에 읽을 수 있습니다. 출시 후에는 성능이 더욱 향상될 것으로 예상됩니다.

대부분의 워크로드에서 Sonnet은 더 높은 수준의 지능으로 Claude 2 및 Claude 2.1보다 2배 빠릅니다. 지식 검색이나 영업 자동화 등 빠른 응답이 필요한 작업에 탁월합니다. Opus는 Claude 2 및 2.1과 비슷한 속도를 제공하지만 훨씬 더 높은 수준의 지능을 제공합니다.

강력한 비전 기능
Claude 3 모델은 다른 주요 모델과 동등한 수준의 정교한 시력 기능을 갖추고 있습니다. 사진, 차트, 그래프, 기술 다이어그램을 포함한 광범위한 시각적 형식을 처리할 수 있습니다. 우리는 특히 지식 기반의 최대 50%가 PDF, 순서도 또는 프레젠테이션 슬라이드와 같은 다양한 형식으로 인코딩된 기업 고객에게 이 새로운 형식을 제공하게 되어 기쁘게 생각합니다.

거절 횟수 감소
이전 Claude 모델은 상황에 따른 이해가 부족함을 시사하는 불필요한 거부를 하는 경우가 많았습니다. 우리는 이 분야에서 의미 있는 진전을 이루었습니다. Opus, Sonnet 및 Haiku는 이전 세대 모델보다 시스템의 경계선에 있는 프롬프트에 응답을 거부할 가능성이 훨씬 적습니다. 아래에 표시된 것처럼 Claude 3 모델은 요청에 대한 보다 미묘한 이해를 보여주고 실제 피해를 인식하며 무해한 프롬프트에 대한 응답을 훨씬 덜 자주 거부합니다.

정확도 향상
모든 규모의 기업은 고객에게 서비스를 제공하기 위해 당사 모델을 사용하므로 모델 출력이 대규모로 높은 정확도를 유지하는 것이 필수적입니다. 이를 평가하기 위해 우리는 현재 모델의 알려진 약점을 대상으로 하는 복잡하고 사실에 기반한 다양한 질문을 사용합니다. 우리는 응답을 정답, 오답(또는 환각), 불확실성 인정으로 분류합니다. 여기서 모델은 잘못된 정보를 제공하는 대신 답을 모른다고 말합니다. Claude 2.1과 비교하여 Opus는 이러한 까다로운 개방형 질문에 대한 정확도(또는 정답)가 두 배 향상된 동시에 오답 수준도 감소한 것으로 나타났습니다.

보다 신뢰할 수 있는 응답을 생성하는 것 외에도 곧 Claude 3 모델에서 인용을 활성화하여 참조 자료의 정확한 문장을 가리켜 답변을 확인할 수 있도록 할 것입니다.

긴 맥락과 거의 완벽한 기억력
Claude 3 모델 제품군은 출시 시 처음에 200K 컨텍스트 창을 제공합니다. 그러나 세 가지 모델 모두 100만 개를 초과하는 입력을 수용할 수 있으며 향상된 처리 능력이 필요한 일부 고객에게 이를 제공할 수 있습니다.

긴 컨텍스트 프롬프트를 효과적으로 처리하려면 모델에 강력한 회상 기능이 필요합니다. NIAH(Needle In A Haystack) 평가는 방대한 데이터 모음에서 정보를 정확하게 기억하는 모델의 능력을 측정합니다. 우리는 프롬프트당 30개의 무작위 바늘/질문 쌍 중 하나를 사용하고 다양한 크라우드소싱 문서 모음을 테스트하여 이 벤치마크의 견고성을 강화했습니다. Claude 3 Opus는 99%를 넘는 정확도로 거의 완벽한 재현율을 달성했을 뿐만 아니라, 어떤 경우에는 "바늘" 문장이 인간에 의해 원문에 인위적으로 삽입된 것처럼 보인다는 점을 인지하여 평가 자체의 한계까지 확인했습니다. .

 

 

Claude 3 Opus
매우 복잡한 작업에 대해 시장 최고의 성능을 제공하는 가장 지능적인 모델입니다. 놀라운 유창함과 인간과 같은 이해력으로 개방형 프롬프트와 눈에 보이지 않는 시나리오를 탐색할 수 있습니다. Opus는 생성 AI로 가능한 것의 외부 한계를 보여줍니다.

비용: [$/백만 토큰 입력 | $/백만 토큰 출력] $15 | $75
컨텍스트 창 200K*
잠재적인 용도
   작업 자동화: API 및 데이터베이스 전반에 걸친 복잡한 작업 계획 및 실행, 대화형 코딩
   R&D: 연구 검토, 브레인스토밍 및 가설 생성, 신약 발견
   전략: 차트 및 그래프, 재무 및 시장 동향, 예측에 대한 고급 분석
차별점 다른 어떤 모델보다 높은 지능

Claude 3 Sonnet
특히 엔터프라이즈 워크로드의 경우 지능과 속도 사이의 이상적인 균형을 유지합니다. 동종 제품에 비해 저렴한 비용으로 강력한 성능을 제공하며 대규모 AI 배포에서 높은 내구성을 제공하도록 설계되었습니다.

비용: [$/백만 토큰 입력 | $/백만 토큰 출력] $3 | $15
컨텍스트 창 200K
잠재적인 용도
    데이터 처리: 방대한 양의 지식에 대한 RAG 또는 검색 및 검색
   영업: 상품 추천, 예측, 타겟 마케팅
   시간 절약 작업: 코드 생성, 품질 관리, 이미지의 텍스트 구문 분석
차별화 요소 유사한 지능을 갖춘 다른 모델보다 가격이 저렴합니다. 규모에 더 좋습니다.

Claude 3 Haiku
거의 즉각적인 반응성을 제공하는 가장 빠르고 컴팩트한 모델입니다. 비교할 수 없는 속도로 간단한 쿼리와 요청에 응답합니다. 사용자는 인간의 상호 작용을 모방하는 원활한 AI 경험을 구축할 수 있습니다.

비용: [$/백만 토큰 입력 | $/백만 토큰 출력] $0.25 | $1.25
컨텍스트 창 200K
잠재적인 용도
   고객 상호 작용: 실시간 상호 작용, 번역에서 빠르고 정확한 지원
   콘텐츠 조정: 위험한 행동이나 고객 요청 포착
   비용 절감 업무: 물류 최적화, 재고 관리, 비정형 데이터에서 지식 추출
차별화 요소 인텔리전스 카테고리의 다른 모델보다 더 스마트하고 빠르며 저렴합니다.