No. 54

Anthropic $965B 밸류에이션 · Claude Opus 4.8 · OpenAI 프런티어 거버넌스 공개

Anthropic이 $965B 밸류에이션을 찍고 Claude Opus 4.8을 출시했으며, OpenAI와 Google은 에이전트 거버넌스와 운영 도구를 확장했습니다.

오늘의 핵심

오늘 AI 업계의 핵심은 프런티어 모델 경쟁이 다시 숫자와 운영 체계 양쪽에서 동시에 커졌다는 점입니다. Anthropic은 $65B Series H로 $965B post-money 밸류에이션을 공식화했고, Claude Opus 4.8을 내놓았습니다. OpenAI는 프런티어 거버넌스 문서를 공개했고, Google·Runway·IBM·NVIDIA는 에이전트를 실제 운영 환경에 붙이는 도구와 평가 체계를 강화했습니다.


Anthropic, $65B Series H로 $965B 밸류에이션 공식화

Anthropic이 Series H에서 $65B를 조달하며 post-money 기준 $965B 밸류에이션을 발표했습니다. Altimeter Capital, Dragoneer, Greenoaks, Sequoia Capital 등이 라운드를 이끌었고, 회사는 Claude 수요와 연구·제품 확장을 자금 사용처로 제시했습니다.

  • 라운드 규모: $65B Series H
  • 기업가치: post-money $965B
  • 핵심 의미: Anthropic이 OpenAI와 동급 또는 그 이상의 프런티어 AI 기업가치 구간에 진입
📢 프런티어 모델 경쟁은 이제 모델 성능보다 자본 조달력, 클라우드 용량, 엔터프라이즈 매출 속도가 더 크게 보이는 국면에 들어섰습니다.

출처: Anthropic raises $65B in Series H funding at $965B post-money valuation — Anthropic


Claude Opus 4.8 출시 — 코딩·브라우저 에이전트 성능 강화

Anthropic은 최상위 모델 Claude Opus 4.8도 함께 공개했습니다. Anthropic은 Opus 4.8을 자사의 가장 강력한 GA 모델로 소개하며, 컴퓨터 사용·브라우저 에이전트·장기 작업·코드베이스 규모 마이그레이션에서 개선이 있었다고 설명했습니다.

  • 가용 채널: Claude Platform, claude.ai, AWS, Google Cloud, Microsoft Foundry
  • 컨텍스트: Claude API, Bedrock, Vertex AI에서 기본 1M 토큰 컨텍스트 지원
  • 주요 포지션: Claude Code의 대규모 코드 변경과 장시간 자율 작업에 초점
📢 Opus 4.8은 “더 똑똑한 챗봇”보다 “오래 실행되는 업무 에이전트”에 가깝습니다. 모델 발표의 평가 기준이 대화 품질에서 작업 지속성과 실패 복구로 이동하고 있습니다.

출처: Introducing Claude Opus 4.8 — Anthropic, What’s new in Claude Opus 4.8 — Anthropic Docs


OpenAI, Frontier Governance Framework 공개

OpenAI가 프런티어 모델 안전·보안 체계를 법·규제 요구와 연결한 Frontier Governance Framework를 공개했습니다. 문서는 California Transparency in Frontier AI Act, EU AI Act의 GPAI Code of Practice 등과 정합성을 설명하며, 사이버 공격, CBRN, 유해 조작, 통제 상실 같은 고위험 영역의 평가·완화·보고 절차를 다룹니다.

  • 핵심 목적: Preparedness Framework를 공공 거버넌스 문서로 확장
  • 범위: 위험 평가, 모델 보고, 보안 리스크 관리, 사고 대응, 외부 전문가 입력
  • 맥락: 고성능 모델 출시 경쟁과 동시에 규제 대응 문서화 경쟁이 본격화
📢 프런티어 모델 기업의 경쟁력은 이제 성능표뿐 아니라 “규제기관에 설명 가능한 운영 체계”에서도 갈립니다.

출처: OpenAI’s Frontier Governance Framework — OpenAI


OpenAI, Codex 기반 ‘자기 개선 세무 에이전트’ 사례 공개

OpenAI와 Thrive Holdings는 Codex를 활용해 세무 업무 에이전트 Tax AI를 개선한 사례를 공개했습니다. Crete 산하 30개 이상 회계법인의 실무 피드백, 프로덕션 트레이스, 맞춤 평가를 Codex 개선 루프로 연결해 7,000건의 세무 신고를 처리했고, 일부 실무자는 전년 180시간 걸리던 세무 준비를 15시간으로 줄였다고 설명했습니다.

  • 처리 규모: 파일럿 시즌 7,000건 세무 신고
  • 효율 효과: 세무 준비 시간 약 3분의 1 절감, 처리량 약 50% 증가
  • 개선 방식: 실무자 수정 → 프로덕션 트레이스 → 평가 세트 → Codex 기반 제품 수정 루프
📢 에이전트의 다음 단계는 “스스로 코드를 고친다”가 아니라 “업무 현장의 수정 데이터를 평가 가능한 개선 과제로 바꾼다”입니다.

출처: Building self-improving tax agents with Codex — OpenAI


Google I/O 2026 후속 정리 — Gemini Omni, 3.5 Flash, Search Agents

Google은 I/O 2026 주요 발표 12개를 정리하며 Gemini Omni Flash, Gemini 3.5 Flash, Search 정보 에이전트, Antigravity 기반 생성 UI, Gemini Spark 등을 다시 전면에 배치했습니다. 특히 Gemini 3.5 Flash는 에이전트와 코딩을 위한 프런티어 성능 모델로 소개됐고, Search에는 사용자가 “keep me updated”를 붙이면 정보 에이전트를 만들 수 있는 흐름이 예고됐습니다.

  • Gemini Omni Flash: 영상 중심 멀티모달 생성 모델, Gemini 앱과 Flow에 배포
  • Gemini 3.5 Flash: 에이전트·코딩·장기 작업용 모델로 GA
  • Search Agents: 웹·뉴스·소셜·실시간 데이터를 배경에서 추적하는 정보 에이전트
📢 Google의 메시지는 명확합니다. 검색창은 답변창에서 개인화된 에이전트 관리면으로 바뀌고 있습니다.

출처: Catch up on 12 major I/O 2026 moments — Google Blog


Google, Chrome Enterprise용 오픈소스 MCP 서버 공개

Google은 Chrome Enterprise API를 AI 에이전트가 호출할 수 있게 하는 오픈소스 MCP 서버를 공개했습니다. IT·보안팀은 Gemini CLI나 MCP 호환 클라이언트에서 자연어로 DLP 이벤트 검토, 보안 상태 점검, 정책 최적화 같은 작업을 요청할 수 있습니다.

  • 대상 업무: 브라우저 보안 설정, DLP 규칙, 활동 로그, 조직 단위 구성 점검
  • 사용 방식: Gemini CLI 또는 MCP 호환 클라이언트에서 Chrome Enterprise API를 도구로 호출
  • 운영 원칙: 에이전트가 제안하고 관리자가 검토·적용하는 보조 흐름
📢 MCP는 개발자 도구를 넘어 엔터프라이즈 관리 콘솔의 자동화 표준으로 확장되고 있습니다.

출처: Bringing AI agents to Chrome Enterprise security management — Google Blog


Runway MCP 출시 — 영상·이미지 생성이 Claude·ChatGPT·Cursor 안으로

Runway가 MCP 서버를 공개해 Claude, ChatGPT, Cursor 등 MCP 호환 에이전트에서 이미지와 영상을 바로 생성할 수 있게 했습니다. 사용자는 제품 URL, 참조 이미지, 텍스트 프롬프트를 대화창에 넘기고 Runway의 Gen-4.5, Seedance 2.0, GPT Image 2, Kling 3.0, Nano Banana Pro 등을 호출할 수 있습니다.

  • 핵심 변화: 생성형 미디어 툴이 별도 웹앱에서 에이전트 워크플로 안으로 이동
  • 지원 모델: Gen-4.5, Seedance 2.0, GPT Image 2, Kling 3.0, Nano Banana Pro 등
  • 인증 방식: 별도 API 키 없이 Runway 계정 플랜에 연결
📢 크리에이티브 제작 도구도 “앱을 열어 작업”하는 방식에서 “에이전트가 필요한 자산을 호출”하는 방식으로 재편되고 있습니다.

출처: Introducing Runway MCP — Runway


Microsoft MAI-Image-2.5, Arena 텍스트-이미지 3위로 데뷔

Microsoft AI가 자체 이미지 생성 모델 MAI-Image-2.5를 공개했습니다. 회사는 이 모델이 Arena 텍스트-이미지 리더보드 3위에 올랐고, 이전 모델 대비 텍스트 렌더링, 상업 이미지, 스타일 일러스트, 시각적 추론에서 개선됐다고 설명했습니다.

  • 순위: Arena 텍스트-이미지 리더보드 3위
  • 강점: 텍스트 렌더링, 제품·브랜드 이미지, 장면 구조와 공간 관계 이해
  • 출시 계획: Arena에서 사용 가능, MAI Playground와 Foundry에 2주 내 제공 예정
📢 Microsoft가 OpenAI 의존만으로는 이미지 생성 시장을 장악할 수 없다고 보고 자체 모델 포트폴리오를 빠르게 키우는 흐름입니다.

출처: MAI-Image-2.5 launches at No. 3 on Arena — Microsoft AI


IBM·Artificial Analysis, ITBench-AA 공개 — 프런티어 모델도 SRE 과제 50% 미만

IBM Research와 Artificial Analysis가 엔터프라이즈 IT 에이전트 평가 벤치마크 ITBench-AA를 공개했습니다. 첫 과제군은 Kubernetes 인시던트 대응이며, 모델은 로그·트레이스·메트릭·토폴로지를 읽고 원인 엔터티를 찾아야 합니다. 공개 설명에 따르면 프런티어 모델들도 SRE 태스크에서 50%를 넘기지 못했습니다.

  • 평가 대상: Kubernetes 기반 Site Reliability Engineering 인시던트 대응
  • 의의: 단순 질의응답이 아니라 실제 운영 데이터와 시스템 상태를 해석하는 평가
  • 신호: 에이전트 마케팅과 엔터프라이즈 운영 신뢰성 사이의 격차가 여전히 큼
📢 기업용 에이전트의 병목은 “모델이 똑똑한가”보다 “현실의 지저분한 운영 상태를 안정적으로 다룰 수 있는가”입니다.

출처: ITBench-AA: Frontier Models Score Below 50% — IBM Research / Hugging Face, ITBench-AA Benchmark Leaderboard — Artificial Analysis


NVIDIA Polar — Codex·Claude Code 같은 기존 하네스에서 에이전트 RL 훈련

NVIDIA 연구진은 Polar 논문을 통해 기존 코딩 에이전트 하네스를 그대로 두고 API 프록시 계층에서 토큰 단위 상호작용을 기록하는 RL 롤아웃 프레임워크를 제안했습니다. Polar는 Codex, Claude Code, Qwen Code, Pi 같은 하네스를 블랙박스로 취급하며, Qwen3.5-4B를 GRPO로 훈련했을 때 Codex 하네스의 SWE-Bench Verified 성능이 22.6포인트 개선됐다고 보고했습니다.

  • 핵심 아이디어: 에이전트 하네스 수정 없이 모델 API 경계에서 토큰 충실도 높은 궤적 수집
  • 검증 결과: Codex 하네스 +22.6점, Claude Code +4.8점, Pi +6.2점
  • 활용처: 온라인 RL과 오프라인 SFT 데이터 생성 모두 지원
📢 에이전트 훈련의 병목은 모델보다 하네스와 로그 수집 구조입니다. Polar는 이 병목을 API 프록시로 우회하는 실용적 접근입니다.

출처: Polar: Agentic RL on Any Harness at Scale — arXiv, ProRL-Agent-Server — GitHub


Perplexity, Unigram 토크나이저 CPU 성능 개선 공개

Perplexity Research가 XLM-RoBERTa 계열 250K Unigram vocabulary를 대상으로 토크나이저 CPU 성능을 개선한 내용을 공개했습니다. 생산 입력 길이 기준 새 인코더는 Hugging Face tokenizers crate 대비 p50 지연시간을 약 5배 줄이고, steady-state heap allocation을 제거했다고 설명했습니다.

  • 개선 폭: Hugging Face tokenizers 대비 p50 약 5배, SentencePiece C++ 대비 약 2배
  • 대상: XLM-RoBERTa 250K Unigram vocabulary
  • 의미: 작은 모델·랭킹·검색 워크로드에서 GPU 이전 CPU 병목을 줄이는 최적화
📢 AI 서빙 최적화는 GPU 커널만의 문제가 아닙니다. 토크나이저 같은 주변 경로의 지연시간이 실제 제품 체감 속도를 크게 좌우합니다.

출처: Improving Unigram Tokenizer CPU Performance — Perplexity Research


Decepticon, 자율 레드팀 에이전트로 GeekNews에서 주목

GeekNews에서는 Purple AI Lab의 Decepticon이 가장 큰 현장형 신호 중 하나였습니다. Decepticon은 nmap 실행 후 보고서만 쓰는 데모형 도구와 달리 정찰, 익스플로잇, 권한 상승, 횡적 이동, C2까지 현실적 공격 체인을 수행하는 자율 레드팀 에이전트를 표방합니다.

  • 구성: 16개 전문 에이전트, LangGraph 기반 오케스트레이션, Kali 샌드박스
  • 안전 장치: RoE, ConOps, Deconfliction Plan, OPPLAN 생성 후 행동
  • 공개 지표: GitHub 기준 4.1k stars, 최신 릴리스 v1.1.3
📢 자율 보안 에이전트는 방어 자동화와 공격 자동화의 경계가 가장 뚜렷하게 충돌하는 영역입니다. 앞으로 제품화보다 권한·감사·격리 설계가 더 중요해집니다.

출처: Decepticon — Autonomous Red Team Agent — GitHub


오늘의 도구 추천

Runway MCP — Claude, ChatGPT, Cursor 같은 MCP 호환 환경에서 이미지·영상 생성 모델을 바로 호출할 수 있는 커넥터입니다. 마케팅 페이지, 제품 이미지, 데모 영상, 웹사이트용 시각 자산을 에이전트 작업 흐름 안에서 바로 만들 수 있어 오늘 가장 실무 적용성이 높은 도구입니다.


에디터 노트

오늘 뉴스는 “에이전트가 실제 업무 시스템으로 들어가는 과정”을 여러 방향에서 보여줍니다. Anthropic은 자본과 모델로, OpenAI는 거버넌스와 Codex 업무 루프로, Google과 Runway는 MCP와 제품 표면으로, IBM은 벤치마크로 같은 문제를 다루고 있습니다.

중요한 변화는 모델이 하나씩 더 똑똑해지는 속도보다, 모델을 업무 환경에 묶는 주변 장치가 빠르게 표준화되고 있다는 점입니다. MCP, 평가 벤치마크, 프로덕션 트레이스, 보안 거버넌스가 모두 같은 방향을 가리킵니다. “좋은 모델을 고르는 일”보다 “모델이 실패해도 업무가 망가지지 않는 운영 체계를 만드는 일”이 더 큰 경쟁력이 되고 있습니다.

다음에 또 찾아옵니다. — 에이브랜치