GPT-Rosalind · AI 사이버 위협 · 에이전트 운영체계
AI가 과학 연구, 사이버 공격·방어, 엔터프라이즈 에이전트 운영 체계로 깊게 들어가고 있습니다.
오늘의 핵심
오늘의 흐름은 “전문 영역에 들어간 에이전트”입니다. 오픈AI는 생명과학 전용 GPT-Rosalind를 실험·분석 워크플로까지 확장했고, Anthropic은 1년 치 AI 악용 사이버 사례를 분석하며 에이전트형 공격의 위험을 구체화했습니다. 마이크로소프트와 구글 생태계는 에이전트를 배포하는 것만큼 관찰, 격리, 거버넌스, 보안 운영 체계를 갖추는 일이 핵심 경쟁력이 되고 있음을 보여줍니다.
오픈AI, GPT-Rosalind를 생명과학 연구 워크플로로 확장
오픈AI가 생명과학 전용 모델 GPT-Rosalind의 새 기능을 공개했습니다. GPT-5.5의 에이전트 코딩·도구 사용 능력을 기반으로 의약화학, 유전체학, 정량 생물학, 실험 설계·검증 작업에서 성능을 끌어올렸다고 설명했습니다.
- 전문 벤치마크: LifeSciBench는 근거 처리, 분석, 설계·최적화, 과학 추론, 검증·운영, 번역·커뮤니케이션 등 6개 연구 흐름을 평가합니다.
- 성능 수치: MedChemBench에서 GPT-Rosalind는 GPT-5.5 대비 27.5 % 대 25.1 %를 기록했고, GeneBench에서는 31 % 적은 토큰으로 더 높은 정확도를 보였다고 밝혔습니다.
- 접근 방식: GPT-Rosalind는 적격 기관을 대상으로 trusted-access 연구 프리뷰로 제공됩니다.
출처: Introducing new capabilities to GPT-Rosalind — OpenAI
오픈AI, Codex에 생명과학 NGS·리서치 플러그인 연결
GPT-Rosalind 업데이트와 함께 오픈AI는 Life Sciences Research와 Life Sciences NGS Analysis 플러그인을 Codex에서 사용할 수 있게 했습니다. 연구자가 외부 근거 검색, 내부 오믹스 분석, 생물학적 해석, 산출물 검토를 같은 작업 공간에서 이어가도록 설계한 흐름입니다.
- 실행 계층: 플러그인은 반복 가능한 과학 워크플로를 실행하고, 결과물과 provenance를 보존합니다.
- 네이티브 뷰어: 시퀀스, 정렬, 구조 파일을 직접 보는 인터랙티브 뷰어를 추가해 모델 추론과 과학 근거 검토를 연결했습니다.
- 기업 확장: Novo Nordisk 사례를 언급하며 복잡한 연구 데이터를 분석하고 가설 검증 속도를 높이는 용도를 제시했습니다.
출처: Introducing new capabilities to GPT-Rosalind — OpenAI
Anthropic, 832개 악성 계정 분석으로 AI 사이버 위협 지형 공개
Anthropic이 2025년 3월부터 2026년 3월까지 악성 사이버 활동으로 차단한 832개 계정을 분석해 MITRE ATT&CK 프레임워크에 매핑했습니다. 결론은 AI가 공격 준비뿐 아니라 침투 이후의 복잡한 단계까지 쓰이고 있다는 것입니다.
- 악성 사용 패턴: 분석 대상 832개 계정 중 560개, 즉 67.3 %가 악성코드 작성 같은 공격 준비에 AI를 사용했습니다.
- 위험 상승: 중간 위험 이상으로 분류된 행위자 비중은 첫 6개월 33 %에서 다음 6개월 56 %로 늘었습니다.
- 공격 단계 변화: AI 지원 피싱은 줄고, 계정 탐색·권한 상승·lateral movement처럼 침투 이후 단계에서 AI 사용이 늘었습니다.
출처: What we learned mapping a year’s worth of AI-enabled cyber threats — Anthropic
Anthropic, MITRE ATT&CK에 없는 ‘에이전트형 공격’ 문제 제기
Anthropic은 기존 보안 프레임워크가 AI 에이전트형 공격을 충분히 표현하지 못한다고 지적했습니다. 특히 모델이 명령 실행, 취약점 악용, 자격 증명 탈취, 전술적 판단을 순차적으로 수행하는 패턴은 기존 technique 수만으로 위험도를 설명하기 어렵다는 입장입니다.
- 위험 판별의 변화: 어떤 인터페이스를 쓰는지보다 공격 생명주기의 어느 단계에 AI를 적용하는지가 더 중요한 신호가 됐습니다.
- 스캐폴딩 문제: 고위험 행위자는 모델 주변에 여러 공격 단계를 체인으로 묶는 구조를 만듭니다.
- 프레임워크 업데이트: Anthropic은 Verizon DBIR에 일부 결과를 제공했고, MITRE와 ATT&CK 확장 논의를 진행 중이라고 밝혔습니다.
출처: What we learned mapping a year’s worth of AI-enabled cyber threats — Anthropic
Anthropic, Claude 파트너 네트워크에 Services Track과 Partner Hub 추가
Anthropic이 Claude Partner Network에 서비스 파트너 등급 구조와 Partner Hub를 추가했습니다. 엔터프라이즈 고객이 Claude를 실제 운영 환경에 붙일 때 어떤 컨설팅·구축 파트너가 검증됐는지 확인할 수 있게 하는 장치입니다.
- 평가 기준: 인증된 실무자 수, Claude 운영 배포 고객 수, 공개 고객 사례를 기준으로 파트너 역량을 보여줍니다.
- 운영 포털: Partner Hub는 파트너 등급, 인증 인원, 고객 배포, 공개 레퍼런스를 매일 갱신합니다.
- Claude 연결: 새 MCP connector를 통해 파트너 현황, 등록 deal, 인증 상태를 Claude 안에서 질의할 수 있습니다.
출처: Introducing the Services Track and Partner Hub of the Claude Partner Network — Anthropic
Claude Code, Dynamic Workflows로 작업별 멀티에이전트 하네스 생성
Claude Code 팀은 Dynamic Workflows의 작동 방식과 활용 패턴을 설명했습니다. Claude Code가 작업에 맞는 JavaScript workflow를 즉석에서 만들고, 별도 컨텍스트를 가진 subagent들을 조율해 긴 작업을 처리하는 방식입니다.
- 작동 방식: workflow는 subagent 생성·조율 함수를 가진 JavaScript 파일로 실행되며, 모델 선택과 worktree 격리까지 결정할 수 있습니다.
- 해결하려는 문제: 긴 작업에서 생기는 agentic laziness, self-preferential bias, goal drift를 줄이기 위해 계획과 실행을 분리합니다.
- 대표 패턴: fan-out-and-synthesize, adversarial verification, tournament, loop until done 같은 구조가 소개됐습니다.
출처: A harness for every task: dynamic workflows in Claude Code — Claude
Anthropic, Claude Code Skills 운영 경험 공개
Anthropic은 Claude Code 내부에서 수백 개의 skills를 운영하며 얻은 교훈을 공개했습니다. Skills는 Claude Code의 가장 많이 쓰이는 확장 지점 중 하나이며, 만들고 배포하기 쉽지만 구조와 공유 기준이 중요하다는 내용입니다.
- 확장 지점: skills는 팀별 반복 작업, 도메인 지식, 검증 루틴을 Claude Code에 붙이는 방식입니다.
- 운영 경험: Anthropic 내부에서 수백 개 skills가 실제로 사용되며 개발 속도를 높이는 데 쓰이고 있습니다.
- 공유 기준: 어떤 skills를 만들고, 어떻게 구조화하고, 언제 팀에 배포할지에 대한 운영 판단이 필요합니다.
출처: Lessons from building Claude Code: How we use skills — Claude
Anthropic, AI-native 엔지니어링 조직 운영 방식 설명
Claude Code 엔지니어링 리더십은 에이전트 코딩이 기본 작업 방식이 되면서 조직의 프로세스와 구조가 어떻게 달라졌는지 설명했습니다. 핵심은 소프트웨어 개발 비용의 중심이 사람의 타이핑 시간에서 작업 정의, 검토, 조율로 이동한다는 점입니다.
- 업무 단위 변화: 엔지니어는 코드를 직접 쓰는 시간보다 작업을 분해하고, 에이전트 결과를 검토하고, 병렬 작업을 조율하는 시간이 늘어납니다.
- 프로세스 변화: 기존 waterfall·agile이 사람의 개발 대역폭을 기준으로 설계됐다면, AI-native 조직은 에이전트 실행 대역폭을 전제로 합니다.
- 관리 포인트: 더 많은 산출물이 더 빨리 나오기 때문에 리뷰, 테스트, 우선순위, 배포 기준이 더 중요해집니다.
출처: Running an AI-native engineering org — Claude
마이크로소프트, 엔터프라이즈 에이전트 플랫폼을 ‘하나의 시스템’으로 제시
마이크로소프트는 기업 AI 전환의 핵심이 단순 모델 도입이 아니라 에이전트를 만들고, 맥락화하고, 실행하고, 거버넌스하고, 개선하는 통합 시스템이라고 설명했습니다. Azure, GitHub, Microsoft IQ, Fabric, Foundry, Windows, Microsoft Security, Microsoft 365를 하나의 에이전트 플랫폼으로 묶는 구상입니다.
- 빌드: GitHub에서 코드, work item, skills, tools, evals, observability 자산을 함께 버전 관리합니다.
- 맥락화: Microsoft IQ가 Microsoft 365와 업무 시스템, 웹 정보를 연결해 에이전트가 조직 맥락을 이해하게 합니다.
- 운영: Foundry는 모델 라우팅, MCP·connector·API 실행, traces, evals, continuous optimization을 담당합니다.
출처: AI alone won’t change your business. The system running it will. — Microsoft
Microsoft Build 2026, Agent 365 SDK와 로컬 에이전트 거버넌스 공개
Microsoft Security는 Build 2026에서 에이전트를 개발 생명주기 안에서 안전하게 만들고 운영하기 위한 기능을 공개했습니다. Agent 365 SDK, Microsoft Execution Container, Windows 365 for Agents, Defender·Entra·Intune·Purview 통합이 핵심입니다.
- 개발 단계 통제: Agent 365 SDK는 관찰성, 접근 제어, 컴플라이언스 enforcement를 개발 워크플로에 넣습니다.
- 실행 격리: Microsoft Execution Container SDK와 Windows 365 for Agents는 에이전트 실행을 OS와 Cloud PC 수준에서 격리하고 정책으로 제어합니다.
- 로컬 에이전트 관리: Agent 365 Agent Registry는 coding agents, AI desktop apps, MCP servers 등 20종 이상의 로컬 에이전트를 발견·관리합니다.
출처: Microsoft Build 2026: Securing code, agents, and models across the development lifecycle — Microsoft Security Blog
Deloitte·Google Cloud·Wiz, 인간 개입형 AI 사이버 방어 협업
Deloitte가 Google Cloud, Wiz와의 전략적 협업 확대를 발표했습니다. Google Cloud의 AI Threat Defense와 Wiz의 CTEM 맥락, Gemini·CodeMender·Mandiant 경험을 결합해 보안 운영자가 AI 기반 위협을 더 빠르게 다루도록 돕는다는 내용입니다.
- AI Threat Defense: Gemini와 frontier models의 추론, Wiz의 위험 우선순위, Gemini·CodeMender의 코드 remediation, Mandiant의 현장 경험을 결합합니다.
- 운영 목표: 보안 도구 사일로를 줄이고, 통합된 데이터와 agentic workflow로 운영 복잡도를 낮추는 데 초점을 둡니다.
- 인간 개입: 완전 자동화가 아니라 human-led digital workforce라는 표현으로 운영자 중심의 AI 방어 체계를 내세웠습니다.
출처: Deloitte Collaborates with Google Cloud and Wiz on Human-in-the-Loop, AI-Powered Cyber Defense — PR Newswire
Google CVPR 2026, 3DCodeBench와 온디바이스 비전 모델 공개
Google Research는 CVPR 2026 페이지에서 Google Research, Google DeepMind, Google Cloud의 컴퓨터비전·멀티모달 연구 발표와 데모를 정리했습니다. Project Astra 3D 팀은 Gemini 모델이 코드 실행으로 다양한 3D 객체를 생성하는 능력을 보여주는 3DCodeBench를 소개합니다.
- 3DCodeBench: Gemini 모델이 소프트웨어와 자율적으로 상호작용해 3D asset 생성을 돕는 방향을 보여줍니다.
- BlazeEdit: 195M 파라미터 이미지-투-이미지 diffusion 모델로, Pixel 10에서 object removal, outpainting, relighting을 290ms에 처리한다고 설명했습니다.
- XR 데모: Android XR, Gemini on AndroidXR, auto-spatialization 등 공간 컴퓨팅과 AI의 결합도 시연합니다.
출처: Google @ CVPR 2026 — Google Research
오늘의 도구 추천
Dynamic Workflows in Claude Code — 대규모 리팩터링, 검증, 리서치처럼 단일 컨텍스트에서 흔들리기 쉬운 작업을 작업별 멀티에이전트 하네스로 나누는 접근입니다. 아직 토큰 비용이 커서 모든 작업에 맞지는 않지만, 복잡한 검증과 병렬 탐색이 필요한 팀에는 중요한 패턴입니다.
에디터 노트
오늘 뉴스에서 가장 눈에 띄는 변화는 AI가 “범용 도우미”라는 표현을 벗어나고 있다는 점입니다. 생명과학에서는 실험과 분석의 흐름에 들어가고, 보안에서는 공격자와 방어자가 모두 에이전트형 실행 구조를 만들고, 기업에서는 수백 개 에이전트를 식별하고 통제하는 운영 체계가 필요해지고 있습니다.
그래서 앞으로 중요한 질문은 어떤 모델이 더 똑똑한가에서 멈추지 않습니다. 어떤 전문 워크플로에 들어갈 수 있는지, 어떤 증거를 남기는지, 어떤 권한으로 실행되는지, 실패했을 때 누가 감지하고 되돌릴 수 있는지가 제품 경쟁력의 중심이 됩니다.
다음에 또 찾아옵니다. — 에이브랜치