ChatGPT 메모리 · MAI 모델 · 에이전트 운영 표준

오늘의 핵심

오늘의 흐름은 “에이전트를 오래, 안전하게, 검증 가능하게 운영하는 방법”입니다. 오픈AI는 ChatGPT 메모리를 더 최신성 있고 확장 가능한 구조로 바꾸고, 마이크로소프트와 깃허브는 에이전트가 실행되는 OS, 데스크톱 앱, 평가·통제 표준을 동시에 밀고 있습니다. 구글 쪽에서는 분산 에이전트 런타임과 SRE 운영 자동화 논의가 이어지며, 에이전트 경쟁이 모델 호출을 넘어 실행 체계 경쟁으로 옮겨가고 있습니다.

오픈AI, ChatGPT 메모리 합성 시스템 ‘Dreaming’ 고도화

오픈AI가 ChatGPT의 메모리 합성 시스템을 더 최신성 있고 확장 가능한 구조로 개선한다고 발표했습니다. 이번 업데이트는 미국 Plus·Pro 사용자부터 적용되며, 대화 히스토리에서 사용자의 선호와 프로젝트 맥락을 더 자연스럽게 합성하는 데 초점을 둡니다.

핵심 변화: 명시적으로 “기억해줘”라고 말한 정보만 저장하던 saved memories에서, 여러 대화의 맥락을 백그라운드로 합성하는 dreaming 기반 구조를 강화했습니다.
사용자 통제: 사용자는 memory summary 페이지에서 ChatGPT가 자신에 대해 이해한 내용을 검토하고, 추가·수정하거나 특정 주제의 활용 방식을 지정할 수 있습니다.
제품 방향: 메모리는 단순 개인화 기능이 아니라 장기 프로젝트와 반복 업무에서 대화 시작 비용을 줄이는 핵심 인프라가 되고 있습니다.

📢 장기 메모리는 AI 비서의 편의 기능이 아니라 “계속 함께 일하는 제품”을 만들기 위한 기본 계층입니다.

출처: Dreaming: Better memory for a more helpful ChatGPT — OpenAI

오픈AI, Codex Sites로 웹사이트 생성·배포 워크플로 공개

오픈AI 개발자 문서에 Codex Sites가 공개됐습니다. Codex가 웹사이트, 웹앱, 게임을 만들고 OpenAI 호스팅 환경에 저장·배포·검사할 수 있게 하는 플러그인입니다.

배포 방식: Sites는 버전을 먼저 저장한 뒤 승인된 버전을 프로덕션 URL로 배포하는 2단계 흐름을 사용합니다.
지원 범위: 콘텐츠 사이트부터 내부 도구, 지속 데이터가 필요한 앱까지 다루며, D1과 R2 같은 저장소 바인딩을 프로젝트 설정에 연결할 수 있습니다.
운영 의미: 코딩 에이전트가 코드를 생성하는 단계를 넘어 빌드, 배포, 검토 가능한 버전 관리까지 맡는 방향입니다.

📢 에이전트 개발 도구의 경쟁은 “코드를 써준다”에서 “사용 가능한 배포물을 끝까지 만든다”로 이동하고 있습니다.

출처: Sites — OpenAI Developers

마이크로소프트, 자체 MAI 모델 7종 공개

마이크로소프트 AI가 Build 2026에서 자체 개발한 MAI 모델 패밀리 7종을 공개했습니다. 추론, 코딩, 이미지, 음성, 전사 모델을 한 묶음으로 제시하며 “서드파티 모델 distillation 없이 clean data로 학습했다”는 점을 강조했습니다.

주요 모델: MAI-Thinking-1은 중형급 추론 모델, MAI-Code-1-Flash는 GitHub Copilot과 VS Code에 맞춘 5B 파라미터급 코딩 모델입니다.
멀티모달 확장: MAI-Image-2.5, MAI-Transcribe-1.5, MAI-Voice-2도 함께 공개해 텍스트 중심이 아닌 제품군 전략을 보여줬습니다.
튜닝 전략: Frontier Tuning을 통해 조직별 실제 작업 trace로 모델을 적응시키는 방향을 제시했습니다.

📢 마이크로소프트는 OpenAI 의존도를 낮추기보다, 자사 제품에 최적화된 모델 계층을 직접 쌓는 쪽으로 움직이고 있습니다.

출처: Building a hill-climbing machine: Launching seven new MAI models — Microsoft AI

마이크로소프트·Mayo Clinic, 의료 특화 프런티어 모델 공동 개발

Mayo Clinic과 마이크로소프트가 의료 특화 프런티어 AI 모델을 공동 개발한다고 발표했습니다. Mayo Clinic의 임상 전문성, 비식별 임상 데이터, 장기 진료 맥락과 마이크로소프트의 AI·클라우드 역량을 결합하는 구조입니다.

초기 배포: 모델은 먼저 Mayo Clinic 내부 환경에서 검증·개선됩니다.
소유권 구조: 모델은 Mayo Clinic이 소유하며, 임상 신뢰, 데이터 거버넌스, 환자 안전을 전면에 둡니다.
확장 계획: 검증 이후 Azure Foundry API를 통해 다른 의료 기관도 접근할 수 있게 하는 방향입니다.

📢 의료 AI는 범용 챗봇보다 데이터 소유권, 임상 검증, 책임 구조가 제품 경쟁력의 중심이 됩니다.

출처: Mayo Clinic and Microsoft collaborate to develop a frontier AI model for healthcare — Mayo Clinic / PR Newswire

Microsoft Scout, ‘항상 켜진 개인 에이전트’로 비공개 프리뷰

마이크로소프트가 Microsoft 365용 항상 켜진 개인 에이전트 Scout를 공개했습니다. Scout는 Teams, Outlook, OneDrive, SharePoint, 캘린더, 연락처 등을 바탕으로 사용자의 업무 흐름을 이해하고 백그라운드에서 조율 업무를 수행하는 Autopilot 범주의 첫 제품입니다.

작동 방식: Scout는 독립된 Entra identity를 갖고 조직 정책과 권한 범위 안에서 행동합니다.
대표 업무: 회의 조율, 준비 자료 생성, 일정 블록, 지연된 의사결정 탐지 같은 coordination work를 자동화합니다.
오픈소스 연결: OpenClaw 기반 기술을 활용하고, 정책 conformance 기능을 upstream에 기여하겠다고 밝혔습니다.

📢 업무용 AI 비서는 대화창 안의 답변자에서, 신원과 권한을 가진 지속 실행 주체로 바뀌고 있습니다.

출처: Introducing Microsoft Scout: Your always-on personal agent — Microsoft 365 Blog

GitHub Copilot 앱, 에이전트 네이티브 데스크톱 경험으로 확대

GitHub가 Copilot 데스크톱 앱 기술 프리뷰를 Copilot Pro, Pro+, Business, Enterprise 사용자로 확대했습니다. 핵심은 여러 에이전트 작업을 하나의 My Work 뷰에서 보고, 각 작업을 별도 git worktree와 branch에서 실행·검토·병합하는 흐름입니다.

작업 관리: issue, pull request, prompt, 이전 session에서 새 에이전트 작업을 시작할 수 있습니다.
Agent Merge: 리뷰 댓글 처리, 실패한 check 수정, 조건 충족 후 merge까지 자동화할 수 있습니다.
엔터프라이즈 제어: 모델 선택, MCP 서버 연결, skills, scheduled automations를 같은 기반 위에 둡니다.

📢 코딩 에이전트의 병목은 생성 능력보다 여러 작업의 상태, diff, 검증 결과를 관리하는 인터페이스로 옮겨갑니다.

출처: GitHub Copilot app: The agent-native desktop experience — GitHub Blog, Expanded technical preview availability for the GitHub Copilot app — GitHub Changelog

GitHub Copilot, ‘Canvas’로 에이전트 작업을 보이는 표면에 올림

Copilot 앱의 새 기능인 Canvas는 사람과 에이전트가 같은 작업 표면을 함께 편집·승인·검증하도록 설계됐습니다. 계획, pull request, 터미널, 브라우저 세션, 배포 상태, 대시보드 같은 작업 객체가 canvas가 될 수 있습니다.

문제 정의: 긴 채팅 로그 안에 계획, 결정, 실행 결과가 묻히는 문제를 해결하려는 UI입니다.
상호작용 모델: 에이전트는 canvas 상태를 읽고 업데이트하며, 사용자는 같은 표면에서 순서 변경, 승인, 방향 수정을 할 수 있습니다.
AX 방향: GitHub는 이를 agent experience의 시작점으로 설명합니다.

📢 좋은 에이전트 UI는 채팅을 더 길게 만드는 것이 아니라, 작업 객체 자체를 사람이 검토 가능한 상태로 바꾸는 것입니다.

출처: Expanded technical preview availability for the GitHub Copilot app — GitHub Changelog

마이크로소프트, Project Solara로 ‘앱 없는 에이전트 기기’ 구상 제시

마이크로소프트가 Build 2026에서 Project Solara를 공개했습니다. Android Open Source Project 기반의 Microsoft Device Ecosystem Platform 위에서, 전통적 앱 대신 에이전트가 화면·음성·터치 형태에 맞춰 UI를 구성하는 agent-first 기기 플랫폼입니다.

기기 범주: 데스크 허브와 웨어러블 배지 reference design을 제시했으며, Qualcomm과 MediaTek이 초기 silicon 파트너입니다.
UI 모델: just-in-time UI를 통해 같은 에이전트가 여러 화면 크기와 입력 방식에 맞게 표현됩니다.
시장 초점: Microsoft는 직접 소비자 기기를 팔기보다 의료, 리테일, 현장 업무용 OEM 생태계를 겨냥합니다.

📢 다음 하드웨어 경쟁은 “AI 앱이 설치된 기기”보다 “에이전트가 기본 상호작용인 전용 기기”에서 먼저 실험될 가능성이 큽니다.

출처: Microsoft unveils Project Solara AI, a chip-to-cloud platform built to power a new generation of agent-first enterprise devices — Tom’s Hardware

Windows, Microsoft Execution Containers로 로컬 에이전트 격리 강화

Windows Developer Blog는 AI 에이전트 보안을 위한 Microsoft Execution Containers(MXC)를 소개했습니다. MXC는 Windows와 WSL에서 에이전트가 접근할 수 있는 파일, 네트워크, 세션, UI 자원을 정책으로 제한하고 OS가 실행 시점에 강제하는 구조입니다.

격리 계층: process isolation, session isolation, Windows 365 for Agents, 향후 micro-VM과 Linux container까지 포함하는 sandbox spectrum을 제시했습니다.
신원 부여: Windows는 에이전트 활동을 local ID 또는 Entra-backed cloud identity에 연결해 사람과 에이전트의 행위를 구분합니다.
파트너 적용: OpenClaw, NVIDIA OpenShell, OpenAI Codex, Manus, Hermes 등이 MXC 기반 패턴을 검토·적용 중이라고 밝혔습니다.

📢 로컬 에이전트가 실제 파일과 앱을 다루기 시작하면, OS 수준의 격리와 감사 추적은 선택 기능이 아니라 기본 조건입니다.

출처: Windows platform security for AI agents — Windows Developer Blog

Microsoft Foundry, ASSERT와 Agent Control Specification 공개

Microsoft Foundry 팀은 에이전트 평가와 런타임 통제를 위한 오픈소스 체계를 공개했습니다. ASSERT는 정책 기반 평가 프레임워크이고, Agent Control Specification(ACS)은 에이전트가 무엇을 할 수 있는지, 언제 승인받아야 하는지, 어떤 증거를 남겨야 하는지를 표현하는 portable runtime control standard입니다.

ASSERT: 조직 정책과 요구사항을 입력받아 agent-specific evaluation scenario를 생성하고 결함을 찾습니다.
ACS: 허용, 차단, redaction, human approval, logging requirement 같은 통제를 policy file로 정의합니다.
생태계 목표: LangChain, CrewAI, LiteLLM, OpenAI, Semantic Kernel 등 특정 프레임워크에 묶이지 않는 신뢰 계층을 지향합니다.

📢 에이전트 거버넌스의 핵심은 프롬프트 규칙이 아니라, 평가와 실행 통제를 코드처럼 이동 가능한 표준으로 만드는 것입니다.

출처: Build agents you can trust across any framework with open evals and a control standard — Microsoft Foundry Blog

구글, Agent Executor로 분산 에이전트 런타임 오픈소스화

구글이 Agent Executor(AX)를 공개했습니다. AX는 신뢰성, 안전성, 커스터마이징, 효율성을 목표로 설계된 분산 에이전트 런타임으로, 모델과 planning logic은 사용자가 가져오고 AX가 실행 지속성, 조율, 감사 추적을 담당하는 구조입니다.

실행 안정성: 실패 복구와 재개를 지원해 복잡한 분산 배포에서도 에이전트 실행을 이어가도록 설계됐습니다.
프로토콜 지원: MCP, A2A 등 agentic protocol을 지원합니다.
운영 기능: 모든 실행에 대한 audit trail, observability hook, trajectory collection을 제공합니다.

📢 에이전트 프레임워크의 다음 층은 모델 호출 라이브러리가 아니라, 실패·재시작·감사까지 다루는 실행 런타임입니다.

출처: Agent Executor — Google, google/ax — GitHub

구글 SRE, AI 운영 자동화의 안전 모델 정리

Google SRE는 AI가 소프트웨어 개발과 운영 속도를 높이는 시대에 신뢰성 운영을 어떻게 재설계하는지 정리했습니다. 핵심은 AI를 기존 업무 자동화 도구로만 쓰는 것이 아니라, autonomous mitigation agent, execution guardrail, continuous evaluation pipeline을 갖춘 운영 control plane으로 보는 관점입니다.

안전 삼각형: transparency, real-time risk evaluation, progressive authorization을 AI-Ops governance의 핵심으로 제시했습니다.
자율성 단계: L0 수동 실행부터 L4 full autonomy까지 모니터링, 조사, 승인, 조치, self-directed operation의 수준을 나눴습니다.
실행 분리: AI Operator의 reasoning engine과 deterministic execution engine을 분리해, 모델이 바뀌어도 production mutation은 통제된 경계 안에 두는 구조입니다.

📢 AI가 배포 속도를 높일수록 SRE의 역할은 직접 조치자에서 자율 시스템의 안전 경계를 설계하는 아키텍트로 이동합니다.

출처: AI in SRE: How Google is Engineering the Future of Reliable Operations — Google SRE

ChatGPT 앱, Sensor Tower 기준 월간 사용자 10억 명 돌파

Sensor Tower 추정에 따르면 ChatGPT 앱이 2026년 5월 전 세계 월간 활성 사용자 10억 명을 넘어섰습니다. 출시 약 3년 만의 기록으로, Google Maps, TikTok, Instagram, YouTube보다 빠른 10억 MAU 도달 속도라는 분석입니다.

시장 규모: 생성형 AI가 실험적 서비스에서 대형 소비자 플랫폼으로 올라섰다는 신호입니다.
경쟁 구도: 같은 자료에서 Claude 앱은 2분기 기준 5,600만 MAU, 전년 대비 640 % 성장으로 추정됐습니다.
사용 시간 변화: 미국 사용자가 Claude를 설치한 뒤 ChatGPT 사용 시간이 일부 줄어드는 substitution effect도 관찰됐습니다.

📢 소비자 AI 시장은 “누가 먼저 10억 명을 모았는가” 이후, 누가 더 자주 쓰이고 더 깊은 업무에 붙는가의 경쟁으로 넘어갑니다.

출처: ChatGPT hits 1B user mark in record time — Mobile World Live

오늘의 도구 추천

Agent Executor — 단일 에이전트 데모가 아니라 실패 복구, 분산 실행, 감사 추적, MCP·A2A 연동까지 고려해야 하는 팀에게 참고할 만한 오픈소스 에이전트 런타임입니다.

에디터 노트

오늘 뉴스에서 반복되는 단어는 “메모리”, “격리”, “검증”, “표준”입니다. 모델이 더 똑똑해지는 것만으로는 오래 실행되는 에이전트를 신뢰할 수 없습니다. 무엇을 기억하는지, 어떤 권한으로 움직이는지, 어떤 표면에서 사람이 개입하는지, 실패했을 때 어떤 로그와 증거가 남는지가 실제 제품의 품질을 가릅니다.

그래서 AI 제품을 보는 기준도 조금 바뀌어야 합니다. 좋은 데모를 만드는 회사보다, 장기 메모리와 실행 런타임, 평가 체계, OS·클라우드 거버넌스까지 함께 설계하는 회사가 실제 업무 시스템 안으로 더 깊게 들어갈 가능성이 큽니다.

다음에 또 찾아옵니다. — 에이브랜치