Mercury 2 AI 완전 정복: 1,000토큰/초의 괴물, 디퓨전 언어모델 혁명이 온다 🚀

1. 자동회귀의 감옥: 왜 기존 AI는 느릴 수밖에 없나? 🐌

현재 우리가 사용하는 모든 주요 언어모델—ChatGPT, Claude, Gemini, Llama—은 공통된 DNA를 가지고 있습니다. 바로 자동회귀(Autoregressive) 방식입니다. 이는 마치 타자기를 두드리듯, 한 토큰씩 순차적으로 텍스트를 생성하는 방식입니다.

자동회귀 방식

                                    "The quick brown fox"

                                    ↓ 토큰 1 예측: "jumps"

                                    "The quick brown fox jumps"

                                    ↓ 토큰 2 예측: "over"

                                    "The quick brown fox jumps over"

                                    ↓ 토큰 3 예측: "the"

                                    ...이 과정을 1,000번 반복

⚠️ 순차적 의존성: 토큰 N은 토큰 N-1이 완료될 때까지 대기

디퓨전 방식 (Mercury 2)

전체 동시 처리

✓ 병렬 정제: 모든 토큰을 동시에 생성하고 반복 개선

자동회귀 방식의 근본적 한계는 순차적 의존성(Sequential Dependency)입니다. 토큰 #100을 생성하려면 토큰 #1부터 #99까지 모두 완료되어야 합니다. 하드웨어가 아무리 강력해도 이 병목은 해결할 수 없습니다. Inception Labs의 CEO 스테파노 에르몬은 이를 "세상에서 가장 비싼 타자기"라고 표현했습니다.

"세상에서 가장 비싼 타자기"

— Stefano Ermon, Inception Labs CEO

핵심 인사이트

AI 업계는 수십억 달러를 들여 전용 칩, 최적화된 서빙 스택, 모델 압축 등으로 속도를 개선해왔지만, 토큰별 순차 생성이라는 근본적 구조는 변하지 않았습니다. Mercury 2는 이 구조 자체를 뒤집었습니다.

2. 디퓨전 혁명: 이미지 생성 기술이 언어로 옮아오다 🎨

디퓨전 모델은 AI 분야에서 새로운 개념이 아닙니다. Stable Diffusion, DALL-E, Midjourney, Sora— 이들 모두 디퓨전 기반입니다. 이들의 핵심 원리는 노이즈에서 시작해 반복적 정제를 통해 이미지를 생성하는 것입니다.

디퓨전 모델의 작동 원리: 왼쪽에서 노이즈가 시작되어 오른쪽으로 갈수록 선명한 이미지로 변환되는 4단계 과정 — 이미지 디퓨전 모델의 정제 과정: 노이즈 → 초안 → 개선 → 최종 이미지

Mercury 2의 텍스트 디퓨전 과정

1단계: 초기화 (마스킹)

완전히 마스킹된(가려진) 토큰 시퀀스에서 시작합니다. 마치 모든 단어가 ████로 가려진 문장과 같습니다.

2단계: 병렬 예측

트랜스포머 모델이 모든 위치의 토큰을 동시에 예측합니다. 각 위치에 대한 확률 분포를 계산합니다.

3단계: 신뢰도 기반 언마스킹

가장 높은 신뢰도를 가진 토큰부터 먼저 확정합니다. 이는 후속 정제 단계에서 더 나은 문맥을 제공합니다.

4단계: 반복 정제 (8-20단계)

남은 마스킹된 위치를 반복적으로 개선합니다. 각 단계에서 전체 시퀀스를 동시에 업데이트합니다.

"Mercury 2는 타자기처럼 한 글자씩 치는 것이 아니라, 편집자처럼 전체 초안을 한 번에 검토하고 수정합니다. 이 병렬성이 속도의 비밀입니다."

— Stefano Ermon, Inception Labs CEO

스테파노 에르몬은 스탠포드 대학에서 디퓨전 모델의 기초를 개발한 선구자입니다. 그의 연구는 Stable Diffusion과 DALL-E의 핵심 기술이 되었으며, 2024년 ICML에서 Best Paper를 수상한 텍스트 디퓨전 논문의 저자이기도 합니다. 2년간의 연구 끝에 그는 언어에 디퓨전을 적용하는 방법을 완성했고, 그 결과가 Mercury 2입니다.

3. Mercury 2 심층 분석: 스펙과 벤치마크 📊

핵심 사양

항목	Mercury 2	비고
처리량 (Throughput)	1,009 토큰/초	NVIDIA Blackwell GPU 기준
종단 지연시간 (Latency)	1.7초	종단-to-종단
입력 토큰 가격	$0.25 / 1M 토큰	Gemini 3 Flash의 절반
출력 토큰 가격	$0.75 / 1M 토큰	Claude Haiku 대비 6.5배 저렴
컨텍스트 윈도우	128K 토큰	약 300페이지 분량
특수 기능	조정 가능한 추론, 도구 사용, JSON 출력	OpenAI API 호환

속도 비교: 독립적 검증 결과

Artificial Analysis라는 독립 벤치마킹 기관의 검증 결과, Mercury 2는 표준화된 다중 턴 평가에서 초당 711.6~1,196 토큰을 기록했습니다. 이는 추적 중인 132개 모델 중 1위입니다.

🚀 처리량 비교 (토큰/초)

Mercury 2

1,196 t/s

Claude 4.5 Haiku

89 t/s

GPT-5 Mini

71 t/s

출처: Artificial Analysis 독립 검증 (2026년 2월)

품질 벤치마크: 속도만큼 똑똑한가?

벤치마크	Mercury 2	설명
AIME 2025 (수학)	91.1	경쟁적 수학 추론
GPQA Diamond (과학)	73.6	대학원 수준 과학 질문
IFBench (지시 따르기)	71.3	복잡한 지시 수행 능력
LiveCodeBench (코딩)	67.3	오염 방지 코딩 평가
SciCode (과학 코딩)	38.4	다단계 과학 문제 해결
TAU-bench (에이전트)	52.9	복잡한 에이전트 평가

Artificial Analysis Intelligence Index에서 Mercury 2는 100점 만점에 33점을 받아 132개 모델 중 22위를 기록했습니다. 중간값이 19점인 것을 고려하면 상위 15%에 해당하는 수준입니다. Claude Opus나 Gemini 3.1 Pro (80~90점대)와는 격차가 있지만, Haiku/Mini급 모델 중에서는 가장 빠르면서도 경쟁력 있는 품질을 제공합니다.

4. 실전 테스트: 세차장 문제부터 문서 요약까지 🧪

테스트 1: "세차장 문제" (추론 능력 테스트)

🚗 프롬프트:

"세차장이 50미터 떨어져 있습니다. 걸어가야 할까요, 차를 타고 가야 할까요?"

이 간단한 질문은 Mercury 2의 조정 가능한 추론 노력(reasoning_effort) 설정을 테스트하는 데 사용됩니다.

낮은 추론 노력

즉각적인 답변: "걸어가세요. 짧은 거리이며 몇 분이면 됩니다."
비용 효율적
단순한 질문에 적합

높은 추론 노력

맥락 고려: "세차장 유형에 따라 다릅니다."
드라이브스루 세차장: 차로 이동
셀프 세차장: 날씨와 짐 고려
더 현실적이고 세심한 조언

테스트 2: 5,000단어 문서 요약

Analytics Vidhya의 실제 테스트에서 Mercury 2는 5,000~10,000단어 기사를 3초 만에 요약했습니다. 같은 프롬프트로 ChatGPT를 테스트한 결과, 25초의 사고 시간 + 10초의 생성 시간이 소요되었습니다. Mercury 2가 10배 이상 빠른 셈입니다.

Mercury 2와 ChatGPT의 문서 요약 속도 비교 인포그래픽: Mercury 2는 3초, ChatGPT는 35초가 소요됨을 보여줌 — 실제 문서 요약 속도 비교: Mercury 2 vs ChatGPT

"Mercury 2를 사용하면 답변이 나타나기 전에 질문을 완전히 처리하지 못할 정도입니다. 수년간 추론 파이프라인을 기다려온 사람에게는 약간 기이한 느낌입니다."

— Awesome Agents Review

5. 개발자 커뮤니티 반응: Hacker News와 전문가들의 시각 💬

Hacker News 커뮤니티 반응

Mercury 2의 출시 소식은 Hacker News에서 활발한 논의를 불러일으켰습니다. 개발자들의 주요 반응을 정리했습니다:

🎯

음성 에이전트 개발자

"내 음성 에이전트에 테스트해볼 생각입니다. 최소한 사용자 대면 에이전트의 지연 시간을 줄이는 데는 유용할 것 같습니다."

🤔

아키텍처 분석가

"멀티샷 생성으로 수정이 필요할 것 같습니다. 각 디퓨전이 단일 '생각'을 표현하게 될 것입니다. 속도가 빠르면 그게 문제는 아닐 것 같네요."

⚡

IDE 통합 개발자

"Mercury v1은 이미 Zed와 같은 주류 IDE에서 프로덕션으로 사용 중입니다. 자동완성과 다음 편집 예측에 탁월합니다."

전문가 평가

Davis Treybig (LinkedIn): "벤치마킹이 인상적이지만—Haiku와 Nano 수준의 지능을 5-8배 빠르게 제공—가장 흥미로운 점은 제품에서 사용할 때의 직관적으로 다른 느낌입니다. ~1초 만에 실행되는 프론티어급 지능 수준으로 완전히 다른 유형의 제품 경험을 구축할 수 있습니다."

NVIDIA Shruti Koparkar: "Inception의 Mercury 2는 새로운 모델 아키텍처가 NVIDIA AI 인프라를 만날 때 가능한 것을 보여줍니다. NVIDIA GPU에서 초당 1,000토큰 이상을 달성하는 것은 AI 워크로드 전반을 지원하는 우리 플랫폼의 성능, 확장성, 다양성을 강조합니다."

커뮤니티의 우려사항

일부 개발자들은 생각의 연쇄(Chain of Thought)가 숨겨져 있거나 명확하지 않다는 점을 지적했습니다. "추론 모델"로 분류되지만, 사고 과정의 투명성은 기존 모델보다 떨어질 수 있습니다. 높은 추론 노력 설정에서 "n초 동안 생각함"을 클릭하면 일부 사고 과정을 볼 수 있습니다.

6. 활용 사례: 어디에 Mercury 2를 써야 할까? 🎯

🗣️

실시간 음성 AI

1초 미만의 응답 시간으로 자연스러운 대화가 가능합니다. 고객 서비스 봇, 개인 비서, 실시간 통역에 최적입니다.

💻

인스턴트 코딩 도구

실시간 코드 완성, 즉각적인 리팩토링 제안, 빠른 디버깅 지원. 개발자 생산성을 극대화합니다.

🔍

실시간 검색 시스템

복잡한 쿼리에 대한 즉각적인 결과 생성. RAG 파이프라인의 응답 시간을 획기적으로 단축합니다.

🤖

에이전트 루프

다단계 에이전트 워크플로우에서 지연 시간이 누적되지 않습니다. 5단계 작업을 기존 모델의 1단계만큼 빠르게 처리합니다.

📝

대용량 문서 처리

128K 컨텍스트 윈도우와 초고속 생성으로 긴 문서의 요약, 추출, 분석을 실시간으로 수행합니다.

⚡

자동완성 및 예측

Zed IDE에서 이미 검증된 다음 편집 예측. 사용자 의도를 읽어 즉시 제안을 제공합니다.

7. 한계와 고려사항: 완벽하지 않은 이유 ⚠️

구조적 한계

텍스트 전용: 멀티모달 기능 없음
클라우드 전용: 온프레미스 배포 불가
파인튜닝 불가: 커스터마이징 제한적
짧은 출력 비효율: "예/아니오"에도 전체 정제 과정 필요

사용 시 고려사항

기본적으로 장황함: 출력 길이 관리를 위한 프롬프트 엔지니어링 필요
생태계 성숙도: GPT/Claude/Gemini보다 생산 경험 적음
최적 하드웨어: 최고 속도를 위해서는 NVIDIA Blackwell 필요
스트리밍 없음: 완성된 출력만 제공, 중간 결과 없음

"Mercury 2는 만능 해결책이 아닙니다. 멀티모달 기능, 온프레미스 배포, 또는 프론티어급 추론이 필요한 팀에게는 잘못된 도구입니다. 하지만 Haiku급 품질을 수용할 수 있는 에이전트 프레임워크, 음성 인터페이스, 고용량 문서 처리 파이프라인을 구축하는 팀에게는 가격대비 최고의 옵션입니다."

— Awesome Agents Review (평점: 7.4/10)

추론 깊이의 한계

확장된 사고 연쇄(Chain-of-Thought) 추론은 단계 간 순차적 의존성을 필요로 합니다. 디퓨전 모델은 모든 위치를 동시에 처리하므로, 10단계 이상의 논리적 연쇄가 필요한 작업에서는 Claude Opus 4.6이나 GPT-5.2와 같은 자동회귀 모델이 여전히 우수합니다. AIME 문제는 짧은 맥락에서 잘 정의되어 디퓨전 모델이 깔끔하게 처리할 수 있지만, 10K+ 토큰에 걸친 다중 턴 일관성이나 복잡한 에이전트 루프의 희귀한 엣지 케이스에 대한 공개 데이터는 아직 없습니다.

8. 미래 전망: 디퓨전 LLM의 다음 단계 🔮

하이브리드 아키텍처

가장 가능성 높은 근미래의 진화는 하이브리드 아키텍처입니다. Mercury 2 같은 디퓨전 모델이 빠른 초안을 생성하고, Claude Opus 4.6 같은 자동회귀 모델이 품질이 중요한 특정 섹션을 정제합니다. 이는 이미 추측적 디코딩(Speculative Decoding)의 원리와 유사합니다: 빠른 모델이 제안하고, 느린 모델이 검증합니다. 차이점은 Mercury 2가 개별 토큰이 아닌 전체 시퀀스를 제안한다는 점입니다.

스케일링 법칙

디퓨전 LLM의 스케일링 법칙은 아직 확립되지 않았습니다. 자동회귀의 스케일링 곡선—더 많은 파라미터와 데이터가 꾸준히 더 나은 모델을 만든다는 것—은 수년에 걸쳐 매핑되었습니다. Inception Labs와 다른 연구 그룹은 디퓨전 모델이 유사한 스케일링 패턴을 따르는지, 아니면 다른 최적화 전략이 필요한지를 밝혀내는 중입니다. 만약 디퓨전 모델이 자동회귀만큼 예측 가능하게 스케일된다면, 85-95% 품질 범위가 2세대 내에 95-99%로 좁혀질 수 있습니다.

경쟁 환경의 변화

OpenAI, Google DeepMind, Anthropic 모두 비자동회귀 생성 기법을 연구 중입니다. 만약 프론티어 연구소가 디퓨전 속도와 프론티어급 훈련 데이터, RLHF 정렬을 결합한다면, 속도-품질 트레이드오프는 완전히 사라질 수 있습니다. Mercury 2는 이 연구 방향을 상업적으로 신뢰할 만하게 만드는 개념 증명입니다.

9. 시작하기: API 접근과 핵심 기능 (Capabilities) 💻

계정 설정 및 인증 (Authentication)

Inception Platform을 시작하는 과정은 매우 간단합니다. 회원가입 및 로그인을 완료하면 API 테스트를 위한 1,000만 개의 무료 토큰(10 million free tokens)이 초기에 자동으로 지급됩니다.

# 터미널에 API 키를 환경 변수로 내보내기 (macOS/Linux)
export INCEPTION_API_KEY="your_api_key_here"

# 기본 API 엔드포인트 URL
https://api.inceptionlabs.ai/v1

빠른 시작 (Quick Start): Python 및 서드파티 라이브러리

Inception API는 OpenAI API와 100% 호환되는 인터페이스를 제공합니다. 기존 코드를 수정할 필요 없이 openai 패키지는 물론, LangChain, LiteLLM, AISuite, VercelAI와 같은 인기 있는 클라이언트 라이브러리 연동(Integrations)을 그대로 지원합니다 [1].

import os
from openai import OpenAI

# Inception Labs base URL을 사용하여 클라이언트 초기화
client = OpenAI(
    api_key=os.environ.get("INCEPTION_API_KEY"),
    base_url="https://api.inceptionlabs.ai/v1"
)

# Chat Completions로 Mercury 2 호출
response = client.chat.completions.create(
    model="mercury-2",
    messages=[
        {"role": "user", "content": "양자 컴퓨팅을 쉽게 설명해줘"}
    ],
    extra_body={"reasoning_effort": "high"},  # 추론 깊이 조절 파라미터
    max_tokens=1000
)

print(response.choices[0].message.content)

핵심 기능 (Capabilities)

Inception 공식 문서에 따르면, Mercury 2는 단순한 챗봇(Chat Completions)을 넘어 개발자를 위한 강력한 특수 기능들을 지원합니다:

⚡

스트리밍 & 디퓨전 (Streaming & Diffusion)

즉각적인 답변을 받는 Instant 모드와, 기존 토큰 단위 출력이 아닌 디퓨전 정제 과정을 실시간으로 스트리밍하여 보여주는 Streaming & Diffusion 방식을 선택할 수 있습니다.

🛠️

도구 사용 및 구조화된 출력

외부 API나 함수를 호출하는 Tool Use 기능과 복잡한 환경에서 엄격한 JSON 스키마를 보장하는 Structured Outputs를 기본 지원하여 안정적인 에이전트 워크플로우를 구축합니다.

💻

코드 생성 (FIM, Next Edit, Apply Edit)

코드 중간을 채우는 Autocomplete (FIM), 코드의 다음 수정 사항을 예측하여 제안하는 Next Edit, 타겟 리팩토링을 위한 Apply Edit 등 코드 특화 엔드포인트를 제공합니다.

추론 노력(Reasoning Effort) 조정

API 파라미터를 통해 사용 사례에 맞게 모델의 속도와 품질, 토큰 사용량(Rate Limits)을 최적화할 수 있습니다:

설정	사용 사례 결합	예상 지연시간
`low`	간단한 질문 응답, 코드 자동완성 (FIM)	< 1초
`medium`	일반적인 대화, 구조화된 출력 (Structured Outputs)	1-2초
`high`	복잡한 추론, 도구 사용 (Tool Use), Next Edit 코드 예측	2-4초

🚀 지금 바로 시도해보세요

Mercury 2의 기능을 직접 경험하고 싶으신가요? 플랫폼 대시보드에서 가입 후 지급되는 무료 토큰을 사용해 API를 연동해보거나, 공식 Inception Chat에서 체험해보세요.

Mercury 2 체험하기

Menu