자주 묻는 질문

토크나이저·가격·한국어 효율에 관한 7개 실무 질문.

작성 김지광 (운영자)마지막 업데이트 2026년 5월 16일balpekr 마이크로 SaaS

자주 묻는 질문

같은 의미인데 왜 한국어가 영어보다 토큰을 2~3배 더 쓰나요?

BPE 는 영어 중심 말뭉치로 학습됐기 때문에 한글 음절 대부분이 단일 토큰으로 병합돼 있지 않고 2~3개의 바이트 토큰으로 쪼개집니다. GPT-4o 의 o200k_base 와 Gemini 의 25.6만 어휘 SentencePiece 는 한국어 병합이 많아 cl100k·Llama 3 대비 한국어 비용이 실질적으로 크게 낮습니다. 따라서 모델 선택의 1순위 지표가 됩니다.

Claude·Gemini 토큰 수는 정확한가요?

아닙니다. Anthropic 은 브라우저 토크나이저를 공개하지 않았고 Google 도 클라이언트 JS 로는 토크나이저를 노출하지 않습니다. 본 페이지는 문자 종류별 가중치로 근사합니다. 청구서 단위의 정확도가 필요하면 Anthropic 의 count_tokens API 또는 Gemini 의 countTokens REST 엔드포인트를 직접 호출하세요. GPT 계열만 js-tiktoken 으로 정확값을 보여줍니다.

지금 한국어 글자당 비용이 가장 낮은 모델은 어떤 거예요?

2026년 중반 기준 한국어 글자당 비용이 가장 낮은 모델은 보통 Gemini 1.5 Flash 이며, GPT-4o mini 와 Claude Haiku 4.5 가 뒤를 따릅니다. 다만 글의 성격에 따라 차이가 좁혀지거나 벌어집니다 — 불릿 위주의 짧은 글은 격차가 줄고, 장문 산문은 더 벌어집니다. 정확한 이번 달 순위는 홈 화면 한국어 효율 패널에서 확인하세요.

왜 모든 제공사가 출력 가격을 입력의 4~5배로 책정하나요?

입력 토큰은 단일 포워드 패스로 끝나고 배칭으로 비용을 분산할 수 있지만, 출력 토큰은 자기회귀(autoregressive) 생성이라 토큰마다 한 번씩 포워드 패스를 돌려야 하고 배칭 이득이 거의 없습니다. 결과적으로 출력 토큰의 한계 GPU 비용이 4~5배 비싸고 모든 주요 제공사가 그렇게 가격을 매깁니다. max_tokens 상한이 가장 효과적인 비용 통제 수단입니다.

입력한 텍스트가 서버로 전송되나요?

아니요. 모든 토크나이즈와 가격 계산은 브라우저 탭 안에서만 일어납니다. GPT 계열은 정적 JS 로 로드된 js-tiktoken 으로 실행되며, Claude·Gemini·Llama 근사치 계산도 순수 JavaScript 입니다. 프롬프트를 받는 백엔드 자체가 없기 때문에 PII 나 영업 비밀이 포함된 실제 프로덕션 프롬프트도 안전하게 붙여넣어 비교할 수 있습니다.

프롬프트 캐싱을 켜면 여기 보이는 가격과 다른가요?

네. 프롬프트 캐싱을 켜면 캐시된 접두부 토큰이 Claude·GPT-4o 기준 입력 단가의 약 10% 로 청구됩니다. 본 페이지는 항상 기준 리스트 가격을 보여주므로, 실제로 재사용되는 부분 — 보통 시스템 메시지와 긴 검색 컨텍스트 — 에 대해서는 별도로 캐시 할인율을 곱해 추정해야 합니다. 짧은 프롬프트만 비교한다면 캐싱 효과는 무시해도 됩니다.

제 앱에 이 토크나이저를 그대로 통합할 수 있나요?

GPT 는 가능합니다. 본 사이트도 그대로 쓰고 있는 오픈소스 js-tiktoken (압축 약 100KB, WASM 없이 동작) 을 그대로 가져다 사용하세요. Claude 와 Gemini 는 각 제공사가 운영하는 공식 token-count HTTPS 엔드포인트를 호출하는 것이 표준입니다. 2026년 현재 두 회사 모두 브라우저용 공식 토크나이저는 공개하지 않았기 때문에 클라이언트 단 카운트는 근사치만 가능합니다.