NVIDIA DGX Spark(GB10)를 온프레미스로 두고, vLLM 추론 서버를 직접 운영합니다. 남의 API를 빌리는 대신 — 양자화와 연속 배칭으로 처리량을 끌어올린 자체 AI 인프라 위에서 알고몽이 사고합니다.
클라우드 토큰 원가에서 자유롭고, 데이터 주권을 지키며, 워크로드에 맞춰 유연하게 확장합니다.
NVIDIA DGX Spark(GB10)를 사내에 두고 모델을 직접 서빙합니다. 외부 API 호출 없이 — 응답 데이터가 우리 인프라를 떠나지 않습니다.
연속 배칭(continuous batching)과 PagedAttention 기반 vLLM으로 동시 요청을 효율적으로 처리. 커널을 상주시켜 콜드 스타트 없이 응답합니다.
통합 메모리(GB10) 위에서 양자화로 모델 메모리 풋프린트를 줄여, 더 큰 모델을 한 장비에서 안정적으로 서빙합니다.
컨테이너 기반 서비스로 추론·검색·에이전트를 모듈로 분리. 워크로드가 늘면 장비를 더해 수평으로 확장하도록 설계했습니다.
모델·데이터·로그가 모두 자체 인프라 안에 머뭅니다. 민감한 업무 데이터를 외부 클라우드에 넘기지 않습니다.
상태 점검·자동 복구 루틴이 추론 커널과 컨테이너를 감시합니다. 장애 시 사람 개입 없이 서비스를 되살리도록 운영합니다.
추론 한 장비가 전부가 아닙니다. 그 위에서 자율 에이전트·한국어 무결성·실시간 검색·도메인 엔진이 함께 돕니다.
리드 에이전트가 복잡한 작업을 분해해 워커에게 병렬 배분하고 결과를 종합합니다. 인프라의 처리량을 실제 업무로 전환하는 두뇌.
계획→코딩→도커 실행→자가 수정 루프로 코드를 스스로 작성하고 실제로 실행해 검증합니다. 추론 인프라가 받쳐주는 자율성.
출력 단계에서 한자·외국어 누출을 차단해 깔끔한 한국어 응답을 보장합니다. 한국 기업 현장에 맞춘 후처리 알고리즘.
메타검색과 자체 RSS 인덱스를 결합해 외부 키 의존을 줄이고 최신 정보를 근거로 답합니다. 본문 추출로 정보 밀도를 높입니다.
사업 조사·문서·엑셀 등 8개 도메인을 감지해 전문가 프롬프트로 분기합니다. 같은 인프라 위에서 영역별 깊이를 더합니다.
대화 기억(AMRC)으로 맥락을 잇고, MIRROR·TRACE가 응답의 약점을 찾아 스스로 개선 데이터를 만듭니다.
nginx 게이트웨이가 요청을 받아 애플리케이션으로 전달합니다. 의도와 복잡도를 판별해 적절한 처리 경로(단순 응답·검색·자율 에이전트)로 분기합니다.
대화 기억·실시간 검색·도메인 엔진을 동시에 발사해 필요한 근거만 모읍니다. 인프라의 동시성을 활용해 대기 시간을 줄입니다.
상주하는 vLLM 커널이 한국어 특화 모델로 토큰을 생성합니다. 연속 배칭으로 다른 요청과 자원을 효율적으로 공유합니다.
KAIR가 한자·외국어 누출을 차단하고, 출처 관련성·환각 여부를 점검해 신뢰할 수 있는 응답으로 다듬습니다.
사고 과정·출처·토큰을 투명하게 보여주며 실시간으로 답합니다. 이후 MIRROR·TRACE가 대화를 복기해 개선 데이터로 적립합니다.