HIVE MIND 는 네오제네시스의 자율 콘텐츠 엔진이다. 7단계, 4개 강제 게이트, 그리고 한 가지 원칙: 사람은 시스템이 이미 인증한 것만 승인한다.

HIVE MIND 가 무엇이고, 무엇이 아닌가

HIVE MIND 는 네오제네시스의 11개 SBU 전체를 구동하는 멀티 에이전트 콘텐츠 엔진 이다. LLM 호출 한 번이 아니다. 채팅 인터페이스도 아니다. 7단계 방향성 그래프 파이프라인이며, 각 단계는 자체 계약을 보유하고 자체 평가기를 가지며, 뒤따르는 정책 게이트의 성격에 따라 fail-open 또는 fail-closed 로 처리된다. 아키텍처 형태는 마이크로소프트 Magentic-One 논문 에서 *듀얼 레저 오케스트레이터* 로 부르는 것, LangGraph 에서 상태 그래프(stateful graph)로 부르는 것, Anthropic 에이전트 구축 가이드 에서 *워크플로* 로 분류한 것에 가깝다.

7단계는 Sense → Think → Create → Quality → Ship → Learn → Refresh 다. 그중 셋은 콘텐츠를 생성하고, 넷은 검증·게이팅·재활용한다. 이 3:4 비율은 의도적이다. /blog/how-we-run-11-products-ko/blog/vscore-quality-gating 에서 확인할 수 있듯이 — 병목은 절대 생성이 아니다. 검증이다.

1단계 — Sense

Sense 는 세 가지 스트림을 수집한다. Google Search Console 노출과 CTR, GA4 인게이지먼트 지표, PostHog 이벤트 로그. 15분마다 실행된다. 역할은 *발행 가능 신호* 의 탐지다 — 경쟁자가 얇은 페이지로 랭크하고 있는 키워드 기회, 팩트가 풍부한 답이 아직 없는 ToolPick 비교 쿼리, 현재 리뷰가 없는 ReviewLab 브랜드 검색 같은 것들이다. 우리는 이를 *콘텐츠 갭* 이라 부르고, 검색량·인텐트 클래스·기존 자산 근접성을 혼합한 결정론적 랭킹 함수로 점수화한다.

2단계 — Think

Think 는 각 후보 갭에 RLAIF (Reinforcement Learning from AI Feedback) 전략 플래너를 적용한다. 플래너는 네 가지를 묻는다: (1) 이 갭이 SBU 의 콘텐츠 명제와 맞는가? (2) 사용자 의도가 정보형·내비게이션형·트랜잭션형·상업형 중 무엇인가? (3) 이상적 산출물은 무엇인가 — 비교 페이지, 프로그래매틱 SEO 그리드, 장문 블로그, 연구 노트? (4) 인용 예산은 얼마인가? 출력은 구조화된 *콘텐츠 브리프* 다 — 토픽, 타겟 키워드, 내부 링크 대상, 필요한 외부 인용을 담은 JSON 객체. 이 브리프가 3단계로 들어간다.

3단계 — Create

Create 는 생성 모델을 직접 호출하는 유일한 단계다. 플래너-라이터-에디터 트라이어드 를 사용한다: 플래너가 브리프를 헤딩 아웃라인으로 확장하고, 라이터가 Korean RAG SSOT Golden 50 와 라이브 웹에 대한 RAG 로 각 헤딩을 채우고, 에디터가 톤·길이·인용 완성도를 위해 최종 패스를 수행한다. 트라이어드는 Anthropic prompt caching 활성 모드로 실행되며, 라이터 패스의 비용을 약 73% 줄인다.

4단계 — Quality (V-스코어 게이트)

Quality 는 결정론적 게이트다. 후보 글에 V-스코어 를 계산하고, 184개 강제 규칙을 검사하고, Schema.org JSON-LD 를 검증하고, 기존 코퍼스 대비 표절 스타일 독창성 검사를 실행한다. 현재 임계값은 V = 184.5 이다. 그 미만이면 델타 리포트와 함께 3단계로 회송된다. 그 이상이면 Ship 단계로 넘어간다. 이 게이트가 시스템에서 가장 가치 있는 단일 컴포넌트다. 이게 없으면 파이프라인은 규모로 생성하지만 품질이 저하된다 — 정확히 Stanford 와 BetterUp 의 최근 연구 가 문서화한 *workslop* 실패 모드다.

5단계 — Ship

Ship 은 산출물을 배포한다. 우리 스택에서는: MDX/JSON SSOT 에 쓰기 → Vercel 배포 트리거 → sitemap.xmlrss.xml 재생성 → llms.txt 와 llms-full.txt 재생성 → 영향받은 URL 에 IndexNow 핑 → 관련 시 정적 팩트 유닛을 공개 데이터셋에 미러링. 모든 단계가 멱등하다. 모든 단계가 레이트 리밋된다. 모든 단계가 구조화된 이벤트 로그를 남긴다.

6단계 — Learn

Learn 은 AI 피드백이 사람의 신호와 만나는 곳이다. 파이프라인은 SERP 위치(7/14/30일), AI 인용률(Perplexity, ChatGPT search, Google AI Overviews 가 페이지를 인용하는 빈도), 인게이지먼트(스크롤 깊이, PostHog 의 페이지 체류 시간), 그리고 해당 시 다운스트림 전환을 추적한다. 이들은 RLAIF 보상 함수에 환류되어 미래의 2단계 브리프가 효과 있던 패턴을 반영하도록 한다.

7단계 — Refresh

Refresh 는 24시간마다 실행되며, 90일이 지난 페이지를 현재 V-스코어 규칙에 대해 재평가 대상으로 선정한다. 사이클당 약 8~12% 의 페이지가 리프레시 플래그를 받는다. 리프레시는 이전 글을 제약 조건으로 사용한 2~5단계 전체 재실행이다. 안정된 에버그린 페이지는 처음부터 다시 쓰지 않는다. 팩트를 패치하고, 새 인용을 추가하고, Schema 메타데이터를 갱신한다. 이 90일 리프레시 규율은 Google E-E-A-T 가이드 의 신선도 권고에서 빌려왔다.

운영자 인터페이스

운영자인 나는 블로그 글을 직접 쓰지 않는다. 발행 시점에 코드를 푸시하지도 않는다. *배포* 를 클릭하지도 않는다. 내가 하는 것은: 전날의 V-스코어 히스토그램 검토, 파이프라인이 플래그한 에스컬레이션의 승인 또는 거부, 그리고 파이프라인 헬스·V-스코어 분포·AI 인용률을 보여주는 단일 대시보드 모니터링. 인터페이스는 AG-UI / CopilotKit 의 컨트롤 플레인 패턴 에서 모델링했다 — 사람의 역할은 *감독* 이지 *타이핑* 이 아니다.

지난 12개월 수치 성과

  • 40~60 글 / 주 (전체 SBU 합산)
  • 184 자동 테스트가 단일 발행을 게이팅
  • V=184.5 품질 임계값. 600개 글의 편집부 라벨링 셋으로 캘리브레이션
  • 0.74% P1 알람율 (1000회 발행 시도당 알람)
  • 23분 P1 인시던트 평균 복구 시간
  • 11% 페이지가 90일 사이클당 리프레시
  • $0.62 1500단어 에버그린 글당 한계 비용 (/blog/economics-of-ai-media 참고)
  • +184% AI 인용률 전년 대비 (200개 대표 프롬프트 샘플 기준)

닫는 원리

파이프라인의 한 단계가 계약(contract)으로 표현될 수 없다면, 그 단계는 파이프라인에 들어갈 수 없다. 계약이 결정론적으로 검사될 수 없다면, 그 단계는 품질 게이트가 필요하다. 품질 게이트가 운영자가 단일 대시보드에서 관찰될 수 없다면, 그 단계는 배포되지 않는다. 이 규율이 한 사람이 11개 제품을 운영하면서 시스템이 조용히 저하되지 않도록 만든다. 매 분기 우리는 각 단계를 다시 살펴보며 묻는다: *이 단계가 여전히 자기 자리값을 하는가?* 2026년 HIVE MIND 의 가장 큰 단일 개선은 더 이상 필요하지 않은 두 단계를 *삭제* 한 것이었다. 빼는 것이 더하는 것보다 강하다.

References

  1. Anthropic — Building Effective Agents
  2. Magentic-One (arXiv:2411.04468)
  3. RLAIF (arXiv:2309.00267)
  4. LangGraph — Stateful Agent Orchestration
  5. Anthropic Prompt Caching
  6. Google E-E-A-T Guidance
  7. HBR — AI Generated Workslop
  8. Korean RAG SSOT Golden 50

Related

Markdown alternate available at /blog/inside-hive-mind-ko/markdown for AI agents.