---
name: audio-gen
description: |
  통합 오디오 생성 스킬. ElevenLabs MCP 기반 TTS(32개국어), 보이스 클로닝(1분 샘플), 다국어 더빙(립싱크), 효과음 생성을 지원.
  "목소리 생성", "TTS", "음성 합성", "보이스 클로닝", "더빙", "나레이션", "효과음", "AI 음성" 요청 시 사용.
user-invocable: true
version: 2.15.0
---

# audio-gen

## 개요

AI 기반 오디오 생성을 위한 통합 스킬입니다. ElevenLabs의 고성능 TTS 엔진을 활용하여 32개국어(한국 포함)의 자연스러운 음성을 생성하고, 단 1분의 샘플로 개인/브랜드 보이스를 클로닝합니다. 또한 비디오 다국어 더빙(립싱크 자동), 효과음 생성, 실시간 대화형 AI 보이스 에이전트 구축을 지원합니다.

### 주요 기능

- **TTS (Text-to-Speech)**: 32개국어 자연스러운 음성 생성 (한국어 최적화)
- **보이스 클로닝**: 1분 샘플로 개인/브랜드 보이스 복제
- **다국어 더빙**: 한국어 비디오 → 영어/일본어 등 (립싱크 자동 조정)
- **효과음 생성**: 영화, 게임, 콘텐츠용 사운드 이펙트
- **ConvAI**: 실시간 대화형 보이스 에이전트 (챗봇, AI 상담원)

---

## 트리거 키워드

다음 요청 시 이 스킬을 사용하세요:

- **음성 생성 관련**: "목소리 만들어줘", "TTS", "음성 합성", "나레이션 녹음", "AI 성우"
- **보이스 클로닝**: "내 목소리 복제", "브랜드 보이스 만들기", "보이스 클로닝", "샘플 음성으로 학습"
- **더빙 관련**: "영어 더빙", "일본어 번역+녹음", "외국어 자막+음성", "다국어 버전"
- **효과음**: "효과음 생성", "사운드 이펙트", "배경음", "비디오 소리"
- **대화형 AI**: "AI 상담원", "보이스봇", "실시간 음성 대화", "전화 자동 응답"

---

## 워크플로우

### 1. 기본 TTS (Text-to-Speech)

```
1. 텍스트 입력 (한국/영어/32개국어)
2. 보이스 프리셋 선택 또는 커스텀 보이스 ID 지정
3. 모델 선택 (eleven_multilingual_v2 기본)
4. 오디오 생성 (MP3/WAV)
```

### 2. 보이스 클로닝

```
1. 참조 오디오 업로드 (1분 이상, 무음 최소화)
2. 보이스 이름/설명 입력
3. 클로닝 실행 → 보이스 ID 발급
4. TTS에서 클로닝된 보이스 사용
```

### 3. 다국어 더빙

```
1. 원본 비디오 업로드
2. 원본 언어 감지 (예: 한국어)
3. 타겟 언어 선택 (예: 영어, 일본어, 스페인어)
4. 자동 번역 + 보이스 생성 + 립싱크 매칭
5. 더빙된 비디오 다운로드
```

### 4. 효과음 생성

```
1. 효과음 설명 프롬프트 작성 (예: "천둥소리, 폭풍우")
2. 지속시간 설정 (1~30초)
3. 생성 및 다운로드
```

---

## 사용 예시

### 예시 1: 한국어 나레이션 생성

```
"이 블로그 글을 한국어 나레이션으로 읽어줘.
여성 차분한 톤으로, 3분 분량."
→ 보이스: Rachel (여성 차분)
→ 모델: eleven_multilingual_v2
→ 출력: MP3 파일
```

### 예시 2: 브랜드 보이스 클로닝

```
"우리 CEO의 1분 연설 음원이 있어.
이 목소리를 클로닝해서 신제품 발표 나레이션을 만들어줘."
→ 참조: ceo_sample.wav
→ 출력: 클로닝된 보이스 ID + 나레이션 MP3
```

### 예시 3: 유튜브 영상 영어 더빙

```
"이 한국어 교육 영상을 영어와 일본어로 더빙해줘.
원본 자막은 유지하고, 립싱크도 맞춰줘."
→ 입력: korean_tutorial.mp4
→ 출력: english_dub.mp4, japanese_dub.mp4
```

### 예시 4: 효과음 생성

```
"판타지 게임용 마법 시전 효과음 3개 만들어줘.
1. 화염구 (2초)
2. 얼음 폭발 (3초)
3. 치유 빛 (2.5초)"
→ 출력: fireball.wav, ice_explosion.wav, heal_light.wav
```

---

## 출력 형식

### TTS 출력

- **파일 형식**: MP3 (기본), WAV, FLAC
- **샘플레이트**: 44.1kHz, 48kHz
- **채널**: 모노/스테레오 선택 가능
- **최대 길이**: 무제한 (사용 플랜에 따라 문자 수 한정)

### 보이스 클로닝

- **보이스 ID**: `voices/xxxxx` 형식
- **라이선스**: 클로닝된 보이스는 계정 내 영구 보존
- **공유**: 보이스 ID를 통해 다른 프로젝트에서 재사용 가능

### 더빙 출력

- **비디오 형식**: MP4 (원본 품질 유지)
- **오디오 트랙**: 다국어 오디오 트랙 추가
- **자막**: SRT 자막 파일 자동 생성
- **싱크**: 립싱크 자동 조정 (±100ms 정밀도)

---

## 주의사항

### API 키 필수

**ELEVENLABS_API_KEY** 환경변수가 필요합니다.

1. [elevenlabs.io](https://elevenlabs.io) 가입
2. Settings → API Keys → Create API Key
3. `.env` 또는 시스템 환경변수에 등록:
   ```bash
   export ELEVENLABS_API_KEY="your_api_key_here"
   ```

### 요금 안내

| 플랜 | 가격 | 문자 수 | 사용처 |
|------|------|---------|--------|
| Free | $0 | 10,000字符/월 | 테스트, 개인 프로젝트 |
| Starter | $5/월 | 30,000字符/월 | 소규모 콘텐츠 |
| Creator | $22/월 | 100,000字符/월 | 유튜버, 프리랜서 |
| Pro | $99/월 | 500,000字符/월 | 앱 통합, 상업적 사용 |

### 제한사항

- **보이스 클로닝**: 최소 1분 샘플 필요 (무음 구간 최소화)
- **더빙**: 10분 초과 영상은 별도 협의 필요
- **상업적 사용**: Pro 플랜 이상 필요 (라이선스 조건 확인)
- **속도 제한**: Free 플랜은 RPM(분당 요청) 제한 있음

### 모델 선택 가이드

| 모델 | 성격 | 용도 | 비고 |
|------|------|------|------|
| `eleven_multilingual_v2` | 최고 품질 | 브랜딩, 광고, 나레이션 | 한국어 최적화, 권장 |
| `eleven_flash_v2_5` | 초저지연 | 실시간 대화, 게임 | 200ms 미만 |
| `eleven_turbo_v2_5` | 비용 효율 | 장문 나레이션, 대량 생성 | 50% 저렴 |

### 한국어 보이스 프리셋

| 코드 | 성격 | 톤 | 사용처 |
|------|------|-----|--------|
| Rachel | 여성 차분 | 내레이터 | 다큐, 뉴스, 교육 |
| Antoni | 남성 친근 | 대화형 | 인터뷰, 팟캐스트 |
| Bella | 여성 발랄 | 에너지틱 | 광고, 홍보영상 |
| Callum | 내레이터 | 중립, 전문 | 보고서, 프레젠테이션 |

---

## 관련 스킬

- **video-gen**: TTS 오디오를 AI 비디오와 결합 (speech-video)
- **image-gen**: 오디오 기반 이미지 생성 (앨범 아트, 썸네일)
- **moai-content:blog**: 블로그 글 → 나레이션 스크립트 변환
- **moai-content:copywriting**: 광고 카피 → 광고 보이스 생성

---

## MCP 서버 설정

이 스킬은 **ElevenLabs MCP** (stdio)를 사용합니다.

```json
{
  "elevenlabs": {
    "command": "/bin/bash",
    "args": ["-l", "-c", "exec uvx elevenlabs-mcp"],
    "env": {
      "ELEVENLABS_API_KEY": "${ELEVENLABS_API_KEY}"
    }
  }
}
```

MCP 서버 등록 절차: `moai-media/CONNECTORS.md` 참조.