[Full Workshop] Building Conversational AI Agents - Thor Schaeff, ElevenLabs

영상 링크: [Full Workshop] Building Conversational AI Agents - Thor Schaeff, ElevenLabs
채널명: AI Engineer

대화형 AI 에이전트 구축 워크숍: 11랩스 활용법 핵심 요약

이 워크숍은 11랩스(11 Labs)에서 제공하는 다국어 대화형 AI 에이전트 구축 방법과 도구를 개발자 중심으로 상세히 설명함
주요 워크플로우는 음성 → 텍스트(ASR) → LLM(대형 언어모델) → 텍스트 → 음성 변환(TTS) 단계로 이루어짐
11랩스는 자체적으로 LLM(지능 모델)은 제공하지 않고, OpenAI GPT-4o, Google Gemini 등 외부 LLM을 연동
99개 언어를 지원하는 최첨단 음성 인식(ASR) 모델을 제공하며, 화자 분리, 단어별 타임스탬프, 오디오 이벤트 태그 기능 탑재
5,000개 이상의 다양한 언어·악센트의 음성(TTS) 라이브러리와 퍼블릭 마켓플레이스 운영, 음성 제공자는 로열티 수익 획득 가능
에이전트별로 언어와 목소리를 세밀하게 지정하고, 대시보드 및 API, 다양한 SDK(자바스크립트, 파이썬 등)로 앱에 통합 가능
랭귀지 디텍션·자동 스위칭, 함수 호출(웹훅 연동) 등 다양한 시스템 도구와 기능 사용 가능
실시간·저지연·멀티에이전트 구성 방법, 대형 지식베이스 연동(RAG), 엔터프라이즈 환경에서의 대화 지연 극복법 등 심층 질의응답 포함
악의적(사기 등) 남용 방지를 위한 실시간 모니터링, 워터마킹, 라이브 보이스 검수 등 다중 안전장치 개발 현황 소개

세부 요약 - 주제별 정리

11랩스와 워크숍 소개, 참여자 안내 및 지원 프로그램

11랩스는 대화형 AI, 음성합성 및 개발자 경험에 특화된 플랫폼임을 알림
개발자 경험 담당 Thor Schaeff와 동료가 진행, 문서화, 피드백 채널 독려
슬라이드 및 안내 자료 QR코드 공유, 참가자 이메일 기입 시 3개월 체험 크레딧 지급 안내
API 버전/클라이언트 업데이트 등은 X(Twitter) 계정(11 Labs Devs) 팔로우 권장
참가자 다국어 언어 수요(포르투갈어, 스페인어, 헝가리어, 중국어, 힌디어, 타밀어 등) 파악
유머러스하게 AI가 생성하는 ‘개 짖는 소리’ 등 사운드 이펙트 모델, 드럼머신 데모도 공유

실제 대화형 AI 에이전트 전체 파이프라인 구조와 11랩스의 역할 설명

사용자 음성을 텍스트화(ASR), 텍스트를 대형 언어 모델로 처리하여 응답 생성, 응답을 음성으로 변환하는 구조
LLM(지능)은 11랩스가 직접 제공하지 않고, GPT-4o, Gemini 등 외부 연동 혹은 자체 튜닝 모델(OA API 호환) 가능
음성 → 텍스트 → 언어모델 → 텍스트 → 음성의 표준 파이프라인을 선호, 텍스트 기반 중간 처리가 모니터링 및 통제가 유리
실시간성 극대화를 위해 모델들이 물리적으로 가까이 배치되어 레이턴시를 최소화

99개 언어 지원 ASR(음성 인식) 모델 상세 소개 및 실제 활용 데모

2024년 최신 런칭된 ASR 모델은 99개 언어 지원, 속도·정확도 업계 선도
기능: 화자 분리, 단어별 타임스탬프, cough/laugh 등 오디오 태깅, API 구조화 데이터 반환
Telegram 봇 데모: 음성 메시지나 비디오를 포워딩하면 자동으로 언어 감지 후 텍스트 변환·전달
싱가포르 영어, 스코틀랜드 영어 등 다양한 억양 및 발음 케이스에도 높은 인식률 시연
현장 녹음 음성 메시지, 잡음 있는 오디오, 방글라데시 이슈 관련 영어 등 다양한 사례 실시간 변환 시연

대형 언어모델(LLM) 연동 구조와 커스텀 LLM, 스트리밍 응답 처리

지능/대화는 OpenAI GPT-4o, Google Gemini 등에서 담당, 커스텀 튜닝 LLM도 OA API 호환이면 통합 가능
LLM의 응답이 스트리밍되면 바로 음성합성하고, 대화의 흐름과 즉각성을 유지
높은 호환성과 자유로운 인프라 구성 지원

5,000+종 음성(TTS) 라이브러리, 음성 마켓플레이스 및 음성 할당 세부 방법

11랩스 내 5,000개 이상 다양한 목소리 선택 가능(언어, 악센트, 성별, 연령 메타 태그)
사용자는 직접 자신의 목소리를 클론, 퍼블릭 마켓플레이스 게재, 사용될 때마다 로열티 지급
$500만 이상이 누적 지급되었으며, 지역·악센트별 특화 음성(브라질 포르투갈어, 체나이 타밀어 등) 손쉽게 지정 가능
실제 예시: “German engineer” 등 개인 게시 음성 시연, 각 언어별 세밀한 목소리 할당법 및 대시보드 사용법 설명

에이전트 설정 예시: 싱가포르 4개 공식 언어 대화형 에이전트 구성

싱가포르 공식 4개 언어(영어, 표준중국어, 말레이어, 타밀어) 및 일본어, 힌디어 등 다양한 언어 참조
31개 언어 지원 중, 차기 V3 모델에서 99개로 확대 예정
대화형 AI 에이전트 대시보드 내에서 LLM, 지식베이스(문서, 웹사이트), RAG, 함수 및 시스템 도구(언어 감지 등) 연동 가능
랭귀지 디텍션 시스템 툴을 활성화하여 다국어 자동 감지/스위칭, 프롬프트에 따른 커스텀 가능
실제 시연: 영어로 질문, “힌디어로 전환” 요청, 중국어 발음 등 다양한 언어 처리 과정 직접 데모

다양한 앱·환경에서의 활용 예시와 개발 방법 안내

대시보드 UI 내 설정뿐 아니라, API로 세밀한 요소까지 구성 가능
JS SDK, 파이썬 SDK, Next.js/파이썬 샘플 등 제공, 하드웨어(예: Raspberry Pi) 연동 예시
마켓플레이스 구축시 에이전트 대량·자동 설정을 위한 API/MCP 서버, 자연어 기반 에이전트 생성 명령 가능

세부 질의응답: 언어 감지 프로세스, 멀티언어 스위칭, 함수 호출 등 심층 해설

각 언어별 별도 TTS를 지정 가능, 음성 인식(ASR)이 확률 기반으로 언어 판별 후 해당 언어 TTS로 응답
시스템 도구(언어 감지)는 ASR 결과의 신뢰도 점수로 스위칭, 목소리는 언어별 직접 할당
함수 호출(웹훅 등): 서버사이드 도구(예: CRM, cal.com API)와 연동해 일정 조회·등록 등 수행 가능
다양한 LLM(Flash/Flashlight 등)과 발화모델 활용, 가격과 레이턴시 고려하여 선택 가이드

저지연성(낮은 레이턴시) 달성, 복수 에이전트·오케스트레이션 관리 팁

저지연 대화형(콜센터/전화) 에이전트 구현 시, LLM 및 음성모델 크기·위치 최적화, Flash류 모델 사용 추천
장시간 상호작용(예: 요리 동반 AI) 땐 비용 부담 있음, 별도 세일즈팀 통한 커스텀 가격상담 가능
멀티 에이전트 구성: 각각의 태스크별 별도 에이전트와 LLM을 설정, 라우팅 시스템 도구로 사용자가 인지 못한 채 투명하게 전환
툴/지식베이스 연동 시 반응 시간, 타임아웃(최대 120초), 대기 메시지 등 자연스러운 대화 흐름 유지 방법 안내
장기/비동기 작업, 웹소켓 통한 실시간 정보 주입 가능 여부 등 추가 해설

멀티언어 혼합 입력/출력 지원, 언어 학습 등 특수케이스 및 한계

한 입력 내 언어 혼합(코드스위칭)시, 두개까지는 감지/인식률 양호하나, 3개 이상 동시 사용 시 성능 저하 경향
언어 교차 발음·정확도 문제, 음성과 텍스트 경로간 한계, 언어교육 등 특수 용도 상담 사례 언급(Supernova)
LLM 프롬프트 조정 등의 개선 가능성 언급, 오픈AI 실시간(음성→음성) 방식은 보다 나은 성능일 수도 있음을 논의

악용(사기 등) 방지 위한 실시간 안전장치·정책 소개

11랩스는 https://11labs.io/safety 등에서 다양한 실시간 모더레이션 도구 개발 및 안내
보이스 라이브러리 공개시 금칙어/표현 지정, 라이브 모더레이션 가동
생성된 모든 음성에 워터마킹 부여, 계정별로 트레이싱 가능, 악용/사기 시 계정 정지 및 당국 통보 가능
프로페셔널 보이스 클론 시, 임의 문장 읽기를 강제해 본인 인증 절차 적용

음성·입력 커스터마이즈(발음 사전 등) 및 특수 기업 환경의 요구 반영

TTS(텍스트→음성)시 발음 사전(프네틱 알파벳) 제공하여 약어/고유어 등 사용자 개별 발음 지정 가능
STT(음성→텍스트)는 특정 약어/고유어 변환 튜닝 기능은 현재 미지원, LLM 프롬프트 등 우회적 방법 안내
실제 SAP 등 현업 기업 사례와 3자 특수 약어 사용 등 맞춤 사례 논의

엔터프라이즈, 어바타 활용, 외부 제품과의 통합 질문 사례

Nvidia Tokkio(토키오) 등 외부 플랫폼 내 11랩스 TTS 활용 가능성, 애니메이션/립싱크 등 추가 스택 통합 여부 질의
11랩스는 외부 파트너(헤드라, 헤이젠 등)와 아바타 영역에서 협업 중이며, 직접 솔루션 제공은 미정
구체적 파이프라인과 추가 기술 협력 여부는 추후 안내

마무리 및 추가 자료/질문 안내

참가자 대시보드→대화형 AI→에이전트 생성 후 다양한 언어·음성·기능 직접 실습 권장
실시간 질의응답 이후에도 부스 및 이메일 소통 안내, 공식 문서(도큐먼트) 및 다양한 예제 적극 활용 권장
크레딧 링크, 지원 문의, 기타 안내로 마무리