Building Agents with Amazon Nova Act and MCP - Du'An Lightfoot, Amazon (Full Workshop)

영상 링크: Building Agents with Amazon Nova Act and MCP - Du’An Lightfoot, Amazon (Full Workshop)
채널명: AI Engineer

Amazon Nova Act와 MCP로 에이전트 구축하기 핵심 요약

본 영상은 AWS의 Du’An Lightfoot와 Banjo Bami가 Nova Act, MCP(Modern Context Protocol), strands agent 등 Amazon 생태계의 최신 에이전트 기술을 활용한 실습 워크숍을 진행하는 내용임
AI 에이전트의 기본 구성 원리를 “계획(Plan)”, “행동(Act)”, “추론(Reason)“의 삼각 구조로 설명하고, 이를 실현하는 AWS 에이전트 아키텍처의 세부 컴포넌트(LMM, Knowledge Base, Guardrails, Tool 등)를 상세히 해설
에이전트 구축 방식은 Amazon Q(생산성 에이전트, 콘솔/IDE/CLI 등), Amazon Bedrock(완전관리형), strands agent(오픈소스 DIY)의 3가지 관점으로 제시됨
워크샵은 Nova Act 브라우저 오토메이션 모델 활용 → MCP 서버 통합 → strands agent 프레임워크 적용의 3단계로 구성, 각 모듈별 실제 코드와 실습 예제(상품 검색, 병렬 웹 스크래핑 등) 시연
Nova Act 모델은 자연어 프롬프트 기반의 브라우저 자동 조작이 가능하며, 이전 웹 자동화 도구(Selenium 등)와 달리 HTML 태그나 좌표가 아닌 ‘사용자 수준 맥락’으로 동작하는 것이 강점임
MCP(Modern Context Protocol)를 통해 다양한 클라이언트와 서버(예: Obsidian, 북마크 매니저 등) 간의 에이전트 작업 분산/통합이 가능함을 실제 use-case로 시연
실습 시에는 AWS 계정, Nova Act API Key, VS Code 서버 등이 별도 설치 없이 제공되어, 브라우저에서 즉시 실습할 수 있는 환경 안내
실제 Nova Act 코드를 통해 아마존 상품 검색, 여러 모니터 정보 병렬 수집 등의 자동화 시연, 사용성 및 한계(캡차 차단/인간개입/Human-in-the-loop/인증 등) 상세 논의
strands agent (pip으로 설치 가능한 경량 오픈 소스 프레임워크)는 MCP 서버 연계, 멀티에이전트 워크플로우, 도구 자동 연결 등 최신 AI-에이전트 개발 트렌드를 실제 코드와 함께 보여줌
에이전트의 도구 활용, 난해한 웹사이트 처리, 워크플로우 정의 방법, 멀티에이전트 협업, 최신 LLM의 툴 사용 능력 등 실무적 질문·토론 다수 포함
Amazon Nova Act, MCP, strands agent는 모두 오픈소스/프리뷰로 자유롭게 활용 가능, 공식 깃허브 및 다양한 MCP 서버 레포지토리, AWS 크레딧 제공 설문 등 소개

세부 요약 - 주제별 정리

AWS가 정의하는 에이전트는 ‘계획-행동-추론’의 셋을 반복적으로 실행함을 강조

AI 에이전트는 단순 명령 수행이 아니라 “목표에 따라 계획을 수립(Plan), 다양한 도구로 행동을 실행(Act), 수행 결과에 기반해 스스로 계획을 재설정하며 목표 달성을 반복(Reasong)” 하는 것이 본질임
실제 에이전트 아키텍처는 사용자 입력 → 에이전틱 시스템 → (필요 시) 인간검증 → 응답 생성 구조
LLM, Knowledge Base, Guardrails, Memory 등 핵심 컴포넌트 역할을 설명함
- LLM은 언어 기반 문제해결 담당
- Knowledge Base로 외부 정보 직접 제공 가능, 오류/할루시네이션도 검증(ground) 가능
- Guardrails로 모델 행동을 통제(거짓 정보 차단, 원칙 준수 등)
- 추가 도구/메모리/다른 LLM 호출 등 복잡한 에이전트 흐름 설계 가능
“Continuous evaluation framework”의 중요성을 강조: LLM/프롬프트의 품질·일관성·최적화, 시스템 점수화/평가/개선 등 반복적 개선 필요

AI 에이전트가 기존 If-Then-Else 자동화와 달리 복잡한 상황, 도구, 추론이 필수일 때 효율적임을 실제 예로 설명

한 단계로 끝나는 간단한 로직(If this then that)은 굳이 에이전트화 필요 없음
다양한 도구 활용/복합적인 워크플로우가 필요한 복잡한 업무에 에이전트형 AI의 효용 큼
예) 복수 도구간 연동, 스스로 도구 선택, 결과기반 재계획, 다수 파트 실행 등

Amazon Q, Bedrock 에이전트, strands agent의 활용 방식과 각 장단점을 실제 사례로 비교 제시

Amazon Q : 콘솔/IDE/CLI 등에서 활용 가능한 AI 생산성 도구군, 코딩/문서요약/코드분석/실행 로그 자동화 등 실제 업무 사례 제시
- Q CLI로 비디오 편집, 코드베이스 분석 등 자동화 실제 사용
Bedrock Agents : AWS 내에서 완전관리형 에이전트 구축 플랫폼
- 콘솔 기반 구축, 지식베이스/배드락 모델/가드레일 제공
strands agent : 오픈소스, 경량, DIY(Do It Yourself) 프레임워크, 다양한 외부 모델 연동, 단 50줄 이내 코드로 멀티에이전트 구축 가능
- 프롬프트/LLM/도구(툴)의 3 요소 구조, @tool 데코레이터 활용 신규 툴 손쉬운 추가 가능
- strands 공식 깃허브, 다양한 예시, 코드 일체 공개

Nova Act는 자연어 명령으로 실제 브라우저 상 작업을 자동화하며, 수작업 자동화 대비 월등히 편리함을 강조

Nova Act는 아마존이 제공하는 연구용 브라우저 자동화 LLM
- 자연어로 “아마존에서 커피메이커 검색하고 첫 번째 상품명 반환” 등 지시 가능
- 기존 Selenium, Playwright 등은 태그나 DOM 직접 조작 필요 → Nova Act는 한 줄 지시만으로 실제 사람처럼 행동
실제 실습 코드: Python SDK로 아마존 닷컴 접속 → 커피메이커 검색 → 첫 결과 클릭 및 상품명 추출 실행
프레임버퍼(X11)가상화로 리눅스 환경에서도 GUI 브라우저를 자동 조작
Nova Act의 동작 과정(페이지 이동, 검색, 클릭, 결과 추출 등)을 스크린샷·비디오·로그로 확인 가능

Nova Act의 웹페이지 해석 능력 및 한계(캡차, 인증, 인간개입 등)와 실제 Q&A 사례 상세 공개

Nova Act는 웹페이지의 H1, DIV 등 구조가 아닌 “사용자 맥락”으로 레이아웃 및 입력 필드를 식별함
픽셀 단위로 이해하기에 광고/다운로드 배너/첫 번째 상품 등 실사용 시 요구사항도 자연스럽게 반영
실제 사용자 질문에서 “캡차/인증/2FA/비정상 환경”에 직면시 동작 한계(캡차 통과 불가, 완전 자동 불가 등) 솔직히 공개
브라우저 세션 유지, 사람개입(Human-in-the-loop) 구현 가능성 등까지 면밀히 논의
다중 작업(예: 모니터 정보 여러개 병렬 수집), 병렬 브라우저 세션 제어 코드 등 실습 예시 제공

MCP(Modern Context Protocol)를 통한 에이전트-클라이언트 아키텍처 분산 활용법 및 실제 구성 예시 설명

MCP는 “에이전트 <-> 클라이언트”간 다양한 작업 모듈의 통합/분산/조정 프로토콜
- 예) 개인 Obsidian 문서 서버, 북마크 매니저, Nova Act MCP 서버 등 다양한 목적별 MCP 서버 구축 및 CLI/IDE 통합
Nova Act MCP 서버는 ‘브라우저 오토메이션’을 도구화(세션, 액션, 스크린샷 등), MCP 클라이언트에서 자연어 질의만 하면 자동 코드 생성·실행
다양한 클라이언트(Q CLI, Cursor 등)에서 동일 MCP 서버 활용 가능
실제 예시: Google 검색 → 좌절(캡차), 아마존 커피메이커 자동검색 성공 등 구체적 실패/성공 사례 공유

strands agent와 MCP 서버 연계로 멀티 에이전트, 복합 자동화, 다양한 도구 연결을 최소 코드로 실현함

strands는 pip 한 번에 설치, “Model First” 관점의 초경량 API, @tool만 붙이면 기존 Python 함수도 곧바로 툴 등록 가능
AWS Labs의 공식 MCP 서버 다수(문서검색, 다이어그램, 비용분석 등)을 활용하여, 실제 솔루션 아키텍트 시나리오 “Lambda 문서 검색-아키텍처 다이어그램 생성”을 손쉽게 자동화
한 에이전트에 여러 MCP 서버/도구, 프롬프트, 모델(Bedrock, lightllm, oLama 등 자유) 조합 가능
프롬프트만으로 “문서 찾아서-다이어그램도 그려줘” 등 복합 요청 자동 해결
공식 워크플로우 모드(정해진 순서대로 실행) 및 자유 주행 모드(모델에게 순서 전부 위임) 모두 지원
멀티에이전트 협업(오케스트레이터 + 각 파트별 에이전트), 병렬 처리, 다양한 시스템 프롬프트, 워크플로우 커스터마이징이 코드 예제로 제공됨

에이전트 도구(툴) 확장 및 최신 LLM 모델이 많은 도구를 스스로 효과적으로 조합해 쓰는 현상 소개

@tool 데코레이터로 손쉬운 도구 등록 및 Python 함수 직접 활용
최신 LLM(예: Claude 3.5~4)은 다수의 도구 입력에도 혼란 적고, 병렬 실행/interleaving, 자가 최적화 등 발전된 사용성 시연
워크플로우(정해진 시퀀스), 진단(Reasoning), 멀티툴 파이프라이닝까지 agent framework 없이도 모델 본연의 추론력이 뛰어남

Nova Act/Browsing 관련 실전 질문(실행 환경, 개인정보, 브라우저 플러그인, 인증 등) 및 보안·윤리 논의

Nova Act는 기본적으로 클라우드(AWS)에서 브라우저 조작, Python API 연동, API KEY 발급 필요
임의의 Custom 브라우저, 프로필, 세션(쿠키 등) 활용 가능. 자체 인증/플러그인(LastPass, Google Authenticator 등) 확장도 가능(직접 구현 필요)
Nova Act 실행 시 로컬 스크린샷/로그는 사용자 시스템에 저장, 민감정보는 전송하지 않음(공식 답변)
웹 데이터 업로드 문제, 보안·프라이버시 민감도, Responsible AI 정책 및 악성 활용방지(캡차 우회 불가/기록 관리 등) 명확히 고지

Nova Act, MCP, strands agent의 복잡한 실제 워크플로우 실행 예시 및 엔드-투-엔드 시연

Nova Act: 자연어 한 줄로 브라우저 내 상품 검색, Google Maps 커피숍 찾기, Draw.io 다이어그램 그리기 등의 실전 자동화 시연
MCP 클라이언트: Q, Cursor, Cloud desktop 등 다양한 도구에서 동일 MCP 서버 활용, 자연어로 복잡한 플로우 자동 기획 및 실행 가능
Strands: 아키텍트 에이전트, 비용분석, 다이어그램, 프레젠테이션 자동생성 멀티에이전트(에이전트 오케스트레이션), 정말로 “현실 AWS 업무”에 가까운 완전 실전 예제 단계별 실행
복합 워크플로우 예시: 업계 마이그레이션 시나리오(온프레미스 → AWS로 이전, 비용 분석, 다이어그램, 임원용 파워포인트 자동 생성) 여러 에이전트 협업/병렬/시퀀셜 실행, 최신 정보 검색까지 자동화

오픈소스화, 공식 깃허브/문서/워크샵, AWS 크레딧 제공 설문 등 실질적 실습 리소스 적극 안내

Nova Act 공식 사이트(nova.amazon.com), strands 공식 문서(strandagents.com), AWS Labs MCP 공식 깃허브 등 소스코드 및 문서 링크 안내
워크샵 코드, 실습 자료, 오픈 환경 모두 무료 제공(설치 불필요)
설문 참여 시 AWS 크레딧 지급 등 추가 인센티브 안내

(위 구조에 따라, 영상의 주요 주제·씨퀀스·예시·질문·실습·코드 시연 내용을 중복 없이, 충분히 상세·구체적으로 담았습니다.)