
영상 링크: Useful General Intelligence — Danielle Perszyk, Amazon AGI
채널명: AI Engineer
유용한 범용 인공지능 – Amazon AGI의 Danielle Perszyk 핵심 요약
- Amazon AGI SF 랩의 인지과학자인 Danielle Perszyk이 인간과 AI 에이전트가 어떻게 ‘공진화’할 수 있는지, 그리고 그 과정에서 신뢰성과 정렬성(alignement)이 어떻게 확보될 수 있는지에 대해 논의함
- 현재의 AI는 ‘환각(hallucination)’ 현상을 보이지만, 이는 인간 두뇌처럼 데이터를 넘어서 예측하고 사고하는 유연성의 핵심적 부작용임
- AGI의 전통적 비전은 인간을 대체·복제하는 ‘생각하는 기계’ 개발이었으나, Danielle은 인간을 증강시키고 협력하는 AI의 개발을 지향함
- ‘Nova Act’는 아마존의 최신 에이전트로, 시각적 UI 기반의 웹사이트까지 브라우저 인터페이스를 에이전트가 직접 제어할 수 있음
- Nova Act의 핵심은 인간과 컴퓨터의 상호작용 단위를 ‘액트 콜(act call)’로 정립하고, 이를 통해 복잡한 업무 자동화·보조가 간단해짐
- Nova Act의 데모에서는 아파트 검색 및 파이썬 연동을 보여주며, 병렬화, 데이터 추출 및 가공이 손쉽게 이루어짐
- 인간이 인류 역사 속에서 ‘사고의 도구(언어, 사회적 인지)’를 진화시켜왔듯, AGI는 인간-에이전트 간 상호작용 데이터와 집단적 환경을 바탕으로 발전해야 함을 강조
- 현재 많은 에이전트는 LLM 기반의 읽기 전용 도우미에 그치지만, Nova Act는 UI와 상호작용하는 ‘구현화(embodiment)’ 기초를 마련 중
- Danielle은 AGI 개발의 핵심은 ‘개별 모델의 지능’이 아니라, 사람과 에이전트의 ‘상호작용’에서 파생되는 집단적, 분산적 지능이라고 주장
- 유용한 범용 인공지능을 만들려면 에이전트가 인간의 ‘마음의 모델(model of minds)’과 환경에 대한 공유 모델을 발달시켜야 하며, 이를 위해 양방향, 직관적 상호작용을 지원해야 함
세부 요약 - 주제별 정리
인간과 AI는 신뢰성과 ‘공진화’로 함께 발전해야 함
- Danielle Perszyk는 Amazon AGI SF 랩의 인지과학자로, 이 발표는 기존의 ‘에이전트 제작 및 확장’ 중심과 다르게 인간과 AI의 공동 발전(공진화)에 초점을 맞춤
- 인간의 두뇌 자체가 ‘통제된 환각(Controlled Hallucination)’이라는 뉴로사이언스 개념을 인용하며, 예측·오류 수용·감각 정보의 통합만으로 현실을 해석한다고 설명
- 인간 두뇌의 신뢰성은 환각을 잘 통제하는 데서, 그리고 타인과의 언어/의사소통에서 기인
- 인간 역시 서로의 인식(환각)에 영향을 주며, AGI도 이에 착안해 신뢰성과 정렬성을 의식적으로 설계해야 함을 제안
AGI의 전통적 목표는 인간을 복제하는 것이었으나, 지금은 인간 증강이 중요함
- 1956년 다트머스 회의에서 시작된 AI 연구는 ‘생각하는 기계’를 개발해 인간 지능 문제를 푸는 데 초점을 뒀음
- 이후 컴퓨터, 인터넷, 기계학습 발전이 이어졌고, 오늘날에는 ‘Artificial General Intelligence(범용인공지능)’이라는 이름으로 이러한 목표가 이어져옴
- 하지만 AGI 논의는 기술 자체의 발전, 즉 ‘스마트해지는 AI’에 집중해왔다고 지적
- 역사적으로 더 의미 있는 접근은 Douglas Engelbart가 주장한 ‘인간 사고의 증강’, 즉 컴퓨터가 인간을 더 똑똑하게 만드는 도구임
- 이로 인해 인간은 계산·기억·사고를 점차 기계에 오프로딩(offloading)하며, 디지털 환경을 통한 집단적 인지(technosocial co-evolution)가 이루어짐
AGI 및 자동화는 인간의 ‘Agency(행위 주체성)’를 증대할 수도, 축소할 수도 있음
- 유용성은 물리적/인지적 작업을 단순화하거나 인간의 레버리지를 넓혀주는 두 방식에서 발현됨
- 자동화는 인간 주의력의 해방, 전문성 증대의 핵심이나, 잘못 설계된 자동화는 생각의 중단, 에코 챔버, 무의미한 ‘스크롤링’ 등 인간의 행동력 상실을 동반
- 만약 AI 시스템 제어권과 맞춤화가 인간에게 집중된다면, 자동화는 오히려 인간의 주체성(agency) 증폭으로 연결 가능
Amazon AGI의 비전은 ‘사람을 더 똑똑하게 만드는 에이전트’임
- AGI를 ‘스마트해지는 AI를 만드는 것’ 대신, ‘인간을 더 스마트하게 해주는 AI’를 만드는 방향으로 전환
- 특히 개발 초기에는 “모델과 개발자 모두의 현재 상태에서 출발해야 한다(met them where they are)”고 주장
- Nova Act 프로젝트의 초점은 API 인프라가 없는 UI 환경까지 직접 브라우저 상에서 인터페이스를 제어하도록 만드는 것
- UI 사용이 가능한 특화 모델 Nova와 SDK를 결합해, act call(행동 단위 호출)로 자연어 명령을 바로 화면상의 액션으로 전달
Nova Act 데모는 UI 제어·파이썬 연동·병렬화까지 손쉽게 구현함을 시연함
- 시연에서는 2베드룸 1욕실 아파트를 Redwood City에서 검색하는 과정을 act call로 지시
- 각 단계별 결과에 따라 다음 행동을 계획적으로 결정하는 방식으로, UI 상에서 직접 렌트 리스트를 추출
- 파이썬 연동 예시(Pyantic 클래스 정의, JSON 추출, Google Maps 연동 등)에서는 각 주소별로 병렬화(thread pool), 결과를 Pandas로 정리·정렬까지 3~5줄 내에 구현 가능
- 데모 스크립트는 GitHub 샘플 폴더에 공개되어 모든 개발자가 쉽게 시작할 수 있음
- Nova Act는 모델의 안정성과 기능 개선을 주기적으로 자동 배포함
UI 상징(아이콘)의 해석 등 ‘컴퓨터 사용’ 자체도 AI에 매우 복잡한 문제임
- 사람은 처음 보는 아이콘도 맥락상 쉽게 해석하지만, 인공지능이 이처럼 다양한 UI/아이콘을 모두 ‘학습’하는 것은 불가능에 가까움
- 에이전트가 RL(강화학습)로 다양한 UI 상호작용을 스스로 학습/탐색하도록 설계함
- 추후 인간-에이전트의 인터페이스 방식이 다르게 진화할 경우, ‘디지털 환경에 대한 인식’의 일치성(alignement)이 매우 중요해짐
기존의 에이전트와 달리 Nova Act는 ‘구현화(embodiment)’와 세밀한 통제에 주목함
- 일반적인 에이전트는 LLM 기반의 툴 호출 및 코드 실행에 그치고, 환경(화면 상의 실제 상호작용)에 ‘정착(grounding)’되어 있지 않음
- 반면 Nova Act는 화면(UI) 상의 실제 상호작용 및 픽셀 단위 인식까지 수행해, 일종의 구현화된 에이전트로 기능
- 핵심은 ‘상호작용의 최소 단위’를 신뢰성 있게 확보하고, 개발자에게 세밀한 제어권을 제공하는 것임
- 여러 액션을 조합해 높은 복잡도의 워크플로우를 만들어내는 방식은 언어의 조합과 유사
범용 AI의 진화는 다양한 집단과의 상호작용 데이터 축적에서 출발해야 함
- 인간의 지능 진화도 개별 뇌들의 연결/네트워크화(약 600만 년 전 시작)와 집단적 인지 구조 발전의 역사에서 비롯됨
- ‘사고의 도구’(언어, 사회적 인지)는 집단 내에서 소통 및 표상(structural alignment)의 정합성이 중요
- Engelbart는 ‘사고 증강’의 역사 자체가 인류의 진화와 맥락을 같이 한다고 언급
- 진정한 지능의 확장은 개별 인간이나 개별 모델이 아닌, 상호작용 네트워크(집단의 흐름)에서 나타남
언어는 ‘마음의 모델링’을 가능하게 만든 인류 지능 진화의 원동력이었음
- 진화적 적응으로서의 언어는 ‘타인의 마음 존재’와 그 모델링 능력을 발전시켰고, 이를 통해 표상적 정렬능력이 향상
- ‘일반화’의 본질은 마음의 모델(타인의 의도, 인지 구조 등)을 언어로 교환하고 재현하는 능력에서 출발
- 인간 언어는 실시간 의미 협상, 맥락 정렬 등 프로그래밍 언어 등과는 근본적으로 다름
- LLM조차 ‘언어의 의미’가 마음 속에 있음을 이해하지 못하며, 진정한 의미 이해는 아직 불가하다고 지적
‘사고의 도구(언어, 컴퓨터, AI)’는 공진화적 발전을 통해 인류 지능을 끊임없이 증강시켜왔음
- 언어 이후, ‘인지적 기술(cognitive technology)’로서 문자, 컴퓨터, 인터넷, AI 등 각 단계가 지난 단계 위에 쌓이며 인간의 추상적 사고를 촉진
- Engelbart 이후, 컴퓨터 인터페이스 혁신(마우스, GUI)은 많은 사람이 도구를 활용하게 만드는 데 핵심 역할
- 반면 현대에는 정보 접근이 쉬워졌으나, 오히려 컴퓨터/디지털 환경에서 ‘산만함’과 ‘집중력 약화’라는 부작용도 함께 발생
- 지능형 에이전트는 반복 업무 자동화, 인간의 기술 공유, 집단적 무의식(collective subconscious)의 구현 등 여러 가능성을 품음
진정으로 신뢰가능한 에이전트는 ‘인간의 모델’을 내재하고, 환경과 상호정렬되어야 탄생함
- 신뢰성은 단순 반복 자동화(클릭, 타이핑 등)에서 그치지 않고, 인간의 궁극적 목표와 맥락까지 이해하는 데서 완성됨
- ‘마음의 모델(model of minds)’을 내재할 수 있는 에이전트가 궁극적 지향점
- 이를 바로 만드는 것은 불가능하므로, 인간과 에이전트가 직관적으로 상호작용할 수 있는 환경 및 공유 인터페이스 마련이 먼저임
- 더 똑똑한 제품 → 더 많은 사용 → 더 많은 상호작용 데이터 → 더 똑똑한 에이전트 순환구조를 통해 집단적 범용 지능이 탄생할 수 있음