
영상 링크: The 2025 AI Engineering Report — Barr Yaron, Amplify
채널명: AI Engineer
2025년 AI 엔지니어링 보고서 — Barr Yaron, Amplify 핵심 요약
- 이 영상은 2025년 AI 엔지니어링의 현황을 분석한 설문 결과를 AI 엔지니어 커뮤니티에 공유한 발표로, 500명 이상의 관련 업계 종사자가 참여하여 다양한 인사이트를 도출함
- 설문 응답자 다수는 “AI 엔지니어”라는 공식 직함은 소수지만, 실제 일하는 범위는 AI 엔지니어링과 밀접하게 맞닿아 있음
- 2022년 ChatGPT 출시 이후 “AI 엔지니어링”이라는 용어의 검색량이 폭발적으로 증가하며 시장 트렌드가 급격히 바뀌었음
- LLM(대규모 언어모델) 사용자는 내·외부 용도로 모델을 활용하며, 외부 고객용의 절반 이상이 OpenAI 모델을 활용하는 등 활용도가 매우 높음
- 94%의 LLM 사용자들이 두 가지 이상, 82%는 세 가지 이상의 다양한 용도로 LLM을 적용하여, 내부/외부 및 여러 케이스에 동시 활용 중
- 시스템 커스터마이징 수단으로 ‘RAG’ 활용률이 70%로 가장 높으며, 라라(LoRA)·쿼라(QLoRA) 등 파라미터 효율적 미세조정(파인튜닝) 방식도 40% 비중으로 선호됨
- 절반 이상이 매월 모델을 업데이트하고, 프롬프트는 70%가 매월, 10%가 매일 수정할 정도로 빠르게 변화에 대응하고 있음
- 텍스트 기반 모델 사용이 이미지·비디오·오디오 등 다른 멀티모달 유형 대비 크게 앞서 있으며, 오디오 도입 의지가 37%로 가장 높게 나타남
- AI 에이전트(LLM이 핵심 의사결정 및 워크플로 제어)는 도입 초기 단계이나, 80%가 LLM 성과에 만족한다고 답변, 에이전트 확산 가능성 시사
- AI 시스템 모니터링은 표준 관측(60%), 오프라인 평가(50%+) 등 다각적으로 진행되고, 품질 평가는 여전히 ‘인간 검토’가 가장 보편적임
세부 요약 - 주제별 정리
AI 엔지니어의 직함과 경력은 매우 다양하며 커뮤니티 자체가 기술적이고 성장 중임
- 설문에는 500명 이상이 참여했으며, 다양한 직무(소프트웨어 엔지니어, AI 엔지니어, 그 외)가 혼재됨
- 실제 직함 ‘AI 엔지니어’를 가진 이는 극히 적지만, 대부분 유사한 업무를 수행
- 커뮤니티 구성원이 폭넓고, 기술적인 전문성을 갖추고 있음
- 공식적인 직함과 실제 업무의 괴리 현상이 심함
- ‘AI 엔지니어’라는 타이틀은 앞으로 시장에서 더욱 확산될 전망
ChatGPT 출시 이후 ‘AI 엔지니어링’ 트렌드가 폭발적으로 성장함
- 2022년 말까지 ‘AI Engineering’은 거의 검색되지 않다가 ChatGPT 출시 이후 급증
- 구글 트렌드 데이터에서 폭발적 변화 확인
- AI 엔지니어링에 대한 업계 및 개발자들의 관심이 꾸준히 증가 중
경험 많은 개발자조차 AI 분야에는 최근 진입한 비중이 높음
- 10년 이상 경력을 가진 소프트웨어 엔지니어 중 절반 정도가 AI 분야 경험이 3년 이하임
- 전체 응답자의 10%는 AI를 최근 1년 이내 시작
- 빠른 기술 변화 속도 및 커리어 이동성이 반영됨
LLM의 사용 사례는 극도로 다양하며 OpenAI 모델 비중이 매우 높음
- 응답자 과반이 LLM(대규모 언어 모델)을 내부/외부 용도로 동시에 사용하고 있음
- 외부(고객 대상) 사용 모델 Top5 중 3개, Top10 중 5개가 OpenAI 제품
- 주요 LLM 활용 사례: 코드 생성, 코드 인텔리전스, 글쓰기 보조, 콘텐츠 생성 등
- 단일 목적이 아니라 여러 용도(내부 관리, 고객 서비스 등)로 병행 활용되는 경향이 강함
LLM 시스템 커스터마이징에서 RAG가 가장 많으며, 다양한 파인튜닝 기법이 혼용됨
- 인컨텍스트 학습 외에는 RAG(70%) 방식이 가장 보편적으로 쓰임
- 파인튜닝 이용률도 높으며, 연구자·리서치 엔지니어가 파인튜닝을 주도함
- 파라미터 효율적 파인튜닝(LoRA, QLoRA)이 40% 언급
- DPO, 강화학습 기반, 그리고 고전적 감독학습 파인튜닝 등 다양한 기법 존재
- 복수의 파인튜닝 기법을 조합하는 하이브리드 사례도 다수 존재
모델과 프롬프트의 업데이트 빈도가 매우 높아 민첩한 대응이 필수임
- 50% 이상이 매달 모델을 업데이트하며, 17%는 매주 새로운 모델로 갱신
- 프롬프트는 70%가 매월, 10%가 매일 업데이트
- 빠르게 등장하는 신모델과 벤치마크·프롬프트 개선 트렌드에 실시간 대응 필요
- 31%는 별도의 프롬프트 관리 체계를 갖추고 있지 않음
텍스트 외 멀티모달(이미지, 오디오, 비디오) AI 모델 도입은 아직 초기 단계임
- 텍스트 모델 사용이 상대적으로 월등히 높고, 이미지·비디오·오디오 모델은 도입·운영률이 낮음
- “멀티모달 프로덕션 갭”이라 부를 만한 활용도 격차 존재
- 당장 사용하지 않는 이들 중, 향후 오디오 AI 도입 예정 비중이 37%로 가장 높음
- 모델 발전 및 접근성 향상에 따라 멀티모달 모델 채택이 확대될 조짐
AI 에이전트 활용은 극소수지만, 도입 계획이 높은 편이며, ‘성능 만족도’는 LLM이 월등함
- “AI 에이전트”는 LLM이 핵심 의사결정 및 워크플로 제어하는 시스템으로 정의
- 80%는 LLM 기반 작업이 “잘 작동한다”고 평가하지만, 에이전트는 20% 미만만이 동일 응답
- 실제로 에이전트 사용자는 적지만, 대다수가 향후 도입 의향을 표명
- 10% 미만만이 ‘에이전트 도입 계획 없음’으로 응답
- 현재 운영 중인 에이전트의 상당수는 인간 검증(휴먼 인더루프) 아래 ‘라이트 액세스(쓰기·변경 권한)’를 보유한 상태
AI 시스템 모니터링과 품질 평가에서 ‘휴먼 리뷰’와 자체 메트릭이 핵심임
- 60% 이상이 표준 관측 도구로 시스템을 모니터링함
- 50% 초과가 오프라인 평가도 병행
- 모델 정확도·품질 평가는 사용자 데이터 수집, 벤치마크 등 다양한 수단을 동원
- 전체적으로는 ‘휴먼 리뷰(사람이 직접 검증)’가 여전히 중심적 역할
- 모델 사용량 등은 대부분 내부 메트릭에 의존
벡터 데이터베이스 활용이 일반 데이터베이스 대비 분야별로 의미 있는 가치를 제공 중임
- 65%가 별도의 벡터 데이터베이스를 사용해 컨텍스트 정보를 저장·활용 중
- 35%는 자가 호스팅 방식, 30%는 서드파티 외부 서비스를 주로 이용
- 활용사례 다변화에 따라 전용 벡터DB 도입이 지속적으로 증가할 것으로 보임
AI에 대한 사회·윤리적 의견, 미래 예측 및 고충, 그리고 인기 정보원 현황
- AI 에이전트가 ‘스스로 AI임을 명확히 밝혀야 한다’는 의견이 대다수
- 추론 지연(레이터시), 인공지능 커뮤니케이션 관련 유머도 언급(“레드로 남겨졌나, 딜레이인가” 등)
- 2030년에도 트랜스포머 계열 모델(Attention Mechanism)이 주류일 것이란 전망이 우세
- 오픈소스와 클로즈소스 모델의 경계가 점차 모호해질 것이라는 인식도 공유
- 미국 Z세대의 약 26%가 AI 연애상대(girlfriend/boyfriend)를 가질 것이란 평균 예상치
- AI 엔지니어링에서 가장 고통스러운 부분으로 ‘평가(evaluation)의 어려움’이 1위로 꼽힘
- 업계 참가자들이 자주 듣고 학습에 활용하는 상위 10개 팟캐스트와 뉴스레터 목록도 공개
- 예) Swix의 Latent Space가 뉴스레터와 팟캐스트 모두에서 상위권에 랭크됨