ChatGPT와 브루로 10분 만에 롱폼 영상 만들기

브루(Vrew)와 AI 도구를 활용해 유튜브 롱폼 영상을 편집하며 대본 메모를 참고하는 크리에이터의 홈오피스 모습 — ※ 이해를 돕기 위한 연출 이미지이며, 실제와 다를 수 있습니다.

브루라는 프로그램을 처음 써봤을 때 텍스트만 넣으면 배경 이미지와 음성이 자동으로 붙는 구조가 신기했습니다. 하지만 실제로 수익이 나는 영상을 만들려면 AI가 생성한 결과물을 그대로 쓸 수 없다는 걸 곧 깨달았습니다. 브루를 활용한 롱폼 영상 제작의 실제 과정과 한계를 정리해 봤습니다.

단계	도구	시간	내용
기획 및 대본	GPT, Claude	1.5~2시간	시나리오 및 감성 문제 교정
영상 생성	브루 (Vrew)	30분	대본 입력 및 기본 이미지 자동 매칭
정밀 편집	Pexels 등	1~2시간	핵심 장면 교체, 자막 위치 조정
썸네일	미리캔버스	30분	CTR 중심 디자인 조합

위 과정을 보면 자동화 비중이 높아 보이지만, 실제로는 대본 수정과 장면 교체 같은 수작업 비중이 상당해 전체 작업 시간의 절반 이상을 차지합니다.

■ ChatGPT와 Claude로 대본 작성 과정 (자동화의 실제 한계)

AI 도구를 여러 개 거치는 방식이 복잡해 보일 수 있는데, 실제로는 각 도구의 역할이 명확합니다. 먼저 ChatGPT에서 영상의 전체 시나리오를 요청합니다. 주제를 던지면 GPT는 대략적인 스토리 구조를 짜줍니다. 여기서 나온 내용을 바탕으로 인물 설정과 배경 상황을 정리한 뒤, Claude에 넘겨서 최종 대본을 작성하는 방식입니다.

여기서 프롬프트 엔지니어링(Prompt Engineering)이 중요합니다. 프롬프트 엔지니어링이란 AI에게 명령을 내릴 때 원하는 결과를 정확히 얻기 위해 질문이나 지시를 구조화하는 기술입니다. 단순히 대본 써줘라고 하면 AI는 뻔한 내용을 내놓지만, 총 4,000자 분량으로, 1부와 2부로 나눠서, 뉴스 보도 톤으로 작성해 줘라고 구체적으로 요청하면 훨씬 정교한 결과물이 나옵니다.

저도 처음에는 AI가 써준 대본을 그대로 브루에 넣었는데 문제가 많았습니다. 문장이 너무 건조하고 감정선이 없어서 시청자가 몰입하기 어려웠습니다. 결국 대본을 한 문장씩 읽어보면서 어색한 부분을 수정하는 작업이 필요했습니다. 시청자의 주의를 끌어당겨 영상을 계속 보게 만드는 후킹(Hooking) 요소를 강화하는 작업인데, 이 과정에 보통 한 시간 정도 투입했습니다. 이 시간을 아끼면 영상 퀄리티가 확 떨어집니다.

[AI 대본 작성 흐름]

ChatGPT: 전체 시나리오 및 스토리 구조 초안
Claude: 감정선과 문체를 살린 최종 대본 작성
직접 수정: 어색한 문장 제거, 후킹 요소 강화 (약 1시간)
총 대본 완성까지: 약 1시간 30분~2시간

■ 브루가 생성하는 AI 이미지, 그대로 써도 될까

브루에 대본을 넣으면 AI가 자동으로 배경 이미지와 영상을 붙여줍니다. 문제는 이 이미지들이 내용과 맞지 않는 경우가 많다는 점입니다. 제가 직접 써봤을 때 도쿄 이야기를 하는데 화면에는 뉴욕 야경이 나오는 식이었습니다. 이런 장면이 몇 초만 나와도 시청자는 위화감을 느끼고 이탈합니다.

중요한 장면에는 직접 소스를 찾아서 교체하는 작업이 필수입니다. 팩셀(Pexels)이나 픽사베이(Pixabay) 같은 무료 이미지·영상 사이트를 활용하면 저작권 문제없이 사용할 수 있습니다. 저는 보통 오프닝이나 클라이맥스 장면에만 직접 찾은 영상을 넣고, 나머지는 브루가 생성한 이미지를 씁니다. 모든 장면을 일일이 교체하면 시간이 너무 오래 걸리기 때문입니다.

자막 위치도 중요합니다. 브루 기본 설정으로 자막을 화면 맨 아래에 배치하면 두 줄일 때와 한 줄일 때 위치가 달라져서 보기 불편합니다. 서식 위치를 230 정도로 고정하면 자막이 항상 일정한 높이에 표시돼서 시청 경험이 훨씬 부드러워집니다. 이런 디테일이 시청 지속 시간을 좌우합니다.

[이미지 소싱 및 편집 체크리스트]

핵심 장면(오프닝·클라이맥스)은 직접 무료 소스로 교체
Pexels, Pixabay 등 저작권 무료 사이트 활용
자막 서식 위치 230으로 고정해 시청 편의성 확보
내용과 맞지 않는 AI 생성 이미지 반드시 교체

■ 썸네일과 제목, 조회수를 결정하는 공식

썸네일은 조회수를 결정하는 가장 중요한 요소입니다. CTR(Click-Through Rate)이란 썸네일이 노출됐을 때 실제로 클릭한 비율을 의미하는데, 같은 내용이어도 썸네일에 따라 CTR이 두 배 이상 차이 나는 경우가 많습니다.

저도 처음에는 예쁘게 디자인하려고 했는데, 실제로 조회수가 잘 나온 영상들을 분석해 보니 눈에 띄는 구성이 공통적으로 사용됐습니다. 미리캔버스 같은 무료 툴로 충분히 만들 수 있으며, 썸네일에 들어갈 인물 사진은 정면을 응시하는 것이 시선을 끄는 데 유리합니다. 구글 이미지 검색보다는 무료 이미지 사이트나 AI 생성 이미지를 쓰는 게 저작권 측면에서 안전합니다.

썸네일 문구는 ChatGPT에게 여러 옵션을 요청한 뒤 궁금증을 유발하는 문구를 선택합니다. 다만 과도하게 낚시성 문구를 쓰면 시청 지속 시간이 떨어지고 알고리즘 평가가 나빠지므로, 내용과 완전히 동떨어진 문구는 피해야 합니다.

■ 브루 영상 제작, 현실적인 한계

브루를 쓴다고 해서 누구나 바로 높은 수익을 낼 수 있는 건 아닙니다. 영상 제작 방식 자체가 수익을 보장하는 구조는 아니며, 결과는 콘텐츠 완성도와 채널 운영 방식에 따라 크게 달라질 수 있습니다. 도구는 시작점일 뿐이고, 실제 수익을 결정하는 건 얼마나 정성을 쏟느냐입니다. 대본을 한 문장씩 수정하고, 어색한 이미지를 직접 찾아 교체하고, 썸네일을 조회수 잘 나온 영상들과 비교하며 개선하는 과정이 모두 필요합니다.

콘텐츠 방향성도 신중하게 고민해야 합니다. 자극적인 감정 소구 콘텐츠는 단기 조회수에는 유리할 수 있지만, 장기적으로는 채널 신뢰도를 낮추고 알고리즘 평가에도 부정적인 영향을 줄 수 있습니다. 정보성이나 교육성 있는 주제로 방향을 잡는 게 장기적으로 더 안정적인 채널을 만드는 길입니다.

저작권 문제도 철저히 확인해야 합니다. 일반 검색 결과에서 바로 다운로드한 이미지나 영상은 저작권 위반이 될 수 있습니다. 반드시 크리에이티브 커먼즈(Creative Commons) 또는 상업적 이용이 허용된 무료 소스만 사용하는 것을 원칙으로 삼아야 합니다.
2026년 현재 유튜브는 'AI 생성 콘텐츠 표시 의무'를 매우 엄격하게 적용하고 있습니다. 브루(Vrew)나 ChatGPT를 활용해 실사처럼 보이는 가상 영상을 제작했다면, 업로드 시 동영상 설정에서 반드시 '변형되었거나 합성된 콘텐츠'임을 표시해야 합니다. 이를 누락할 경우 수익 창출 정지는 물론, 알고리즘 노출에서 큰 불이익을 받을 수 있으니 운영 시 필수적으로 체크해야 합니다.

■ 브루 영상 제작 전 최종 체크리스트 (실전 기준)

AI 대본을 그대로 사용하지 않고 직접 수정했는가
핵심 장면에 적절한 이미지/영상으로 교체했는가
자막 위치와 가독성을 실제 시청 기준으로 점검했는가
썸네일과 제목이 영상 내용과 일치하는가

■ 결론

브루를 활용한 롱폼 영상 제작 방식 자체는 충분히 참고할 만합니다. 다만 AI 도구는 효율을 높여주는 수단일 뿐, 결국 중요한 건 어떤 가치를 전달할 것인가에 대한 고민과 그 과정에서의 정성입니다.
즉, 브루 기반 영상 제작은 자동화로 시작하지만 결국 수작업 완성도가 성과를 좌우하는 구조라고 볼 수 있습니다.

[핵심 요약]

대본: ChatGPT 초안 → Claude 다듬기 → 직접 수정 (총 1.5~2시간)
이미지: 핵심 장면은 Pexels·Pixabay 무료 소스로 직접 교체
자막 위치 서식 230으로 고정 → 시청 편의성 향상
썸네일은 눈에 띄는 구성 + 궁금증 유발 문구 조합
자극적 콘텐츠보다 정보성 주제가 장기적으로 안정적

※ 이 글은 특정 제작 방식을 권장하기보다는 실제 경험을 바탕으로 장단점을 정리한 정보성 기록입니다.

정보 내비게이션