[AI] 나노바나나, 나도 써봤다!

✍🏻 나노바나나란?

나노 바나나는 사실 코드명이고, 정식적으로는 구글이 제공하는 '생성형 이미지 모델' 라인업의 이름이다. 정확한 명칭은 Gemini 2.5 Flash Image 모델이라고 볼 수 있다.

이 모델의 핵심은 단순히 이미지를 생성하는 것을 넘어서 네이티브 멀티모달 아키텍처를 가지고 있다는 점이다.

텍스트와 이미지를 하나의 통합된 단계에서 처리하도록 처음부터 훈련되어있다.

👩🏻‍💻 원리를 조오금 뜯어보자

✔️✍🏻 기존에는 텍스트와 이미지, 참고 이미지를 각각 따로 이해해서 맨 마지막에만 대충 섞는 Late fusion 구조였기 때문에
'이 사람을 이 배경에 자연스럽게 넣어줘' 라는 복잡한 요구를 토큰 단위에서 충분하게 이해하기 어려웠으나,

나노바나나는 텍스트와 여러 장의 이미지를 처음부터 하나의 토큰 시퀀스로 만들어 한 Transformer 안에서 끝까지 같이 돌리는 early fusion 네이티브 멀티모달 아키텍쳐를 사용하기 때문에 그럴듯한 편집을 '한번에' 할 수 있게 되었다!!!

즉 조금 더 쉽게 말하면
기존에는 이미지를 잘~ 생성하는 모델과 이미지를 편집!하는 모델이 따로 있었으나,
생성하는 모델은 예쁜 이미지를 만들 수는 있었으나 실제로 활용하기는 어려웠고, 편집 모델은 이미지를 수정할 수는 있었으나 제한적이었다. 하지만 나노바나나는 이 두가지 기능을 융합했고 제미나이 모델의 기본 지능까지 결합했기 때문에
더욱 완벽한 이미지 생성 및 편집이 가능한 것!

기존 이미지 생성/편집 모델 (예: 초기 Imagen 계열, Stable Diffusion 기반 편집기 등)은 대체로 late fusion 계열로 구분한다.

텍스트 인코더와 이미지 인코더를 통해,

텍스트는 텍스트대로, 이미지는 이미지대로 몇 층을 타며 고차원 feature로 변환되고,

마지막에 diffusion UNet안에서 벡터로 합치거나 두 이미지의 최종 latent를 섞어버리는 식이었다.

이 설계의 문제점은 각 모달리티가 따로 놀다가 거의 끝에서만 만나기 때문에

“1번 사진의 인물을 2번 사진 거실에 앉히고, 조명은 2번 사진 기준으로 맞추고, 얼굴은 1번 사진이랑 완전히 동일하게” 같은 복잡한 요구를 이해해도,
실제 네트워크 안에서는 “누가 누구인지, 조명과 구도가 각 이미지 안에서 어떻게 배치돼 있는지”를
토큰 수준에서 서로 맞물리게 학습할 기회가 적게 된다!!!

결과적으로......

캐릭터 일관성 유지 실패
“첫 번째 사진의 조명 스타일을 유지한 채 두 번째 사진의 구도에 맞춰줘” 같은 미묘한 컨텍스트 이해 미흡
여러 장의 이미지를 섞을수록 이상한 콜라주 느낌, 어색한 경계, 그림자/원근 오류

같은 한계를 많이 보였고,

실제로 나노바나나 개발자도 “이전에는 생성 모델과 편집 모델이 따로라 실사용하기 애매했다”고 말했다!

✏️ 그렇다면....나노바나나는?

토큰 단계에서부터 한 세계로 만들게 된다.

나노바나나가 하는 건 한 줄로 요약하면 “텍스트와 여러 장의 이미지를 전부 같은 토큰 시퀀스로 만든 뒤,

하나의 거대한 Transformer 안에서 처음부터 끝까지 같이 돌린다”

모든 텍스트 입력을 토큰으로 쪼갠 뒤,

각 이미지는 Vision Transformer 스타일로 패치 단위(예: 16×16 픽셀)로 나눠서

discrete image token 혹은 patch embedding으로 바꾼다

(복잡한 말이지만 쉽게 말하면!)

여러 이미지를 넣으면 [이미지1 패치들] [이미지2 패치들] … [텍스트 토큰들] 같이 하나의 긴 시퀀스로 이어붙이게 되어

Transformer가 토큰 간의 관계를 구분할 수 있게 된다.

즉 하나의 Transformerrk 가 통과시키기 때문에

정보를 한꺼번에 정렬시키게 된다.

이때 각 층의 attention head는
“2번 이미지의 소파 패치”가
“1번 이미지의 사람 실루엣 패치”,
“텍스트 ‘노란 니트’, ‘오른쪽 끝 소파’ 토큰”
을 동시에 바라보면서,

하나의 멀티모달 latent가 생기고 한꺼번에 공간적으로 풀어내게 된다.

즉, 텍스트는 텍스트대로, 이미지는 이미지대로 자기 네트워크를 끝까지 타고 올라가고,

거의 맨 마지막 층에서야 “아 맞다 우리 멀티모달이었지?” 하면서 둘을 을 합치는 구조가 late fusion,

나노바나나는 텍스트와 이미지를 하나의 통합된 단계에서 처리하는 네이티브 멀티모달 아키텍처라고 이해할 수 있다.

즉 late fusion은 각 이미지가 독립 인코더를 타고 들어가 버려서, “이 토큰이 어제 그렸던 그 사람과 같은 사람이다”
라는 연결고리가 약하다 ㅠㅠ.
하지만! early fusion에서는 같은 사람의 얼굴 패치들이 계속 한 시퀀스 안에 등장하니까, Transformer가“이 눈썹 모양 + 코 각도 + 턱선 패턴 = 같은 identity”를 반복해서 학습할 수 있고,
새로운 장면을 생성할 때도 동일한 identity 벡터를 참조하게 되는 것이다.

GPT
- 중심은 텍스트 이해·생성·추론.
- 이메일, 기획서, 코드, 스크립트, 전략 문서, 분석 리포트, 프롬프트 설계 등 “언어”가 중심인 일에 강하다.
- 이미지도 만들 수 있지만(예: DALL·E 연동), 주력은 여전히 언어 쪽!!!.
나노바나나
- 중심은 이미지 생성·편집
- 텍스트를 잘 이해하는 건 “이미지를 잘 만들기 위한 수단”이고,
- 궁극적인 아웃풋은 항상 시각(이미지)라고 이해할 수 있다.

✏️ 특징은???

그래서 정확히 어떤 특징들을 가지고 잇냐면!

텍스트+이미지 기반 생성·편집 모델
캐릭터·브랜드 일관성에 특화
텍스트 렌더링이 강함
에코시스템 통합

🥙 한입 AI 레시피: Gemini로 디지털 광고 시안 만들기 (a.k.a 나노 바나나)

Gemini 2.5 Flash Image로 1분 만에 광고 시안을 만드는 방법을 소개합니다

modulabs.co.kr

요 링크에서는 디지털 광고 시안을 만드는 방법을 작성해주고 있으니

참고해도 좋을 듯하다!

프롬프트 설명 :
도심 버스 정류장 광고판에 사용할 소형 여행 카메라 광고를 제작하세요.
장면: 실제 도시 거리의 버스 정류장, 실제 광고 프레임이 설치된 모습.
환경: 가로등이 켜진 저녁 분위기, 도시 건물과 자연스러운 야외 환경. 가시성: 야외 시청 조건에 최적화된 고대비 디자인.
광고 디자인:
- 배경: 밝은 파란색에서 짙은 파란색으로 이어지는
그라데이션 - 중앙 비주얼: 첨부된 둥근 파란색 캐릭터와 카메라 이미지를 그대로 사용하세요.
캐릭터나 카메라를 재디자인하지 마세요.
- 텍스트 배치: 상단 중앙에 헤드라인을 두 줄로 배치하세요.

1줄: "TRAVEL LIGHT,"
2줄: "FEEL BRIGHT."
그 아래에 `"Your Journey, Simplified."` (중간 크기의 흰색 텍스트)를 배치하세요.
- 물결 패턴: 캐릭터 뒤쪽에서 오른쪽 위로 흐르며 헤드라인 텍스트와 겹치지 않도록 배치하세요.
스타일: 깔끔하고 미니멀하며 프리미엄한 느낌.
실제 도심 버스 정류장에 전문적으로 설치된 광고처럼 보이고, 자연스러운 도시 조명과 사실적인 원근감을 반영하세요.

프롬프트는 어떤 식으로 작성할까?

나노바나나는 “키워드 나열”보다 짧은 문장으로 장면을 설명해주면 성능이 더 잘 나온다는 팁이 한국 블로그·강의에서 공통적으로 등장하고 있다.

프롬프트를 쓸 때는:

누가(Who) – 인물의 나이, 성별, 스타일
어디서(Where) – 배경(실내/실외/도시/자연/매장 등)
무엇을(What) – 어떤 행동/제품/상황
어떤 느낌으로(Style) – 사진/일러스트/수채화/3D/레트로/키치 등
어디에 텍스트를(Design) – “상단 중앙에 ‘OOO’ 문구”, “우측에 제품 설명 박스” 등
비율·용도 – “9:16, 인스타 릴 썸네일용”, “16:9, 유튜브 썸네일용” 등

예를 들어 비타민 광고라면:

“30대 초반 한국인 여성 모델, 흰 셔츠와 재킷을 입고 밝게 웃으며 책상 위 비타민 병을 들어 보이는 장면. 배경은 밝은 병원 진료실 느낌. 상단에는 ‘하루의 시작, OOO 비타민’이라는 한글 텍스트를 굵고 깔끔한 폰트로 넣어줘. 4:5 비율 인스타 피드 광고용, 사진 스타일로.”

요즘 현업에서는

GPT로 콘셉트·카피·프롬프트 → 나노바나나로 이미지 → 다시 GPT로 성과 분석/테스트 아이디어

이런 식으로 활용하는 것이 많이 쓰이고 있다고 한다.

👩🏻‍💻📌👀 흠... 나노바나나를 활용해서 직접 만들어보자!

..더 흔들라고 했더니

그냥 눈을 감아버려서 아쉬웠다.

골반통신 자체를 좀 이상하게 이해한 것 같기는 하지만....

일관성 있게 <더 흔드는 것 같은> 모습을 보여주는 것 같아 신기했다.

지피티가 생성해준 지피티는 이미지 자체는 고퀄리티였으나

<더 흔들어줘> 라는 문구를 한번 더 요구하니까 배경도 달라지고 더 흔드는 것 같은 느낌도 안났는데

재미나이가 만들어준 이미지는 확실히 기존 이미지에서 더 개선된 것 같은 이미지가 완성되어 신기했다.

다음번엔 직접!! 내 서비스에 나노바나나를 사용해봐야겠다. ......!!!!!

'AI' 카테고리의 다른 글

[AI] 2026 AI 트렌드는 어떻게 될까? (1)	2026.01.12
[AI] 오늘의 집 사례로 알아보는 RAG 서비스 (0)	2025.12.14
[AI] 검색(1)-이커머스 AI에이전트 (0)	2025.11.12
[AI] AI 검색 최적화, GEO 이해하기! (0)	2025.11.02

✍🏻 나노바나나란?

👩🏻‍💻 원리를 조오금 뜯어보자

✏️ 그렇다면....나노바나나는?

✏️ 특징은???

프롬프트는 어떤 식으로 작성할까?

👩🏻‍💻📌👀 흠... 나노바나나를 활용해서 직접 만들어보자!

'AI' 카테고리의 다른 글

티스토리툴바