[AI] 나노바나나, 나도 써봤다!

2025. 12. 3. 22:08·AI

✍🏻 나노바나나란? 

나노 바나나는 사실 코드명이고, 정식적으로는 구글이 제공하는 '생성형 이미지 모델' 라인업의 이름이다. 정확한 명칭은 Gemini 2.5 Flash Image 모델이라고 볼 수 있다.

이 모델의 핵심은 단순히 이미지를 생성하는 것을 넘어서 네이티브 멀티모달 아키텍처를 가지고 있다는 점이다.

텍스트와 이미지를 하나의 통합된 단계에서 처리하도록 처음부터 훈련되어있다.

 

 

👩🏻‍💻 원리를 조오금 뜯어보자 

✔️✍🏻 기존에는 텍스트와 이미지, 참고 이미지를 각각 따로 이해해서 맨 마지막에만 대충 섞는 Late fusion 구조였기 때문에 
'이 사람을 이 배경에 자연스럽게 넣어줘' 라는 복잡한 요구를 토큰 단위에서 충분하게 이해하기 어려웠으나,

나노바나나는 텍스트와 여러 장의 이미지를 처음부터 하나의 토큰 시퀀스로 만들어 한 Transformer 안에서 끝까지 같이 돌리는 early fusion 네이티브 멀티모달 아키텍쳐를 사용하기 때문에 그럴듯한 편집을 '한번에' 할 수 있게 되었다!!! 

즉 조금 더 쉽게 말하면
기존에는 이미지를 잘~ 생성하는 모델과 이미지를 편집!하는 모델이 따로 있었으나,
생성하는 모델은 예쁜 이미지를 만들 수는 있었으나 실제로 활용하기는 어려웠고, 편집 모델은 이미지를 수정할 수는 있었으나 제한적이었다. 하지만 나노바나나는 이 두가지 기능을 융합했고 제미나이 모델의 기본 지능까지 결합했기 때문에 
더욱 완벽한 이미지 생성 및 편집이 가능한 것!

 

 

기존 이미지 생성/편집 모델 (예: 초기 Imagen 계열, Stable Diffusion 기반 편집기 등)은 대체로 late fusion 계열로 구분한다. 

 

텍스트 인코더와 이미지 인코더를 통해, 

텍스트는 텍스트대로, 이미지는 이미지대로 몇 층을 타며 고차원 feature로 변환되고, 

마지막에 diffusion UNet안에서 벡터로 합치거나 두 이미지의 최종 latent를 섞어버리는 식이었다. 

 

이 설계의 문제점은 각 모달리티가 따로 놀다가 거의 끝에서만 만나기 때문에 

  • “1번 사진의 인물을 2번 사진 거실에 앉히고, 조명은 2번 사진 기준으로 맞추고, 얼굴은 1번 사진이랑 완전히 동일하게” 같은 복잡한 요구를 이해해도,
  • 실제 네트워크 안에서는 “누가 누구인지, 조명과 구도가 각 이미지 안에서 어떻게 배치돼 있는지”를
    토큰 수준에서 서로 맞물리게 학습할 기회가 적게 된다!!!

결과적으로......

  • 캐릭터 일관성 유지 실패
  • “첫 번째 사진의 조명 스타일을 유지한 채 두 번째 사진의 구도에 맞춰줘” 같은 미묘한 컨텍스트 이해 미흡
  • 여러 장의 이미지를 섞을수록 이상한 콜라주 느낌, 어색한 경계, 그림자/원근 오류

같은 한계를 많이 보였고,

실제로 나노바나나 개발자도 “이전에는 생성 모델과 편집 모델이 따로라 실사용하기 애매했다”고 말했다!

 

✏️ 그렇다면....나노바나나는?

토큰 단계에서부터 한 세계로 만들게 된다. 

나노바나나가 하는 건 한 줄로 요약하면 “텍스트와 여러 장의 이미지를 전부 같은 토큰 시퀀스로 만든 뒤,

하나의 거대한 Transformer 안에서 처음부터 끝까지 같이 돌린다”

 

모든 텍스트 입력을 토큰으로 쪼갠 뒤,

각 이미지는 Vision Transformer 스타일로 패치 단위(예: 16×16 픽셀)로 나눠서

discrete image token 혹은 patch embedding으로 바꾼다

 

(복잡한 말이지만 쉽게 말하면!)

여러 이미지를 넣으면 [이미지1 패치들] [이미지2 패치들] … [텍스트 토큰들] 같이 하나의 긴 시퀀스로 이어붙이게 되어

Transformer가 토큰 간의 관계를 구분할 수 있게 된다. 

 

즉 하나의 Transformerrk 가 통과시키기 때문에 

정보를 한꺼번에 정렬시키게 된다. 

 

 

이때 각 층의 attention head는
“2번 이미지의 소파 패치”가
“1번 이미지의 사람 실루엣 패치”,
“텍스트 ‘노란 니트’, ‘오른쪽 끝 소파’ 토큰”
을 동시에 바라보면서, 

 

 

하나의 멀티모달 latent가 생기고 한꺼번에 공간적으로 풀어내게 된다. 

 

즉, 텍스트는 텍스트대로, 이미지는 이미지대로 자기 네트워크를 끝까지 타고 올라가고,

거의 맨 마지막 층에서야 “아 맞다 우리 멀티모달이었지?” 하면서 둘을 을 합치는 구조가 late fusion,

나노바나나는 텍스트와 이미지를 하나의 통합된 단계에서 처리하는 네이티브 멀티모달 아키텍처라고 이해할 수 있다. 

 

 

즉 late fusion은 각 이미지가 독립 인코더를 타고 들어가 버려서, “이 토큰이 어제 그렸던 그 사람과 같은 사람이다”
라는 연결고리가 약하다 ㅠㅠ.
하지만! early fusion에서는 같은 사람의 얼굴 패치들이 계속 한 시퀀스 안에 등장하니까, Transformer가“이 눈썹 모양 + 코 각도 + 턱선 패턴 = 같은 identity”를 반복해서 학습할 수 있고,
새로운 장면을 생성할 때도 동일한 identity 벡터를 참조하게 되는 것이다. 

 

 

 

 

  • GPT 
    • 중심은 텍스트 이해·생성·추론.
    • 이메일, 기획서, 코드, 스크립트, 전략 문서, 분석 리포트, 프롬프트 설계 등 “언어”가 중심인 일에 강하다.
    • 이미지도 만들 수 있지만(예: DALL·E 연동), 주력은 여전히 언어 쪽!!!.
  • 나노바나나
    • 중심은 이미지 생성·편집
    • 텍스트를 잘 이해하는 건 “이미지를 잘 만들기 위한 수단”이고,
    • 궁극적인 아웃풋은 항상 시각(이미지)라고 이해할 수 있다.

 

✏️ 특징은???

그래서 정확히 어떤 특징들을 가지고 잇냐면!

 

  1. 텍스트+이미지 기반 생성·편집 모델
  2. 캐릭터·브랜드 일관성에 특화
  3. 텍스트 렌더링이 강함
  4. 에코시스템 통합

 

 

 

 

 

 

🥙 한입 AI 레시피: Gemini로 디지털 광고 시안 만들기 (a.k.a 나노 바나나)

Gemini 2.5 Flash Image로 1분 만에 광고 시안을 만드는 방법을 소개합니다

modulabs.co.kr

 

요 링크에서는 디지털 광고 시안을 만드는 방법을 작성해주고 있으니 

참고해도 좋을 듯하다!

프롬프트 설명 :
도심 버스 정류장 광고판에 사용할 소형 여행 카메라 광고를 제작하세요.
장면: 실제 도시 거리의 버스 정류장, 실제 광고 프레임이 설치된 모습.
환경: 가로등이 켜진 저녁 분위기, 도시 건물과 자연스러운 야외 환경. 가시성: 야외 시청 조건에 최적화된 고대비 디자인.
광고 디자인:
- 배경: 밝은 파란색에서 짙은 파란색으로 이어지는
그라데이션 - 중앙 비주얼: 첨부된 둥근 파란색 캐릭터와 카메라 이미지를 그대로 사용하세요.
캐릭터나 카메라를 재디자인하지 마세요.
- 텍스트 배치: 상단 중앙에 헤드라인을 두 줄로 배치하세요.    

1줄: "TRAVEL LIGHT,"    
2줄: "FEEL BRIGHT."  
그 아래에 `"Your Journey, Simplified."` (중간 크기의 흰색 텍스트)를 배치하세요.
- 물결 패턴: 캐릭터 뒤쪽에서 오른쪽 위로 흐르며 헤드라인 텍스트와 겹치지 않도록 배치하세요.
스타일: 깔끔하고 미니멀하며 프리미엄한 느낌.
실제 도심 버스 정류장에 전문적으로 설치된 광고처럼 보이고, 자연스러운 도시 조명과 사실적인 원근감을 반영하세요.

 

프롬프트는 어떤 식으로 작성할까?

나노바나나는 “키워드 나열”보다 짧은 문장으로 장면을 설명해주면 성능이 더 잘 나온다는 팁이 한국 블로그·강의에서 공통적으로 등장하고 있다. 

프롬프트를 쓸 때는:

  1. 누가(Who) – 인물의 나이, 성별, 스타일
  2. 어디서(Where) – 배경(실내/실외/도시/자연/매장 등)
  3. 무엇을(What) – 어떤 행동/제품/상황
  4. 어떤 느낌으로(Style) – 사진/일러스트/수채화/3D/레트로/키치 등
  5. 어디에 텍스트를(Design) – “상단 중앙에 ‘OOO’ 문구”, “우측에 제품 설명 박스” 등
  6. 비율·용도 – “9:16, 인스타 릴 썸네일용”, “16:9, 유튜브 썸네일용” 등

예를 들어 비타민 광고라면:

“30대 초반 한국인 여성 모델, 흰 셔츠와 재킷을 입고 밝게 웃으며 책상 위 비타민 병을 들어 보이는 장면. 배경은 밝은 병원 진료실 느낌. 상단에는 ‘하루의 시작, OOO 비타민’이라는 한글 텍스트를 굵고 깔끔한 폰트로 넣어줘. 4:5 비율 인스타 피드 광고용, 사진 스타일로.”

 

 

요즘 현업에서는 

GPT로 콘셉트·카피·프롬프트 → 나노바나나로 이미지 → 다시 GPT로 성과 분석/테스트 아이디어

이런 식으로 활용하는 것이 많이 쓰이고 있다고 한다. 

 

👩🏻‍💻📌👀 흠... 나노바나나를 활용해서 직접 만들어보자!

지피티 를 통해 이미지를 생성한 모습 (유료)

..더 흔들라고 했더니 

그냥 눈을 감아버려서 아쉬웠다.

 

제미나이를 통해 생성한 모습 (나노바나나 모델)

 

골반통신 자체를 좀 이상하게 이해한 것 같기는 하지만....

일관성 있게 <더 흔드는 것 같은> 모습을 보여주는 것 같아 신기했다. 

 

지피티가 생성해준 지피티는 이미지 자체는 고퀄리티였으나

<더 흔들어줘> 라는 문구를 한번 더 요구하니까 배경도 달라지고 더 흔드는 것 같은 느낌도 안났는데

재미나이가 만들어준 이미지는 확실히 기존 이미지에서 더 개선된 것 같은 이미지가 완성되어 신기했다. 

 

 

다음번엔 직접!! 내 서비스에 나노바나나를 사용해봐야겠다. ......!!!!!

'AI' 카테고리의 다른 글

[AI] 2026 AI 트렌드는 어떻게 될까?  (1) 2026.01.12
[AI] 오늘의 집 사례로 알아보는 RAG 서비스  (0) 2025.12.14
[AI] 검색(1)-이커머스 AI에이전트  (0) 2025.11.12
[AI] AI 검색 최적화, GEO 이해하기!  (0) 2025.11.02
'AI' 카테고리의 다른 글
  • [AI] 2026 AI 트렌드는 어떻게 될까?
  • [AI] 오늘의 집 사례로 알아보는 RAG 서비스
  • [AI] 검색(1)-이커머스 AI에이전트
  • [AI] AI 검색 최적화, GEO 이해하기!
hye2 이야기
hye2 이야기
앱 서비스를 좋아하는 PM 블로그입니다
  • hye2 이야기
    hye2story 님의 블로그
    hye2 이야기
  • 전체
    오늘
    어제
    • 분류 전체보기 (21)
      • 데이터 (4)
      • 내 기록 (1)
      • 프로덕트 서비스 (1)
      • 인사이트 (4)
      • 이커머스 (0)
      • AI (5)
      • UI UX (3)
      • 서비스기획 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    2025 앱
    2025 앱스토어 수상작
    애플 앱스토어 수상작
    리텐션 높이기
    PM SQL
    PM 데이터 분석
    2026 AI 트렌드
    사용자 행동 데이터 분석
    배달의민족 기획
    올해의 앱
    ui ux 분석
    2026년도 AI 전망
    한국인이 많이 사용한 앱
    마켓컬리전략
    2026 기술트렌드
    기획자의 SQL
    서비스 기획
    알라미 기획
    RAG 기획
    AI 기획
    유저 타겟팅
    서비스기획자 데이터분석
    에이블리 운세
    실무SQL
    커뮤니티 서비스 키우기
    앱 서비스 기획
    구글 GEO
    PM 데이터분석
    서비스기획
    지그재그 운세
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.5
hye2 이야기
[AI] 나노바나나, 나도 써봤다!
상단으로

티스토리툴바