본문 바로가기

GPT4 이제 눈까지 떠버렸다👀 GPT-4V 논문 리뷰

 들어가며

GPT4가 눈까지 떠버렸습니다. 이 녀석... 이제 언어 뿐만 아니라 이미지도 이해할 수 있게 되었습니다.
 
10월 11일 마이크로 소프트 연구팀에서 논문 한편을 공개했는데요, 바로 "The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)"입니다. 대충 "LMM 새벽이 온다...! GPT-4V 프리뷰" 입니다. 이제 LLM은 가버리고 LMM의 시대가 올꺼라는데요, 대체 GPT-4V의 성능이 어느 정도길래 이 정도로 호들갑을 떠는지 한번 리뷰해보겠습니다.

Dawn of LMMs

먼저 논문 제목은 "LMM 새벽이 온다. GPT-4V 프리뷰"입니다. 제목 하나는 기가 막히죠? 아직 대중에게 공개되지 않는 GPT-4V 모델의 이모저모를 뜯어보는 논문입니다. 
 
LMM은 Large Multimodality Model의 약자입니다. 기존의 LMM이 텍스트만 입력으로 받을 수 있었다면, LMM은 텍스트를 넘어서 이미지나 음성도 입력으로 받을 수 있는 모델입니다. 이번 GPT-4V 모델은 텍스트와 이미지를 인식할 수 있는 모델입니다.
 

사실 MS가 이렇게 어그로성 논문을 낸게 처음이 아닙니다. GPT-4가 나오기 전에는 무려 "AGI 점화! GPT-4"라는 제목으로 프리뷰 논문을 냈으니까요. 이번 논문도 어느 정도 호들갑이 깔려있다고 염두에 두고, GPT-4V의 성능을 한번 살펴보겠습니다.
 

1. 이미지와 텍스트 함께 입력

GPT-4V는 LMM이라는 이름에 걸맞게 다양한 형태로 입력을 받을 수 있습니다. 순수 텍스트는 당연하고, 이미지와 텍스트가 쌍으로 묶여있는 입력을 받을 수 있습니다. 그런데 단순히 이미지 한장, 텍스트 한 문장이 짝지어진 뻔한 입력이 아니라, 텍스트 사이사이에 이미지가 박혀있는 입력도 받을 수 있습니다.

첫 번째 이미지에서는 테이블 위에 두 병의 맥주가 올라와 있습니다. 그리고 두 번째 이미지에는 맥주의 가격이 적혀있고, GPT-4V에게 맥주 값으로 얼마를 지불해야하는지 물어봤습니다. 그러면 한병에 6달러, 2병 먹었으니까 12달러를 지불해야한다고 답해줍니다...! 질문의 의도와 이미지 정보를 정확하게 인식하고 답변해줍니다.

2. 이미지 특정 위치 가리키기

이미지의 특정 위치를 가리킨 다음 질문하는 것도 가능합니다. 왼쪽 이미지에서는 전구를 매달아놓은 줄에 동그라미를 치고 해당 부분을 묘사해달라고 요청합니다. 그러면 GPT-4V가 찰떡처럼 알아듣고 답변합니다.
 
오른쪽 이미지에서는 좀 더 어렵게 물병과 맥주를 화살표로 가리키고 각각 object 1, object 2로 표기합니다. 그 다음 컵 안에 들은 음료가 object1인지 2인지 물어보면 정확하게 답변해줍니다. 확실히 이미지 정보를 잘 인식하는 것 같네요.

이번에는 좀 더 꼬아서 도표에 원과 밑줄을 치고, 이를 인식하는지 테스트 해봤습니다. 그랬더니 out 컬럼의 GIT2 row 값은 122.3이라고 정확히 답해줍니다.

그렇다면 기하학 문제도 풀어줄 수 있을까요? 직각 삼각형의 대각선의 길이와 각도를 맞추는 문제도 잘 풀어내는 모습을 보여줍니다. 이미지를 인식하는 것 뿐만아니라 수학적인 사고력도 갖추었네요!
 

3. 객체 인식, 얼굴 인식

GPT-4V는 이미지 정보와 텍스트 정보를 결합해서 풀어야하는 문제 말고, 이미지 분류나 객체 인식처럼 이미지 정보만 가지고 풀어야하는 문제도 잘 풉니다. 

사람이나 사물의 개수 세어달라는 건 당연히 잘해줍니다.

이미지의 가로, 세로 픽셀 크기를 프롬프트에 같이 넣어주고, 특정 물체에 박스를 쳐달라고 하면 쳐줍니다...! 약간 어설프긴 하지만, 그래도 GPT-4V가 객체의 위치 정보를 인식한다는 것을 확인하기엔 충분해보입니다.

심지어는 이미지의 크기를 말하고, 사람 위치에 박스를 그리고, 각각의 사람을 인식한 다음, 인식한 사람에 대한 커멘트를 작성해달라는 복잡한 지시를 깔끔하게 처리해내는 무시무시한 성능을 보여줍니다. 이제 컴퓨터 비전 분야에서도 하나의 테스크를 잘하는 모델보다 여러개의 테스를 복합적으로 수행하는 멀티모달리티 모델이 유행하겠네요.

4. 글자 인식(OCR)

이미지 속에 글자를 인식하는 OCR도 훌륭하게 해줍니다.

심지어는 영어 뿐만 아니라 다국어도 잘 인식하며, 이를 곧바로 번역해주는 것도 가능합니다. "존맛탱"도 잘 인식해서 Delicious food라고 번역해주네요. GPT-4V 모델 하나가 기존의 OCR 모델과 번역 모델을 함께 사용해야만 가능했던 테스크를 혼자서 소화하는 미친 폼을 보여줍니다.
 

손글씨로 휘갈긴 수식 글씨도 정확하게 인식해서 latex 포맷으로 변환해주었습니다. 손글씨 인식 난이도가 가뜩이나 높은데, 수식 인식까지 더해져서 정말 어려운 테스크임에도 GPT-4V가 훌륭히 해냈습니다.

신기하니까 하나 더 살펴보겠습니다. 영수증 이미지 여러장을 주고 세금으로 얼마 냈는지 계산해달라고 요청을 넣었습니다. 그러자 GPT-4V가 각 이미지 별로 얼만큼 세금을 냈는지 정확히 파악해주고, 총액은 얼마인지도 계산해줍니다. 이 정도면 LMM이라고 부를만 하네요!

5. 상식 퀴즈

GPT-4V는 연예인도 잘 알아봅니다. 유명인 8명의 사진으로 이루어진 이미지를 주고 묘사를 해보라고 하면 그냥 남자, 여자 이렇게 묘사하는 것이 아니라 저스틴 비버, 메시, 호날두, 일론머스크 처럼 유명인들을 정확하게 알아보고 묘사해줍니다. 왠지 오픈되면 유투버들이 자기도 알아보는지 가지고 유튜브 각을 뽑을 것 같네요.

유명인 뿐만 아니라 유명한 장소나 건축물, 음식들도 잘 알아봅니다. GPT-4V가 공개되면 지락실 퀴즈들도 잘 푸는지 테스트해서 컨텐츠 올리겠습니다. (프로 유튜버의 날카로운 촉)

6. 유머 감각

GPT-4V는 밈이나 유머도 이해합니다. 밈 이미지를 주고, 왜 이게 재밌는 건지 설명하라고 하면 설명충에 빙의해서 세세하게 알려줍니다.
 

7. 구라 잡아내기

간혹가다가 AI를 테스트해보고 싶은 마음에 일부러 잘못된 질문을 던지는 유저들도 있습니다. chatGPT 처음 나왔을 때는 세종대왕 맥북 던짐 사건에 대해서 설명해달라고 하면 헛소리를 기가 막히게 해줘서 조리돌림을 당했었습니다.

GPT-4V한테 이미지를 주고, 잘못된 질문을 던지면 GPT-4V는 넘어가지 않고 질문이 이미지 정보와 다르다고 잘 대답합니다.

8. 의료 이미지 인식

GPT-4V는 의료 이미지도 인식을 잘합니다. 단순히 인식하는 것을 넘어서 의료 지식을 바탕으로 질문에 답해줍니다. 예를 들어서 치아 x-ray 이미지를 보고 "어느 사랑니가 가장 뽑기 힘들 것 같아?", "사랑니를 뽑을 필요가 있을까?" 등과 같이 의학 지식 없이는 답할 수 없는 질문들을 정확하게 답해줍니다. 어마어마 하네요.

신기하니까 몇 장 더보고 가겠습니다. 골절된 뼈 사진이랑 감염된 폐 CT 사진을 보여주고 무엇이 잘못됐는 설명해보라고 하면 잘 대답해줍니다. 대체 학습 데이터를 어떻게, 얼마나 많이 학습시켰길래 이렇게 잘나오는지 참... 대단합니다.

9. 비디오 시퀀스 이해하기

이미지 한장 뿐만 아니라 여러 장의 연속된 이미지 시퀀스도 이해를 합니다. 

이미지 시퀀스를 주고 다음에 어떤 장면이 이어질지 예측해보라는 질문도 잘 답해줍니다. 페널티킥 이미지를 보고 골을 넣을지 못넣을지까지 예측해주나? 싶었지만 적당히 그냥 "골키퍼가 막으려고 시도할 거 같아" 정도로만 답해줍니다.

10. IQ 테스트 문제 풀기

텍스트와 이미지를 이해할 수 있다면 이제 AI 모델의 IQ도 테스트할 수 있습니다.

도형들의 패턴을 보여주고, ?에 오는 도형을 맞추는 IQ 테스트 문항입니다. GPT-4V는 패턴을 정확하게 인식하고, ?에 어떤 도형이 와야하는지 정답도 맞추고, 왜 그런지 설명까지 해내는 괴랄한 퍼포먼스를 보여줍니다.

이미지를 추상화해서 인식해야하는 문제도 풀어줍니다. 10가지 도형들 중에 날아가는 기러기를 골라보라고 했더니 정답을 맞추는 것은 물론, 10가지 도형이 무엇을 표현하는지를 설명해주고, 전부 수긍이 갑니다.

기러기의 머리 부분을 맞춰보라는 질문에도 잘 대답해줍니다.

11. 응용할 수 있는 서비스

지금까지 리뷰를 보시면서 아마도 이걸로 어떤 서비스를 만들 수 있을까? 머리를 굴리고 계신 분들도 계실겁니다. 고맙게도 논문에서 여러 사례들을 언급해주었습니다.

먼저 틀린 그림 찾기를 AI와 대결하는 서비스를 만들 수 있습니다.

다음으로 불량품 검사를 수행할 수 있습니다. 정상인 이미지와 테스트하고자 하는 이미지를 프롬프트에 같이 넣어줘서 어느 부분이 잘못됐는지 잡아줄 수 있습니다.

아마존 고 같은 무인 계산도 구현할 수 있습니다.

이미지를 보고 사고 정도를 파악해서 자동으로 보험 처리 보고서를 작성해줍니다.

다음으로 가족 구성원들의 이미지와 이름을 프롬프트로 입력 받아서 개인화된 이미지 캡션을 생성해줄 수 있습니다.

AI로 생성한 이미지의 품질 평가도 해줄 수 있습니다. 특히나 텍스트를 같이 그려줘야 하는 이미지의 품질 평가에 적합하겠네요.

로봇에 내장해서 가사도우미를 만들 수도 있습니다. 커피 머신의 사용법을 알려주고, 원하는 커피를 타달라고 지시하면 어느 버튼을 눌러야 하는지 답해줍니다. 이를 물리적인 로봇에 탑재한다면 금세 로봇 가사 도우미가 탄생하겠죠?

집안의 이미지를 인식하고, 요리를 하기 위해선 어디로 이동해야하는 지도 정확하게 파악합니다.

자기 혼자 웹 브라우저를 열어서 필요한 정보를 탐색하고, 요약해줍니다. 요리 레시피를 찾아주기도 하고, 나 대신 쇼핑도 해줍니다. 이제 점점 웹 서핑도 스스로 할 일이 줄어들겠네요.

인기 틱톡 컨텐츠 분석도 해줄 수 있습니다. 영상의 흐름과 줄거리를 잘 설명해줘요. 유튜버된 입장에서 트렌드 파악이 참 중요한데 이 기능은 저도 군침이 싹 도네요.
 

정리

이상으로 GPT-4V 프리뷰 논문의 리뷰를 마치겠습니다. 원문이 무려 160장이라서 읽고 정리하는데 시간이 꽤 걸렸네요.
 
내용은 "GPT-4V 폼 미쳤다!" 한줄로 요약할 수 있을 것 같습니다. 전례없는 미친 성능을 보여주며 텍스트와 이미지의 경계를 깨버리네요. 특히 의료 이미지를 이해하고 전문적인 질문에 대답해주는 부분은 탄성을 자아냅니다.
 
늘 그렇듯 openAI는 AI 연구의 새로운 지평을 제시해줍니다. 논문 제목처럼 Large Multimodality Model의 시대가 열리는 날이 머지 않았네요. 이번에는 또 openAI가 어떻게 세상을 놀래킬지 기대하면서 GPT-4V 출시를 기다려봅니다.
 

참고

📄 The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)