[다시보기] Attention is All You Need
기존 시퀀스 변환 모델들은 주로 복잡한 RNN, CNN 기반으로 인코더 디코더 구조를 사용했다. 이러한 모델들은 입력과 출력 시퀀스의 각 위치를 순차적으로 처리하기 때문에 병렬화가 어렵고 학습시간이 오래 걸리는 단점이 있었다. attention은 기존 인코더 디코더의 성능을 강화시키며 주목받고 있던 메커니즘이다. 이 논문에서 attention을 발표...
기존 시퀀스 변환 모델들은 주로 복잡한 RNN, CNN 기반으로 인코더 디코더 구조를 사용했다. 이러한 모델들은 입력과 출력 시퀀스의 각 위치를 순차적으로 처리하기 때문에 병렬화가 어렵고 학습시간이 오래 걸리는 단점이 있었다. attention은 기존 인코더 디코더의 성능을 강화시키며 주목받고 있던 메커니즘이다. 이 논문에서 attention을 발표...
ViCo: Plug-and-play Visual Condition for Personalized Text-to-image Generation(2023).Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong 저번에 읽은 ViCo 모델의 마스크 성능이 얼마나 되는지 궁금하여 모델을 돌려보고자 했다. 그 과정을 ...
ViCo: Plug-and-play Visual Condition for Personalized Text-to-image Generation(2023).Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong ViCo는 기존 개인화 이미지 생성 방식의 문제점인 언어 지식 상실과 표현력 부족을 Frozen U-...
TOKENFLOW: CONSISTENT DIFFUSION FEATURES FOR CONSISTENT VIDEO EDITING(2023).Michal Geyer, Omer Bar-Tal, Shai Bagon, Tali Dekel TokenFlow: Consistent Diffusion Features for Consistent Video Editin...
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation(2024).Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, Liefeng Bo. Institute for Intelligent Computing, A...
첫 프레임(F0)을 인물 정보가 고정된 Anchor으로 만들고, Rolling Forcing 루프에서 이 정보를 참조로 주입한다. 1. F0 개인화 및 스타일화 (Anchor Generation) LoRA 학습 없이 InstantID를 사용하여 베이스 모델의 품질을 유지하며 첫 프레임을 생성. Rolling Forcing은 비디오의 흐름을 관리...
InstantID: Zero-shotIdentity-Preserving Generation in Seconds(2024).Qixun Wang, Xu Bai12, Haofan Wang, Zekui Qin12, Anthony Chen, Huaxia Li, Xu Tang, and Yao Hu.arXiv InstantID는 한 장의 얼굴 이미지만으로도 동...
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time(2025).Kunhao Liu1∗ Wenbo Hu2† Jiale Xu2 Ying Shan2 Shijian Lu1† ‘Rolling Forcing: Autoregressive Long Video Diffusion in Real Tim...
논문 읽고 블로그로 기록을 남기고 있다. 이 방법이 너무 오래 걸리기도 하고 처음에 이해한 방향이 아니라서 계속 고치게 된다. 이에 따라 정리하는 방법을 다시 고려해봐야할 것 같다. 다음이 내가 선택한 방법이다. AI의 답변이다! 1. 단계별 진행 순서 1단계: 논문 정독 (핵심 파악) 먼저 Abstract, Conclusion,...
LOOKING BACKWARD: STREAMING VIDEO-TO-VIDEO TRANSLATION WITH FEATURE BANKS(2025).Feng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu.ICLR 2025 스트리밍 입력을 위한 실...