2022/09/30

rosinality · Sep 30, 2022 · 816b496 · 816b496
1 parent 49839fe
commit 816b496
Show file tree

Hide file tree

Showing 102 changed files with 930 additions and 11 deletions.
diff --git a/README.md b/README.md
diff --git a/...9 Searching for Efficient Neural Architectures for On-Device ML on Edge TPUs.md b/...9 Searching for Efficient Neural Architectures for On-Device ML on Edge TPUs.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2204.14007
+
+Searching for Efficient Neural Architectures for On-Device ML on Edge TPUs (Berkin Akin, Suyog Gupta, Yun Long, Anton Spiridonov, Zhuo Wang, Marie White, Hao Xu, Ping Zhou, Yanqi Zhou)
+
+모바일용 백본 서치는 오랜만에 보는 느낌이네요. dw conv를 사용한 bottleneck에서 1x1 conv와 dw conv를 3x3 conv로 대체하는 흐름이었다가, 여기서 3x3 group conv를 탐색했네요.
+
+#lightweight 
diff --git a/...s/2022/220429 Vision-Language Pre-Training for Boosting Scene Text Detectors.md b/...s/2022/220429 Vision-Language Pre-Training for Boosting Scene Text Detectors.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2204.13867
+
+Vision-Language Pre-Training for Boosting Scene Text Detectors (Sibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang Bai, Cong Yao)
+
+잠깐 이야기가 나왔었던 clip 스타일 프리트레이닝이네요.
+
+#pretraining 
diff --git a/papers/2022/220502 OPT.md b/papers/2022/220502 OPT.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.01068
+
+OPT: Open Pre-trained Transformer Language Models (Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer)
+
+meta는 llm으로 뭔가 안 하나 싶었는데 이걸 하고 있었네요. 효율적인 학습을 위한 코드와 레시피, 로그를 공개했습니다. 작은 모델들은 weight를 공개했고 175B 모델은 요청하면 제공하는 모양입니다. (API인지 weight인지 모르겠네요.)
+
+#lm
diff --git a/papers/2022/220504 CoCa.md b/papers/2022/220504 CoCa.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.01917
+
+CoCa: Contrastive Captioners are Image-Text Foundation Models (Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, Yonghui Wu)
+
+generative pretraining과 contrastive pretraining을 하나로 묶은 vision-language 모델이네요.
+
+#vision-language 
diff --git a/papers/2022/220512 A Generalist Agent.md b/papers/2022/220512 A Generalist Agent.md
@@ -0,0 +1,5 @@
+https://www.deepmind.com/publications/a-generalist-agent
+
+multimodal multitask multiembodiment model. 모델 하나로 캡션도 달고 대화도 생성하고 아타리도 하고 로봇 팔도 조작합니다. 그리고 그 모든 과제를 토큰으로 구성된 시퀀스로 통합하고 그 위에 트랜스포머를 돌리는 형태로 만들었습니다. 
+
+#multimodal #reinforcement_learning 
diff --git a/...12 Lifting the Curse of Multilinguality by Pre-training Modular Transformers.md b/...12 Lifting the Curse of Multilinguality by Pre-training Modular Transformers.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.06266
+
+Lifting the Curse of Multilinguality by Pre-training Modular Transformers (Jonas Pfeiffer, Naman Goyal, Xi Victoria Lin, Xian Li, James Cross, Sebastian Riedel, Mikel Artetxe)
+
+multilingual 모델의 capacity 한계를 해소하기 위해 각 언어별 특화 모듈을 self attention/feed forward 모듈 뒤에 끼워넣는 방식을 채택했네요. adapter와 비슷하지만 adapter와는 다르게 각 언어별 모듈을 학습 시에 동시에 학습하고 언어 추가는 새 모듈을 추가하고 다른 weight를 고정시킨 다음 파인튜닝하는 방식으로 접근한다는 발상입니다.
+
+#multilingual #adapter #mixture_of_experts 
diff --git a/.../2022/220517 MATrIX -- Modality-Aware Transformer for Information eXtraction.md b/.../2022/220517 MATrIX -- Modality-Aware Transformer for Information eXtraction.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.08094
+
+MATrIX -- Modality-Aware Transformer for Information eXtraction (Thomas Delteil, Edouard Belval, Lei Chen, Luis Goncalves, Vijay Mahadevan)
+
+이래저래 많이들 하네요.
+
+#layout 
diff --git a/...220520 Lossless Acceleration for Seq2seq Generation with Aggressive Decoding.md b/...220520 Lossless Acceleration for Seq2seq Generation with Aggressive Decoding.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.10350
+
+Lossless Acceleration for Seq2seq Generation with Aggressive Decoding (Tao Ge, Heming Xia, Xin Sun, Si-Qing Chen, Furu Wei)
+
+제목 뿐만 아니라 abstract도 공격적이네요. 입력 시퀀스 혹은 nar이 생성한 시퀀스를 autoregressive 모델에 입력한 다음 모델 출력과 같은 부분의 시퀀스를 사용하고, 달라지는 부분이 생기면 autoregressive 모델의 출력으로 입력 시퀀스를 고친 다음 다시 생성하는 것을 반복하는 방식. autoregressive 모델의 성능을 내면서 동시에 디코딩 속도를 수 배 향상시켰습니다.
+
+#non-autoregressive #efficiency 
diff --git a/...022/220520 Prototypical Calibration for Few-shot Learning of Language Models.md b/...022/220520 Prototypical Calibration for Few-shot Learning of Language Models.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.10183
+
+Prototypical Calibration for Few-shot Learning of Language Models (Zhixiong Han, Yaru Hao, Li Dong, Furu Wei)
+
+in context learning에서 출력 결과를 바로 쓰는 대신 확률을 추출한 다음 gmm을 피팅해서 나온 클러스터를 사용해 예측하는 모델. 추가적인 unlabeled sample을 사용했다는 것과 모델이 커지면 효과가 감소한다는 점이 보이긴 하네요.
+
+#in_context_learning
diff --git a/papers/2022/220520 UViM.md b/papers/2022/220520 UViM.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.10337
+
+UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes (Alexander Kolesnikov, André Susano Pinto, Lucas Beyer, Xiaohua Zhai, Jeremiah Harmsen, Neil Houlsby)
+
+레이블을 vq-vae로 제한된 길이의 discrete code로 인코딩한 다음 이 코드와 이미지를 사용해 비전 과제를 수행하는 모델을 만들고, autoregressive 모델로 이미지에서 discrete code를 생성한 다음 이 코드를 사용하는 방식의 모델. 다양한 비전 과제를 동일한 구조로 통합했습니다. 오라클을 사용하는 접근이 이렇게 다시 등장하네요.
+
+#multitask 
diff --git a/papers/2022/220520 Uniform Masking.md b/papers/2022/220520 Uniform Masking.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.10063
+
+Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality (Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang)
+
+mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 1: 일정 윈도우 크기 내에 일정 수의 토큰만 마스킹하고, 윈도우 크기를 줄여 마스킹 되지 않은 토큰만 걸러내는 방법.
+
+#self_supervised 
diff --git a/...2022/220521 Scaling Laws and Interpretability of Learning from Repeated Data.md b/...2022/220521 Scaling Laws and Interpretability of Learning from Repeated Data.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2205.10487
+
+Scaling Laws and Interpretability of Learning from Repeated Data (Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Tom Henighan, Tristan Hume, Scott Johnston, Ben Mann, Chris Olah, Catherine Olsson, Dario Amodei, Nicholas Joseph, Jared Kaplan, Sam McCandlish)
+
+lm 학습에서 중복된 텍스트 데이터가 치명적이라는 결과. 일부 데이터를 복사해서 중복 데이터를 만들었더니 학습된 모델의 성능이 더 작은 모델의 성능 수준으로 격하되는 것을 관찰했네요. 중복된 텍스트들이 모델이 텍스트를 외워버리게 만들고 이 외워버리는 과정에서 generalizability와 모델 capacity를 외우는 것 자체에 쓰게 만드는 것이 아닐까 하는 설명입니다.
+
+여러모로 https://arxiv.org/abs/2107.06499 이 논문이 생각나네요. llm을 학습할 일이 생기시면 deduplication에 시간을 많이 쓰는 것으로.
+
+#llm
diff --git a/papers/2022/220522 Instruction Induction.md b/papers/2022/220522 Instruction Induction.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2205.10782
+
+Instruction Induction: From Few Examples to Natural Language Task Descriptions (Or Honovich, Uri Shaham, Samuel R. Bowman, Omer Levy)
+
+in context learning에서 몇 가지 샘플을 프롬프트로 주고 수행해야할 과제를 자연어 형태로 생성할 수 있는지, 이 생성된 지시문을 가지고 과제를 수행할 수 있는지 본 실험. gpt-3에서는 잘 안 되는데 instructgpt에서는 되네요. https://arxiv.org/abs/2203.02155
+
+llm의 흥미로운 점은 (샘플링 문제부터 시작해서) 아직 llm을 활용하는 방법에 대해서도 탐색할 여지가 많다는 것이지 싶습니다.
+
+#in_context_learning 
diff --git a/papers/2022/220522 Memorization Without Overfitting.md b/papers/2022/220522 Memorization Without Overfitting.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.10770
+
+Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models (Kushal Tirumala, Aram H. Markosyan, Luke Zettlemoyer, Armen Aghajanyan)
+
+더 큰 모델은 오버피팅이 발생하기 전까지 더 많은 데이터를 더 빠르게 외우고 더 잘 잊어버리지 않는다는 결과. 그러니까 데이터셋을 외우는 것 자체는 나쁘지 않은데 지나치게 외우게 만들면 안 된다...이런 느낌이네요.
+
+#llm
diff --git a/papers/2022/220522 ReLU Fields.md b/papers/2022/220522 ReLU Fields.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.10824
+
+ReLU Fields: The Little Non-linearity That Could (Animesh Karnewar, Tobias Ritschel, Oliver Wang, Niloy J. Mitra)
+
+implicit representation의 mlp를 feature grid 형태로 바꿀 때 bi/trilinear interpolation 다음에 relu를 끼워넣어주면 학습 속도와 성능이 향상된다는 결과. 그냥 clipping인데 이 차이가 크네요.
+
+#implicit_representation 
diff --git a/papers/2022/220524 AdaMix.md b/papers/2022/220524 AdaMix.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.12410
+
+AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models (Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao)
+
+adapter finetuning에서 adapter를 moe로 확장. 그런데 특별한 gating 없이 랜덤하게 expert를 선택해서 학습하고 추론 시점에서는 expert weight를 averaging 해서 사용합니다. 뭔가 장대한 dropout 쪽에 가깝네요.
+
+#moe #adapter 
diff --git a/papers/2022/220524 Imagen.md b/papers/2022/220524 Imagen.md
@@ -0,0 +1,7 @@
+https://gweb-research-imagen.appspot.com/
+
+Imagen: Text-to-Image Diffusion Models
+
+구글의 image to text 모델. cascade diffusion에 frozen text encoder (t5) 결합입니다. dalle 2와 거의 비슷한데 dalle 2를 뛰어넘었습니다.
+
+#ddpm #conditional_generative_model 
diff --git a/papers/2022/220524 Large Language Models are Zero-Shot Reasoners.md b/papers/2022/220524 Large Language Models are Zero-Shot Reasoners.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.11916
+
+Large Language Models are Zero-Shot Reasoners (Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa)
+
+chaion of thought prompting으로 reasoning 문제를 풀었는데 이걸 zero shot으로 풀 수 있다는 결과. 질문 다음에 Let's think step by step이라는 텍스트를 프롬프트로 달아주고 llm이 생성한 결과를 프롬프트에 다시 붙여준 다음 답을 얻는 방식. 프롬프트 엔지니어링이라는 게 정말 농담이 아니네요.
+
+#llm #prompt
diff --git a/...s/2022/220524 On the Role of Bidirectionality in Language Model Pre-Training.md b/...s/2022/220524 On the Role of Bidirectionality in Language Model Pre-Training.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2205.11726
+
+On the Role of Bidirectionality in Language Model Pre-Training (Mikel Artetxe, Jingfei Du, Naman Goyal, Luke Zettlemoyer, Ves Stoyanov)
+
+bidirectional/unidirectional attention과 bidirectional context(mlm)과 unidirectional context(regular lm)을 하나의 프레임워크로 통합한 다음 이 비중을 조절하면서 각 과제에 대해 보이는 성능을 관찰. regular lm이 next token prediction에 강하고 bidirectional mlm이 infilling과 finetuning에 강하고, 예측 대상이 적은 케이스(zero shot priming)에서는 regular lm도 잘 된다는 결과네요. 이 두가지 축(llm과 bert)외의 하이브리드들은 이 두 모델에 미치지 못합니다.
+
+결과적으로 lm으로 푸는 게 적합한 과제에는 lm이 베스트고 파인튜닝으로 푸는 과제에는 mlm이 최선이고 그렇네요.
+
+#lm #bert
diff --git a/.../2022/220526 Green Hierarchical Vision Transformer for Masked Image Modeling.md b/.../2022/220526 Green Hierarchical Vision Transformer for Masked Image Modeling.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.13515
+
+Green Hierarchical Vision Transformer for Masked Image Modeling (Lang Huang, Shan You, Mingkai Zheng, Fei Wang, Chen Qian, Toshihiko Yamasaki)
+
+mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 2: 이미지 토큰들을 모아서 일정 그룹 크기로 재배치한 다음 사용하기.
+
+#self_supervised 
diff --git a/papers/2022/220526 MixMIM.md b/papers/2022/220526 MixMIM.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.13137
+
+MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning (Jihao Liu, Xin Huang, Yu Liu, Hongsheng Li)
+
+mim이 좋은데, swin 같은 hierarchical vit에서도 mae처럼 마스크 토큰을 빼고 이미지 토큰만 사용해서 효율적으로 학습시킬 수 있을 것인가? 를 위한 방법 3: 애초에 마스크 토큰을 써야할 이유가 있을까? 마스킹을 하는 대신 다른 이미지를 섞어서 한 번에 두 가지 이미지를 recon 하게 만들면 된다.
+
+#self_supervised 
diff --git a/papers/2022/220526 Revealing the Dark Secrets of Masked Image Modeling.md b/papers/2022/220526 Revealing the Dark Secrets of Masked Image Modeling.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2205.13543
+
+Revealing the Dark Secrets of Masked Image Modeling (Zhenda Xie, Zigang Geng, Jingcheng Hu, Zheng Zhang, Han Hu, Yue Cao)
+
+supervised training / contrastive learning으로 학습된 vit는 상위 레이어로 갈수록 attention head들이 서로 유사해져서, 결과적으로 global한 관계를 모델링하고 더 넓은 영역을 커버하도록 학습됨. 그런데 masked image model로 학습된 vit는 상위 레이어에서도 attention head들이 diverse하고, global한 관계 뿐만 아니라 local한 관계, local한 영역을 커버하는 head들이 존재. 이 diversity와 locality가 downstream task에서 finetuning을 하는 과정에 도움이 된다는 설명. 그래서 반대로 supervised training을 한 경우에는 파인튜닝 시점에는 상위 레이어 weight는 쓰지 않는 것이 더 나은 패턴이 나타남.
+
+아예 locality 제약이 걸린 attention을 사용하는 케이스에는 어떨지가 흥미로운 부분이네요.
+
+#self_supervised #representation 
diff --git a/papers/2022/220527 FlashAttention.md b/papers/2022/220527 FlashAttention.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.14135
+
+FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré)
+
+메모리 접근 최적화로 attention 최적화. 속도가 2~4 배 빨라지고 모델 학습도 전반적으로 최대 1.5~2배 정도 빨라지는 것 같네요. A100/fp16/head dimension 제약이 있긴 한데 제약에만 부합한다면 쓰지 않을 이유는 없어 보입니다.
+
+#efficient_attention 
diff --git a/papers/2022/220527 GIT.md b/papers/2022/220527 GIT.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.14100
+
+GIT: A Generative Image-to-text Transformer for Vision and Language (Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang)
+
+florence를 이미지 인코더로 쓰고 텍스트 디코더에 같이 입력한 다음 text generation 학습. 0.8B 정도 데이터에 학습해서 수많은 visual/video qa, captioning, scene text recognition 벤치마크에서 sota를 달성했습니다.
+
+#multimodal 
diff --git a/papers/2022/220527 Sharpness-Aware Training for Free.md b/papers/2022/220527 Sharpness-Aware Training for Free.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.14083
+
+Sharpness-Aware Training for Free (Jiawei Du, Daquan Zhou, Jiashi Feng, Vincent Y. F. Tan, Joey Tianyi Zhou)
+
+sam이 꽤 의미있는 결과들을 보여주고 있지만 학습 시간 증가 때문에 부담스럽죠. 몇 에폭 전의 모델 출력 결과와 현 시점 모델 출력 결과 사이의 kl divergence를 패널티로 주거나 혹은 ema weight를 가지고 모델 결과를 뽑아서 패널티를 주는 방식으로 sharpness aware training을 구현했습니다. 메모리를 쓰거나 연산을 쓰거나 둘 중 하나네요.
+
+#regularization
diff --git a/papers/2022/220531 IDE-3D.md b/papers/2022/220531 IDE-3D.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2205.15517
+
+IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware Portrait Synthesis (Jingxiang Sun, Xuan Wang, Yichun Shi, Lizhen Wang, Jue Wang, Yebin Liu)
+
+이젠 3d face editing의 시대. 3d generative model을 구성하고 inversion을 위한 인코더도 만들고 semantic mask를 사용해서 에디팅까지. 정말 빠르게 움직였다 싶네요.
+
+#3d_generative_model #image_editing 
diff --git a/...022/220601 Elucidating the Design Space of Diffusion-Based Generative Models.md b/...022/220601 Elucidating the Design Space of Diffusion-Based Generative Models.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2206.00364
+
+Elucidating the Design Space of Diffusion-Based Generative Models (Tero Karras, Miika Aittala, Timo Aila, Samuli Laine)
+
+Karras 선생님이 diffusion 모델을 깎기 시작하셨네요. 샘플링, 학습, 모델 구조 개선으로 sampling iteration을 감소시키면서 cifar-10/imagenet-64의 성능을 sota/sota에 근접시켰습니다.
+
+#ddpm
diff --git a/papers/2022/220607 Can CNNs Be More Robust Than Transformers.md b/papers/2022/220607 Can CNNs Be More Robust Than Transformers.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2206.03452
+
+Can CNNs Be More Robust Than Transformers? (Zeyu Wang, Yutong Bai, Yuyin Zhou, Cihang Xie)
+
+convnext에서 보여줬던 cnn으로 vit 수준의 robustness를 확보할 수 있다는 결과의 연장선. patchify stem, 큰 커널 크기, normalization과 activation을 줄이는 것이 중요하다는 분석이네요. batch norm/relu를 사용했는데 layer norm/gelu와의 비교도 궁금하긴 합니다. 일단 batch norm과 relu를 사용하는 조건에서도 robustness를 증진시킬 수 있다는 것은 확인했네요.
+
+downstream task들에서도 이렇게 확보된 robustness가 도움이 될지도 궁금합니다.
+
+#robustness
diff --git a/...k Benchmark for Korean Legal Language Understanding and Judgement Prediction.md b/...k Benchmark for Korean Legal Language Understanding and Judgement Prediction.md
@@ -0,0 +1,5 @@
+https://arxiv.org/abs/2206.05224
+
+A Multi-Task Benchmark for Korean Legal Language Understanding and Judgement Prediction (Wonseok Hwang, Dongjun Lee, Kyoungyeon Cho, Hanuhl Lee, Minjoon Seo)
+
+원석님 이런 거 하고 계셨네요.
diff --git a/papers/2022/220612 GLIPv2.md b/papers/2022/220612 GLIPv2.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2206.05836
+
+GLIPv2: Unifying Localization and Vision-Language Understanding (Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao)
+
+제목 그대로 object localization (object detection, instance segmentation, visual grounding)과 vision-language understanding (vqa, captioning)을 위한 통합 모델 프리트레이닝. 어떻게 보면 요즘의 단순한 접근보다 훨씬 정교한 형태로 구성한 모델이라고 할 수도 있겠습니다. 이 방향도 꽤 흥미롭네요.
+
+#vision-language 
diff --git a/papers/2022/220614 RDU.md b/papers/2022/220614 RDU.md
@@ -0,0 +1,5 @@
+https://arxiv.org/abs/2206.06890
+
+RDU: A Region-based Approach to Form-style Document Understanding (Fengbin Zhu, Chao Wang, Wenqiang Lei, Ziyang Liu, Tat Seng Chua)
+
+마침 참고할만한 결과가 나왔네요. information extraction을 tagging이 아니라 region prediction으로 전환해서 태클한 결과입니다.
diff --git a/papers/2022/220615 A Unified Sequence Interface for Vision Tasks.md b/papers/2022/220615 A Unified Sequence Interface for Vision Tasks.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2206.07669
+
+A Unified Sequence Interface for Vision Tasks (Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David J. Fleet, Geoffrey Hinton)
+
+예상하던 그것이 나왔네요. multitask pix2seq. instance segmentation도 좌표 예측으로 통합이 가능하군요.
+
+#multitask #object_detection #instance_segmentation #keypoint 
diff --git a/...0615 Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone.md b/...0615 Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2206.07643
+
+Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone (Zi-Yi Dou, Aishwarya Kamath, Zhe Gan, Pengchuan Zhang, Jianfeng Wang, Linjie Li, Zicheng Liu, Ce Liu, Yann LeCun, Nanyun Peng, Jianfeng Gao, Lijuan Wang)
+
+vision language model에 localization 끼얹기. glip과 비슷한 목표라고 할 수도 있겠네요. 단 localization은 이미지 크기가 커야할 필요가 있기 때문에 학습이 부담스럽고, 그래서 한 번에 같이 학습하기보단 contrastive learning/mlm 같은 objective로 한 번 학습한 다음(coarse) localization을 다시 학습시키는 방법을 씁니다. cross attention 모듈을 optional 하게 만들어서 retrieval에도 쓸 수 있게 만들었습니다.
+
+localization이 추가되고 있는 것을 보면 vision-language에서 이쪽을 고려하는 것도 필요하겠다 싶네요.
+
+#vision-language 
diff --git a/papers/2022/220615 GRAM-HD.md b/papers/2022/220615 GRAM-HD.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2206.07255
+
+GRAM-HD: 3D-Consistent Image Generation at High Resolution with Generative Radiance Manifolds (Jianfeng Xiang, Jiaolong Yang, Yu Deng, Xin Tong)
+
+GRAM(https://arxiv.org/abs/2112.0886) 에 super resolution을 붙인 HD 버전이네요. GRAM은 성능이 어떤지 궁금하네요.
+
+https://www.youtube.com/watch?v=Uqzs4uN6v8M
+
+#3d_generative_model