WebPage

[Google Scholar] 🏢 Central 1, 1-1-1 Umezono, Tsukuba, Ibaraki 305-8560, JAPAN 📧 rintaro.yanagi [at] aist.go.jp

About me

I am a researcher with the Computer Vision Research Team at the National Institute of Advanced Industrial Science and Technology (AIST) [site]. My research interests lie in vision and language, generative models, retrieval, and interaction. I am passionate about developing AI systems that can achieve goals through user-centered interaction.

Work Experience

Apr, 2024 – present Researcher, Computer Vision Research Team, National Institute of Advanced Industrial Science and Technology

Education

Apr, 2021 – Mar, 2024 Ph.D., Information Science and Technology, Hokkaido University
Apr, 2019 – Mar, 2021 MS, Information Science and Technology, Hokkaido University
Apr, 2015 – Mar, 2019 B.S., Department of Engineering, Hokkaido University

Publications

Journal Articles

Maintaining VLM Performance with Latent Optimization-Based Image Synthesis, Ren Ohkubo, Rintaro Yanagi, Hirokatsu Kataoka, Yutaka Satoh, Journal of the Japan Society for Precision Engineering.
AMDIS: Amplitude dissimilarity reduced reference IQA metric for neural radiance, Ren Togo, Rintaro Yanagi, Masato Kawai, Takahiro Ogawa, Miki Haseyama. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences.
Parameter-efficient tuning of cross-modal retrieval for a specific database via trainable textual and visual prompts, Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, International Journal of Multimedia Information Retrieval.
Material compound-property retrieval using electron microscope images for rubber material development, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Access.
Cross-modal image retrieval considering semantic relationships with many-to-many correspondence loss, Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Access.
Recallable question answering-based re-ranking considering semantic region for cross-modal retrieval, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Open Journal of Signal Processing.
Interactive re-ranking via object entropy-guided question answering for cross-modal image retrieval, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, ACM Transactions on Multimedia Computing, Communications, and Applications.
Domain Adaptive Cross-Modal Image Retrieval via Modality and Domain Translations, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences.
Enhancing cross-modal retrieval based on modality-specific and embedding spaces, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Access.
Text-to-Image GAN-based scene retrieval and re-ranking considering word importance, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Access.
Query is gan: Scene retrieval with attentional text-to-image generative adversarial network, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Access.

Conference/Workshop Papers

PowerCLIP: Powerset Alignment for Fine-Grained Contrastive Pre-Training, Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi, Hirokatsu Kataoka, CVPR 2026
CLIP-like Model as a Foundational Density Ratio Estimator, Fumiya Uchiyama, Rintaro Yanagi, Shohei Taniguchi, Shota Takashiro, Masahiro Suzuki, Hirokatsu Kataoka, Yusuke Iwasawa, Yutaka Matsuo, CVPR 2026.
Approximate Domain Unlearning for Vision-Language Models, Kodai Kawamura, Yuta Goto, Rintaro Yanagi, Hirokatsu Kataoka, Go Irie, NeurIPS 2025, Spotlight.
Forgetting visual domains in vision-language models, Yuta Goto, Kodai Kawamura, Rintaro Yanagi, Hirokatsu Kataoka, Go Irie, ICCV Workshop LIMIT.
Synthetic text-to-image pre-training through fractals with pseudo-captions, Jumpei Nakao, Yuto Shibata, Rintaro Yanagi, Masaru Isonuma, Hirokatsu Kataoka, Junichiro Mori, Ichiro Sakata, ICCV Workshop T2FM.
Boosting synthetic data for VLMs via diffusion noise optimization, Ren Ohkubo, Rintaro Yanagi, Hirokatsu Kataoka, Yutaka Satoh, CVPR Workshop SynData4CV.
GASR: Generated artwork dataset for image super-resolution, Noritake Kodama, Go Ohtani, Yuto Matsuo, Rintaro Yanagi, Nakamasa Inoue, Yoshimitsu Aoki, Hirokatsu Kataoka, CVPR Workshop SynData4CV.
DQG: Database question generation for exact text-based image retrieval, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, ACM International Conference on Multimedia, Oral.
Zero-shot composed image retrieval considering query-target relationship leveraging masked image-text pairs, Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE International Conference on Image Processing.
Learning 3d point cloud registration as a single optimization problem, Rintaro Yanagi, Atsushi Hashimoto, Naoya Chiba, Yoshitaka Ushiku, Asian Conference on Computer Vision.
Personalized content recommender system via non-verbal interaction using face mesh and Facial Expression, Yuya Moroto, Rintaro Yanagi, Naoki Ogawa, Kyohei Kamikawa, Keigo Sakurai, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama, ACM International Conference on Multimedia Demo Track.
Reference-based dense pose estimation via partial 3D point cloud matching, Rintaro Yanagi, Atsushi Hashimoto, Naoya Chiba, Yoshitaka Ushiku, ACM International Conference on Multimedia Demo Track.
Parameter-efficient Tuning of a pre-trained model via prompt learning in cross-modal retrieval, Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE International Conference on Consumer Electronics-Taiwan.
Rubber material retrieval system using electron microscope images for rubber material development, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, ACM International Conference on Multimedia Demo Track.
Free-viewpoint sports video generation based on dynamic NeRF considering time series, Masato Kawai, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Global Conference on Consumer Electronics.
Cross-modal image retrieval considering semantic relationships with object information, Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Global Conference on Consumer Electronics.
Database-adaptive re-ranking for enhancing cross-modal image retrieval, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, ACM International Conference on Multimedia, Oral.
IR Questioner: QA-based interactive retrieval system, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, ACM International Conference on Multimedia Retrieval.
Interactive re-ranking for cross-modal retrieval based on object-wise question answering, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, ACM International Conference on Multimedia Asia, Bestpaper runner-up.
Image retrieval with lingual and visual paraphrasing via generative models, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE International Conference on Image Processing.
Image retrieval with data augmentation of sentence labels based on paraphrasing, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE International Conference on Consumer Electronics-Taiwan.
Voice-input multimedia information retrieval system based on Text-to-image GAN, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Global Conference on Consumer Electronics Demo Track.
Scene retrieval using text-to-image GAN-based visual similarities and image-to-text model-based textual similarities, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Global Conference on Consumer Electronics.
Scene Retrieval for Video Summarization Based on Text-to-Image GAN, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE International Conference on Image Processing.
Scene retrieval from multiple resolution generated images based on text-to-image GAN, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE International Symposium on Circuits and Systems.
Image retrieval from vague description based on AttnGAN, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, IEEE Global Conference on Consumer Electronics.

Preprints / Informal Publications

The Effects of Short Video-Sharing Services on Video Copy Detection, Rintaro Yanagi, Yamato Okamoto, Shuhei Yokoo, Shinichi Satoh, CoRR / arXiv.
Edge-Selective Feature Weaving for Point Cloud Matching, Rintaro Yanagi, Atsushi Hashimoto, Shusaku Sone, Naoya Chiba, Jiaxin Ma, Yoshitaka Ushiku, CoRR / arXiv.

Awards

DIA2025 研究奨励賞, 「大規模データセットの精度維持に向けた欠損画像補間手法の提案」.
Dean’s Award at Hokkaido University Graduate School of Information Science and Technology (Ph.D.)
MIRU2022 学生奨励賞
The 2022 IEEE Sapporo Section Student Paper Contest Encouraging Prize
IEEE GCCE 2022 Excellent Poster Award Silver Prize
2021 IEEE Sapporo Section Paper Awards, Encouragement Award Winner
Dean’s Award at Hokkaido University Graduate School of Information Science and Technology(MS)
Best Paper Runner-up Award of ACM Multimedia Asia 2020
2020 IEEE Sapporo Section Paper Awards, Best Paper Award Winner
2019 IEEE 8th Global Conference on Consumer Electronics (GCCE 2019) Outstanding Prize IEEE GCCE2019 Excellent Demo! Award

Patents

モデル生成方法、モデル生成装置、推論プログラム、及び推論装置, 柳凜太郎, 橋本敦史, 千葉直也, 牛久祥孝, 出願日: 2022/01/20.

Domestic Conference / Symposium / Technical Reports

AttnGAN を用いたシーン検索に関する検討ー再検索の導入による高精度化ー, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 平成30年度電気・情報関係学会北海道支部連合大会.
敵対的生成ネットワークにより文から生成される画像の意味的評価に関する検討, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, イメージ・メディア・クオリティ研究会 (IMQ), 2019.
敵対的生成ネットワークに基づくドメイン適応可能な文をクエリとする画像・映像検索手法に関する検討, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 第22回画像の認識・理解シンポジウム (MIRU), 2019.
画像内の物体に着目した画像検索に関する検討 - RetinaNet を用いた物体認識に基づく高精度化 -, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 映像情報メディア学会技術報告, vol.44, no.6, 2020.
ゴム材料開発のための conditional StyleGAN に基づく配合量からの電子顕微鏡画像の生成に関する検討, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 映像情報メディア学会技術報告, vol.45, no.4, 2021.
ゴム材料開発のための generative adversarial network に基づく配合量および物性値からの電子顕微鏡画像の生成に関する一検討, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 映像情報メディア学会技術報告, vol.46, no.6, 2022.
データベース特化型クロスモーダル画像検索のためのテキストプロンプトチューニングに関する検討, 張華瀛, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 映像情報メディア学会技術報告, vol.47, no.6, 2022.
フーリエ振幅成分を考慮した neural radiance fields のノンリファレンス評価指標に関する検討, 河合雅斗, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 令和4年度電気・情報関係学会北海道支部連合大会, 2022.
Database-adaptive transfer learning for question answering-based re-ranking in cross-modal retrieval, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 第25回画像の認識・理解シンポジウム (MIRU), 2023.
画像とテキストの関係性を考慮した textual inversion に基づく zero-shot composed image retrieval 手法に関する検討, 張華瀛, 柳凜太郎, 藤後廉, 小川貴弘, 長谷山美紀, 令和5年度電気・情報関係学会北海道支部連合大会.
Integrating Query-target Relationship to Zero-shot Composed Image Retrieval from Masked Image-text Pairs, Huaying Zhang, Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama, 第27回画像の認識・理解シンポジウム (MIRU 2024), Oral.
Forgetting Visual Domains in Vision-Language Models, Yuta Goto, Kodai Kawamura, Rintaro Yanagi, Hirokatsu Kataoka, Go Irie, 画像の認識・理解シンポジウム (MIRU 2025), Oral.
大規模データセットの精度維持に向けた欠損画像補間手法の提案, 大久保蓮, 柳凜太郎, 片岡裕雄, 佐藤雄隆, DIA2025.