技術的特異点 - Part 2

paper-reading 2026年1月23日

【論文紹介】Inception / GoogLeNet：深層学習で画像認識の「深み」を探る！

今回は、2014年のImageNet Large-Scale Visu…

paper-reading 2026年1月22日

【論文紹介】SAM 3: 任意の概念で画像をセグメンテーション！　進化するSegment Anything Model　3

論文タイトル: SAM 3: Segment Anything wit…

paper-reading 2026年1月21日

【論文紹介】動画と画像をシームレスにセグメンテーションする「Segment Anything Model 2（SAM2）」とは？

本記事では、動画と画像の両方に対応する汎用的なセグメンテーションモデル…

paper-reading 2026年1月20日

【論文紹介】YOLOv7: リアルタイム物体検出の新しいSOTAを達成するTrainable bag-of-freebies

今回ご紹介するのは、リアルタイム物体検出の分野で新たなState-of…

paper-reading 2026年1月20日

【論文紹介】テキスト指示で画像を自由生成！ DALL-Eを解説

論文情報: Zero-Shot Text-to-Image Gener…

paper-reading, vlm 2026年1月19日

【論文紹介】InternVL: 大規模Vision Foundation Modelが汎用的な視覚言語タスクでSOTAを達成

論文タイトル: InternVL: Scaling up Vision…

paper-reading, vlm 2026年1月19日

【論文紹介】VLM構築の最適解を探る！　「What matters when building vision-language models?」

論文タイトル: What matters when building …

paper-reading, vlm 2026年1月19日

【論文紹介】Qwen2-VL: 任意の解像度で世界を認識する革新的な多モーダルモデル

本日ご紹介するのは、Alibaba GroupのQwen Teamが発…

paper-reading, vlm 2026年1月18日

【論文紹介】CoCa: 画像とテキストの基盤モデルを一歩前進させるContrastive Captioners

論文名: CoCa: Contrastive Captioners a…

paper-reading, vlm 2026年1月18日

【論文紹介】InstructBLIP：指示チューニングで汎用Vision-Languageモデルを実現する新手法

本記事では、近年注目を集めるVision-Languageモデルの分野…