La récupération d'images basée sur le contenu (CBIR) est un ensemble de techniques permettant de récupérer des images sémantiquement pertinentes à partir d'une base de données d'images, en se basant sur des caractéristiques d'image ou sur le contenu de l'image dérivés automatiquement. Les premières approches CBIR montrent que les caractéristiques de bas niveau utilisées pour représenter les images sont souvent des caractéristiques globales extraites d'une image entière. Cependant, les performances de ces approches CBIR sont encore loin des attentes des utilisateurs. Ce problème peut être dû aux deux raisons suivantes. Premièrement, il n'est pas rare que les cibles, pour lesquelles l'utilisateur effectue une recherche via un système de récupération d'images, ne soient pas des images, mais des objets visuels dans des images. Les caractéristiques globales extraites de l'image ne peuvent pas représenter les caractéristiques des objets dans ces images. Deuxièmement, les caractéristiques utilisées dans la plupart des travaux CBIR sont des caractéristiques de bas niveau (couleur, texture et forme, etc.). L'écart sémantique entre les caractéristiques de bas niveau et la compréhension sémantique de haut niveau des images est souvent difficile à combler.