Expliquer l’impact des graphes de connaissances dans les systèmes VQA

Améliorer la représentation relationnelle entre les objets détectés dans l’image, ou entre les entités en question et les objets dans l’image.

Projet de stage – hiver 2021

Stagiaire : Xavier Zientarski Capriles
Entreprise : Thales

La réponse visuelle aux questions (Visual Question Answering VQA [1]) a été introduite pour combler le fossé entre le traitement du langage naturel et les applications de compréhension des images dans l’espace commun de la vision et du langage. La plupart des benchmarks VQA calculent une représentation de la question en utilisant des techniques d’intégration de mots et des réseaux neuronaux récurrents (RNN), ainsi qu’un ensemble de descripteurs d’objets comprenant des coordonnées de boîtes englobantes et des vecteurs de caractéristiques d’images. Les représentations des mots et des images sont ensuite fusionnées et transmises à un réseau pour former un modèle VQA.

Toutefois, ces approches ne sont d’aucune utilité lorsque des connaissances allant au-delà du contenu visuel sont nécessaires.

L’intégration des connaissances externes présente plusieurs avantages. Les connaissances externes et les faits à l’appui peuvent améliorer la représentation relationnelle entre les objets détectés dans l’image, ou entre les entités en question et les objets dans l’image. Elles fournissent également des informations sur la manière dont la réponse peut être obtenue à partir de la question. Par conséquent, la complexité des questions peut être augmentée selon la base de connaissances de support.

Restons en contact!

Vous souhaitez être informé des nouvelles et activités de l'IID? Abonnez-vous dès maintenant à notre infolettre mensuelle.