Magazine Gadgets

MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel

Publié le 24 avril 2023 par Mycamer
MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_2.png" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="100%" />
Image de l’auteur

Nous assistons à un développement rapide de ChatGPT alternatives open source, mais personne ne travaille sur l’alternative GPT-4, qui offre la multimodalité. GPT-4 est un modèle multimodal avancé et puissant qui accepte les images et le texte en entrée et génère une réponse textuelle. Il peut résoudre des problèmes complexes avec plus de précision et apprendre de ses erreurs.

Dans cet article, nous découvrirons MiniGPT-4, une alternative open source au GPT-4 d’OpenAI qui peut comprendre à la fois le contexte visuel et textuel tout en étant léger.

Semblable à GPT-4, MiniGPT-4 peut présenter une génération de description d’image détaillée, écrire des histoires à l’aide d’images et créer un site Web à l’aide de l’interface utilisateur dessinée à la main. Il y parvient en utilisant un modèle de grande langue (LLM) plus avancé.

Vous pouvez en faire l’expérience vous-même en essayant la démo : MiniGPT-4 – un espace facial enveloppant par Vision-CAIR.

MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_4.png" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="100%" />
Image par l’auteur | Démo MiniGPT-4

Les auteurs de MiniGPT-4 : Améliorer la compréhension du langage visuel avec des modèles avancés de langage étendu ont constaté que la pré-formation sur des paires image-texte brutes pouvait produire des résultats médiocres qui manquaient de cohérence, notamment des répétitions et des phrases fragmentées. Pour contrer ce problème, ils ont organisé un ensemble de données de haute qualité et bien aligné et affiné le modèle à l’aide d’un modèle conversationnel.

Le modèle MiniGPT-4 est très efficace en termes de calcul, car ils n’ont formé qu’une couche de projection utilisant environ 5 millions de paires image-texte alignées.

MiniGPT-4 aligne un encodeur visuel gelé avec un LLM gelé appelé Vicuna en utilisant une seule couche de projection. L’encodeur visuel se compose de modèles ViT et Q-Former pré-entraînés qui sont connectés à un grand modèle de langage Vicuna avancé via une seule couche de projection linéaire.

MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_5.jpg" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="70%" />
Image par l’auteur | L’architecture de MiniGPT-4.

MiniGPT-4 ne nécessite que la formation de la couche linéaire pour aligner les caractéristiques visuelles avec Vicuna. Ainsi, il est léger, nécessite moins de ressources de calcul et produit des résultats similaires à GPT-4.

Si vous regardez les résultats officiels sur minigpt-4.github.io, vous verrez que les auteurs ont créé un site Web en téléchargeant l’interface utilisateur dessinée à la main et en lui demandant d’écrire un site Web HTML/JS. Le MiniGPT-4 a compris le contexte et a généré du code HTML, CSS et JS. C’est étonnant.

MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_1.png" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="50%" />MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_7.png" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="35%" />
Image de minigpt-4.github.io

Ils ont également montré comment vous pouvez utiliser le modèle pour générer une recette en fournissant des images d’aliments, en écrivant des publicités pour le produit, en décrivant une image complexe, en expliquant la peinture, etc.

Essayons cela par nous-mêmes en nous dirigeant vers le MiniGPT-4 démo. Comme nous pouvons le voir, j’ai fourni l’image générée par Bing AI et j’ai demandé au MiniGPT-4 d’écrire une histoire en l’utilisant. Le résultat est incroyable.

L’histoire est cohérente.

MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_6.png" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="100%" />
Image par l’auteur | Démo MiniGPT-4

Je voulais en savoir plus, alors je lui ai demandé de continuer à écrire, et tout comme un chatbot IA, il a continué à écrire l’intrigue.

MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_8.png" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="100%" />
Image par l’auteur | Démo MiniGPT-4

Dans le deuxième exemple, je lui ai demandé de m’aider à améliorer la conception de l’image, puis je lui ai demandé de générer des sous-titres pour le blog à l’aide de l’image.

MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel<img decoding="async" src="https://www.kdnuggets.com/wp-content/uploads/awan_minigpt4_lightweight_alternative_gpt4_enhanced_visionlanguage_understanding_3.png" alt="MiniGPT-4 : une alternative légère au GPT-4 pour une meilleure compréhension du langage visuel" width="100%" />
Image par l’auteur | Démo MiniGPT-4

MiniGPT-4 est incroyable. Il apprend de ses erreurs et produit des réponses de haute qualité.

MiniGPT-4 possède de nombreuses fonctionnalités avancées de langage de vision, mais il est toujours confronté à plusieurs limitations.

  • Actuellement, l’inférence du modèle est lente même avec des GPU haut de gamme, ce qui peut entraîner des résultats lents.
  • Le modèle est construit sur les LLM, il hérite donc de leurs limites comme une capacité de raisonnement peu fiable et des connaissances inexistantes hallucinantes.
  • Le modèle a une perception visuelle limitée et peut avoir du mal à reconnaître les informations textuelles détaillées dans les images.

Le projet comprend une formation, un réglage fin et une inférence du code source. Il comprend également des poids de modèle accessibles au public, un ensemble de données, un document de recherche, une vidéo de démonstration et un lien vers la démonstration de Hugging Face.

Vous pouvez commencer à pirater, commencer à affiner le modèle sur votre jeu de données ou simplement expérimenter le modèle à travers diverses instances de la démo officielle sur la page officielle.

C’est la première version du modèle. Vous verrez une version plus améliorée dans les prochains jours, alors restez à l’écoute.

Abid Ali Awan (@1abidaliawan) est un spécialiste des données certifié qui aime créer des modèles d’apprentissage automatique. Actuellement, il se concentre sur la création de contenu et la rédaction de blogs techniques sur les technologies d’apprentissage automatique et de science des données. Abid est titulaire d’une maîtrise en gestion de la technologie et d’un baccalauréat en génie des télécommunications. Sa vision est de créer un produit d’IA utilisant un réseau de neurones graphiques pour les étudiants aux prises avec une maladie mentale.



to www.kdnuggets.com


Abonnez-vous à notre page Facebook: https://www.facebook.com/mycamer.net
Pour recevoir l’actualité sur vos téléphones à partir de l’application Telegram cliquez ici: https://t.me/+KMdLTc0qS6ZkMGI0
Nous ecrire par Whatsapp : Whatsapp +44 7476844931



Retour à La Une de Logo Paperblog

A propos de l’auteur


Mycamer Voir son profil
Voir son blog

l'auteur n'a pas encore renseigné son compte l'auteur n'a pas encore renseigné son compte

Magazines