Magazine High tech

Google dévoile Gemini AI, un concurrent direct de GPT au milieu des conflits internes d’OpenAI

Publié le 07 décembre 2023 par Zaebos @MetatroneFR

Google affirme que son modèle bat GPT-4 dans presque tous les benchmarks

Quelque chose à espérer: Google a enfin lancé Gemini, son modèle d’IA le plus avancé à ce jour. Le géant de la recherche le classe mieux que GPT-4 dans presque tous les benchmarks testés, mais peut-être devrions-nous éviter de nous enthousiasmer jusqu’à ce que des tests indépendants soient publiés.

Google semble avoir parfaitement chronométré le lancement de Gemini, car le développeur de GPT-4, OpenAI, se remet encore des luttes internes qui ont vu le PDG Sam Altman licencié et réembauché en quelques jours. Ce n’était probablement pas intentionnel, mais néanmoins avantageux puisque OpenAI aura besoin de plus d’une minute pour traiter et répondre à l’actualité.

Pendant ce temps, le train de battage publicitaire de Google tourne à plein régime, la société publiant plusieurs vidéos sur YouTube, X/Twitter et un long article sur son blog. Il ne s’agit pas de minimiser les capacités de l’IA, car les démonstrations partagées par les développeurs sont impressionnantes. Gardez simplement à l’esprit que Google est une entreprise à but lucratif et qu’elle présentera ses produits sous le meilleur jour possible.

Voir quelques questions sur ce que *est* les Gémeaux (au-delà du zodiaque :). La meilleure façon de comprendre les incroyables capacités sous-jacentes des Gémeaux est de les voir en action, jetez-y un œil… pic.twitter.com/OiCZSsOnCc

– Sundar Pichai (@sundarpichai) 6 décembre 2023

Avertissement mis à part, le post X de Sundar Pichai (ci-dessus) est probablement la meilleure vidéo démontrant les capacités des Gémeaux. Dans ce document, un chatbot infusé de Gemini montre qu’il comprend plusieurs types d’entrées – principalement audio et visuelles dans cet exemple. Cependant, Gemini est « multimodal », ce qui signifie qu’il peut comprendre les entrées de texte, d’image et de vidéo.

Par exemple, il peut identifier avec précision des objets dans des images ou des vidéos, transcrire des paroles en texte et générer une réponse cohérente à une requête complexe. Il peut distinguer les modes de communication et en déterminer la signification lorsque de nombreuses entrées sont utilisées simultanément. De même, il peut répondre en utilisant plusieurs types de sortie.

Le modèle AI est disponible en trois tailles. Gemini Ultra est le modèle le plus complexe destiné principalement aux centres de données. Gemini Pro est idéal pour évoluer vers des tâches spécifiques. Enfin, Gemini Nano a été conçu pour les « tâches sur appareil ». À titre d’exemple, Google a annoncé son intention d’intégrer Gemini Nano dans le Pixel 8 Pro.

L’analyse comparative de Google peut être quelque peu difficile à comprendre à moins que vous ne suiviez de près la formation et le développement de l’IA. Le PDG de DeepMind, Demis Hassabis, a expliqué les plus importants sur le blog de Google.

Gemini a obtenu un score de 90 %, un sommet dans l’industrie, dans le benchmark MMLU, qui mesure la compréhension massive du langage multitâche dans 57 matières comme les mathématiques, la physique, le droit et l’éthique. Google affirme que cela bat le score de 86,4 % de GPT-4. Le benchmark utilise uniquement la saisie de texte, mais le score élevé indique que Gemini a une compréhension supérieure de la langue dans diverses matières, ce qui le rend potentiellement plus polyvalent et pratique dans diverses applications.

Hassabis affirme également que Gemini bat GPT-4 de 59,4 à 56,8 % dans le nouveau benchmark MMMU (Massive Multidiscipline Multimodal Understanding and Reasoning). Ce test mesure les compétences de l’IA à raisonner délibérément sur des « tâches multidisciplinaires avec une compréhension de niveau universitaire » du sujet.

Les développeurs ont répertorié 16 autres benchmarks. « HellaSwag » (raisonnement de bon sens pour les tâches quotidiennes) est le seul pour lequel le GPT-4 d’OpenAI a affiché un score plus élevé (95,3 à 87,8 %). La plupart des autres scores qui montrent que les Gémeaux sont en tête sont si proches qu’ils sont négligeables.

Gemini a commencé à se lancer sur une gamme de plates-formes. Bard de Google a déjà reçu l’intégration de Gemini Pro. Il s’agit de la mise à jour la plus importante jamais réalisée pour l’assistant chatbot et elle est disponible dans plus de 170 pays, mais uniquement en anglais. Google affirme que d’autres langues sont en préparation.

Google dévoile Gemini AI, un concurrent direct de GPT au milieu des conflits internes d’OpenAI

Comme mentionné précédemment, Gemini Nano est ajouté au Pixel 8 Pro. La société prévoit également d’intégrer Gemini dans ses autres produits, notamment Search, Ads, Chrome et Duet AI. Une API Gemini Pro sera disponible pour les utilisateurs professionnels le 13 décembre.

Gemini Ultra n’est pas encore disponible. Google effectue toujours des contrôles de confiance et de sécurité sur son modèle le plus complexe. Ultra devrait commencer à être déployé auprès des développeurs et des entreprises clientes pour une « expérimentation précoce » au cours de la première partie de l’année prochaine.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Zaebos 7622 partages Voir son profil
Voir son blog