Le MUM de Google, 1000 fois plus puissant que BERT!

La compréhension du langage naturel, par les algorithmes de Google, ne fut pas une mince affaire. Google a toujours essayé de dépasser la compréhension simpliste du langage à base d’une succession non interactive et décontextualisée, de mots clefs.

L’obsession des ingénieurs de Mountain View, a toujours été de contextualiser les mots et de comprendre les relation biunivoques qu’ils entretiennent entre eux dans une phrase, ceci afin de mieux cerner l’intention de l’usager et d’y répondre de manière plus satisfaisante, mais aussi de se prémunir contre les manipulations de l’algorithme par les furieux primaires des mots clef, du spin et autres facéties de la SEO bas de gamme.

Mais à ce jour, les ressources matérielles et intellectuelle pour relever ce défi titanesque, qui revient ni plus ni moins, pour Google, à lire et comprendre le langage écrit (presque) comme un humain, faisaient défaut. L’essor du Big Data, les investissement colossaux de Google, dans le secteur de l’intelligence artificielle via sa maison mère, devenue désormais alphabet ( cela veut tout dire ) ont rendu l’exploit possible et à portée de main. Et  c’est au cours de la grand-messe auto promotionnelle de Google de cette année, le IO 2021 présentée ici par le président , Sundar Pichai, CEO de Google et Alphabet, que Google a dévoilé au monde son nouveau modèle de traitement complexe du langage baptisé MUM comme, modèle multi-tache unifié. Il faut préciser que MUM n’est toujours pas actif à ce jour au niveau de SERP c’est-à-dire au niveau des résultats de recherche de Google. Il est toujours en phase expérimentale. Son prédécesseur BERT, déployé en France en décembre 2019 et actif dans les SERP, bien que infiniment moins puissant que MUM , fut une avancée majeure pour Google dans le traitement du langage parlé et d’une approche plus fine de l’intention usager à travers sa requête.

Les prémisses conceptuelles de MUM depuis le modèle originel nommé BERT

BERT est une couche algorithmique basée sur un réseau neuronal pour le traitement du langage naturel (PNL) qui a été pré-formée sur le corpus Wikipédia. L’acronyme complet lit « Bidirectional Encoder Representations from Transformers » (les représentations d’encodeur bidirectionnel des transformateurs.). C’est un algorithme d’apprentissage automatique censé apporter une meilleure compréhension des requêtes et du contenu.

La chose la plus importante à retenir est que BERT utilise le contexte et les relations de tous les mots d’une phrase, plutôt qu’un mot après l’autre dans leur ordre d’apparition. Ainsi, BERT peut comprendre le contexte complet d’un mot en analysant les mots qui viennent avant et après. La partie bidirectionnelle de celui-ci rend BERT unique.

En appliquant cela, Google peut mieux comprendre l’essentiel d’une requête. Google a publié plusieurs exemples de requêtes dans le billet de blog de lancement.

BERT prend TOUT en compte dans la phrase et en découvre ainsi le vrai sens.

Un exemple concret :

  • “2019 brazil traveler to USA need a visa” (“2019 un voyageur Brézilien a besoin d’un visa pour se rendre aux USA”)

Maintenant Google est capable de repérer le mot “to” et de comprendre qu’il s’agit d’un Brésilien souhaitant se rendre aux USA. Autrefois Google ne comprenait pas l’importance de cette connexion et pouvait renvoyer des résultats au sujet de citoyens Américains voyageant au Brésil, la réponse sera donc non adaptée à la requête.

exemple du fonctionnent de google bert

Exemple concret Google Bert

Comme vous pouvez le voir dans l’exemple, BERT fonctionne mieux dans les requêtes plus complexes. Ce n’est pas quelque chose qui intervient lorsque vous effectuez une recherche à partir des termes principaux, mais plutôt des requêtes dans la longue traîne. Pourtant, Google affirme que cela aura un impact sur toutes les recherches sur dix. Et même dans ce cas, Google dit que BERT se trompera parfois. Ce n’est pas la solution ultime à la compréhension des langues.

  • Dernière mise à jour de Google: BERT

Les enseignements les plus importants de cette mise à jour de BERT sont que Google se rapproche encore une fois de la compréhension du langage au niveau humain. Pour les classements, cela signifie qu’il présentera des résultats qui correspondent mieux à cette requête et qui ne peuvent être qu’une bonne chose.

Il n’y a pas d’optimisation pour BERT autre que le travail que vous faites déjà: produire un contenu pertinent d’excellente qualité.

Le document original de BERT (pdf) contient tout ce dont vous avez besoin pour comprendre comment BERT fonctionne exactement. Malheureusement, c’est très savant et la plupart des gens ont besoin d’une «traduction».

Vidéo complète du webinaire

Qu’est-ce que MUM: Multitask United Model?

Le brevet déposé par Google le 19 mars 2020, aux USA, porte ne le numéro US20200089755A1

( Voir PDF complet du brevet en Anglais).

Google définit ainsi son projet dans sa présentation liminaire absolument illisible et indigeste je vous prévins :

L’invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur des supports de stockage informatique pour entraîner un modèle d’apprentissage automatique à exécuter plusieurs tâches d’apprentissage automatique à partir de plusieurs domaines d’apprentissage automatique. Un système comprend un modèle d’apprentissage automatique qui comprend de multiples réseaux neuronaux de modalité d’entrée correspondant à différentes modalités respectives et étant configuré pour mapper les entrées de données reçues de la modalité correspondante à des entrées de données mappées à partir d’un espace de représentation unifié; un réseau neuronal de codeur configuré pour traiter des entrées de données mappées à partir de l’espace de représentation unifié pour générer des sorties de données de codeur respectives; un réseau neuronal de décodeur configuré pour traiter les sorties de données de codeur pour générer des sorties de données de décodeur respectives à partir de l’espace de représentation unifié;et de multiples réseaux neuronaux de modalité de sortie correspondant à différentes modalités respectives et étant configurés pour mapper les sorties de données de décodeur sur les sorties de données de la modalité correspondante.

Plus simple, MUM est un modèle de langage construit sur le même système de transformateur que BERT, qui a fait des vagues en 2019. BERT est un modèle de langage puissant qui a fait une percée lors de sa sortie. MUM, cependant, fait monter les enchères: selon Google, il est censé être 1000 fois plus puissant que BERT.

Une grande partie de ce pouvoir vient du fait qu’il peut effectuer plusieurs tâches à la fois. Il n’a pas à faire une tâche après l’autre, mais il peut gérer plusieurs tâches simultanément.

Cela signifie qu’il peut lire du texte, comprendre le sens, acquérir des connaissances approfondies sur le sujet, utiliser la vidéo et l’audio pour renforcer et enrichir cela, obtenir des informations dans plus de 75 langues et traduire ces résultats en un contenu multicouche qui répond à des questions complexes. Tout à la fois!

Une idée de la puissance de Google MUM

Lors de I / O 2021, Prabhakar Raghavan de Google a donné un aperçu de la façon dont cela fonctionnerait. Il a utilisé la requête complexe «J’ai parcouru le Mt. Adams et maintenant je veux faire une randonnée sur le Mt. Fuji l’automne prochain, que dois-je faire différemment pour me préparer? » pour démontrer ce que MUM pourrait faire. Dans une session de recherche régulière, vous devrez rechercher vous-même tous les différents aspects. Une fois que vous avez tout, vous devez le combiner pour avoir toutes les réponses aux questions.

Maintenant, MUM combinerait des informations provenant de nombreuses sources différentes sur de nombreux aspects différents de la recherche, de la mesure des montagnes à la suggestion d’un imperméable, car c’est la saison des pluies sur le Mt. Fuji et même à l‘extraction des informations de sources japonaises. Après tout, il y a beaucoup plus d’écrits sur ce sujet spécifique dans cette langue.

processus de recherche MUM google

Dans des requêtes complexes comme celle-ci, tout se résume à combiner des entités, des sentiments et une intention pour comprendre ce que signifie quelque chose. Les machines ont du mal à comprendre le langage humain, et les modèles de langage comme BERT et MUM s’en rapprochent vraiment.

MUM va encore plus loin en traitant le langage et en ajoutant de la vidéo et des images car il est multimodal. Cela permet de générer un résultat riche qui répond à la requête en présentant un tout nouveau contenu. MUM sera même intégré à Google Lens, vous pouvez donc pointer votre appareil photo vers vos chaussures de randonnée et demander si celles-ci sont adaptées pour faire cette randonnée jusqu’au Mt. Fuji!

Bien sûr, l’objectif final de tout cela est de vous aider à obtenir plus d’informations avec moins de requêtes de recherche – probablement dans les limites de Google lui-même. Nous avons constaté une augmentation constante des résultats riches et des réponses rapides, qui deviennent également plus visuelles et plus visibles de jour en jour. De nombreux autres développements, à la fois à l’intérieur et à l’extérieur de la recherche, brossent l’image d’un Google qui cherche à fournir lui-même la plupart des réponses à vos questions.

Sur la voie d’une recherche conversationnelle et visuelle entièrement alimentée par l’AI

Google se dirige ouvertement vers un moteur de recherche entièrement alimenté par l’AI. Un moteur de recherche n’est même pas le mot juste ici, car il s’agit plutôt d’une machine de présentation de connaissances. Et cela ne se passe pas dans le vide de cette fameuse barre de recherche.

De plus en plus, Google ouvre l’idée de la recherche pour inclure des entrées provenant de nombreuses autres sources, à savoir:

  • Microphones
  • Caméras
  • Téléviseurs
  • Appareils portables
  • Haut-parleurs intelligents

Pour servir toutes ces différentes cibles d’une manière qui a du sens sur ces machines, la recherche et la présentation de la recherche doivent changer. Un microphone sur votre tracker de fitness doit entendre et comprendre votre requête, tandis que l’assistant doit faire quelque chose avec et répondre avec quelque chose d’utile.

La compréhension du langage est essentielle. Le développement de modèles de langage ultra-puissants, efficaces et flexibles qui peuvent générer du contenu pour fournir ces réponses de manière succincte et naturelle deviendra essentiel.

À I / O 2021, nous en avons vu un autre exemple: LaMDA.

LaMDA: modèle de langage pour les applications de dialogue

LaMDA, ou modèle de langage pour les applications de dialogue, est un autre grand tour de tête de l’AI dans la keynote I / O 2021 de Google. Il s’agit d’une nouvelle technologie pour communiquer avec une AI – comme un chatbot – beaucoup plus naturellement.

Il peut converser d’une manière plus fluide que les AI précédentes, car celles-ci suivent souvent un chemin simple de A à B. Les chatbots sont facilement confus lorsque vous changez de sujet, par exemple.

LaMDA entreprend de résoudre ce problème. Le modèle peut acquérir une grande quantité de connaissances sur un sujet et s’engager dans un dialogue bidirectionnel complet, même s’il s’aventure en dehors du sujet d’origine.

Google a montré une démonstration d’un modèle LaMDA formé sur la connaissance de la planète Pluton pour en discuter avec l’un des chercheurs. Ce n’est pas parfait, mais cela donne une bonne idée du genre d’avenir auquel nous pouvons nous attendre.

Les questions qui vont forcément surgir

Tous ces développements soulèvent des questions, bien sûr. Par exemple, si Google peut vraiment lire, entendre et voir du contenu dans toutes les langues et le reconditionner dans un nouveau format – avec le contexte et le contenu généré par l’AI – qui en est le propriétaire? Et qui est responsable de ce que contiennent ces résultats automatisés? Est-ce un autre clou dans le cercueil pour les producteurs de contenu?

Et qu’en est-il des préjugés dans l’AI? Les préjugés et l’éthique sont des sujets énormes dans l’AI, et si nous parlons vraiment d’étapes vers un avenir propulsé par l’AI, nous devons être assurés de sa neutralité et de sa fiabilité.

Bien sûr, Google mentionne spécifiquement le biais de l’AI dans son article et continue de former le modèle. C’est bon à savoir, mais on se demande jusqu’où cela va – et qui va contrôler les observateurs?

Google met MUM à l’épreuve

Google teste actuellement MUM et continuera de le faire avant d’être sûr de son fonctionnement et de l’ajouter aux systèmes par la suite. Il n’y a pas de calendrier précis pour savoir quand cela se fera, mais dans le cas de BERT, ça n’a pas beaucoup trainé.

L’introduction de MUM pourrait simplement signifier de meilleurs résultats de recherche. Néanmoins, cela pourrait également signifier un nouveau type de résultat de recherche où la part déjà importante des contenus automatisés issus du kwowledge graph serait encore plus prépondérante au détriment des véritables éditeurs de contenus. Car après tout, MUM se nourrira du travail des hommes, MUM ne pense pas, n’invente pas, ne créé pas, il compile de manière industrielle le travail laborieux des hommes.

Lire aussi:

Nouveautés

Logiciels ERP : Top 10 pour les petites entreprises en 2023

Logiciels ERP : Top 10 pour les petites entreprises en 2023

Que vous soyez à la tête d'une grande ou d'une petite entreprise, la fluidité des opérations et l'efficacité des résultats sont des choses que tout le monde espère. C'est pourquoi il existe de nombreux logiciels et outils pour vous aider à maintenir la qualité et...

4 experts prédisent le rôle de l’IA dans l’avenir du SEO

4 experts prédisent le rôle de l’IA dans l’avenir du SEO

L'IA est en train de changer le visage du SEO. Nous parlons d'algorithmes qui permettent aux machines d'établir des connexions, d'"apprendre" à traiter des données et d'appliquer cet apprentissage à des tâches futures. Fondamentalement, les améliorations de...

Google lance la mise à jour de base d’août 2023

Google lance la mise à jour de base d’août 2023

Google a annoncé le lancement de la mise à jour centrale d'août 2023. L'entreprise a indiqué qu'elle mettrait à jour sa page d'historique des mises à jour du classement une fois le déploiement de la mise à jour terminé. Google publie régulièrement des mises à jour de...

SEO Monitoring : Le guide 2023 des métriques et outils

SEO Monitoring : Le guide 2023 des métriques et outils

L'intérêt des entreprises pour l'augmentation de l'exposition en ligne de leurs marques a stimulé la croissance de l'industrie du SEO, et 61 % des spécialistes du marketing affirment que la croissance de la présence organique et l'amélioration du SEO sont leurs...

Campagne netlinking 2023 : Le secret d’une stratégie optimale

Campagne netlinking 2023 : Le secret d’une stratégie optimale

Vous cherchez des conseils pour créer une campagne de création de liens vraiment réussie ? Vous voulez que votre site web soit en tête des classements des moteurs de recherche et qu'il se démarque de la concurrence ? Vous êtes au bon endroit. Dans cet article, nous...

Comment supprimer les spams ? 8 types de liens à éviter en SEO

Comment supprimer les spams ? 8 types de liens à éviter en SEO

Vous êtes-vous déjà demandé pourquoi votre site web n'était pas bien classé malgré la qualité de son contenu ? Il se peut que ce soit à cause des liens que vous avez créés. Comment supprimer les spams en termes de SEO ? Dans cet article, nous vous donnerons des...

Les liens externes bénéfiques pour le SEO ? Le guide 2023

Les liens externes bénéfiques pour le SEO ? Le guide 2023

La création de liens externes est un aspect important du SEO qui peut grandement bénéficier au classement d'un site web dans les moteurs de recherche et à l'expérience utilisateur. En matière d'optimisation des moteurs de recherche (SEO), la création de liens externes...

Business development en 2023 : Stratégie, plan et compétences

Business development en 2023 : Stratégie, plan et compétences

Le Business Development (mot anglais à l’origine) est un domaine très fascinant. Après tout, il s'agit de trouver la meilleure façon de développer une organisation. Il n'y a rien de plus créatif dans le monde des affaires. Il est très gratifiant de rechercher les...

Gestion de projet informatique : Le guide pour réussir sa carrière

Gestion de projet informatique : Le guide pour réussir sa carrière

À la base, les meilleures pratiques en matière de gestion de projet informatique sont identiques à celles des autres secteurs d'activité. Vous devez superviser la portée, les ressources, les délais et le budget d'un projet. Les différences résident principalement dans...

UX Design : Ce qu’il faut savoir, le guide ultime 2023

UX Design : Ce qu’il faut savoir, le guide ultime 2023

L’UX design est partout autour de nous. C'est un secteur en plein essor, les produits numériques occupant une place de plus en plus importante dans la vie des gens. La demande de ce service n'a jamais été aussi forte et ne montre aucun signe de ralentissement. Ce...

Lire aussi