Le MUM de Google, 1000 fois plus puissant que BERT!

La compréhension du langage naturel, par les algorithmes de Google, ne fut pas une mince affaire. Google a toujours essayé de dépasser la compréhension simpliste du langage à base d’une succession non interactive et décontextualisée, de mots clefs.

L’obsession des ingénieurs de Mountain View, a toujours été de contextualiser les mots et de comprendre les relation biunivoques qu’ils entretiennent entre eux dans une phrase, ceci afin de mieux cerner l’intention de l’usager et d’y répondre de manière plus satisfaisante, mais aussi de se prémunir contre les manipulations de l’algorithme par les furieux primaires des mots clef, du spin et autres facéties de la SEO bas de gamme.

Mais à ce jour, les ressources matérielles et intellectuelle pour relever ce défi titanesque, qui revient ni plus ni moins, pour Google, à lire et comprendre le langage écrit (presque) comme un humain, faisaient défaut. L’essor du Big Data, les investissement colossaux de Google, dans le secteur de l’intelligence artificielle via sa maison mère, devenue désormais alphabet ( cela veut tout dire ) ont rendu l’exploit possible et à portée de main. Et  c’est au cours de la grand-messe auto promotionnelle de Google de cette année, le IO 2021 présentée ici par le président , Sundar Pichai, CEO de Google et Alphabet, que Google a dévoilé au monde son nouveau modèle de traitement complexe du langage baptisé MUM comme, modèle multi-tache unifié. Il faut préciser que MUM n’est toujours pas actif à ce jour au niveau de SERP c’est-à-dire au niveau des résultats de recherche de Google. Il est toujours en phase expérimentale. Son prédécesseur BERT, déployé en France en décembre 2019 et actif dans les SERP, bien que infiniment moins puissant que MUM , fut une avancée majeure pour Google dans le traitement du langage parlé et d’une approche plus fine de l’intention usager à travers sa requête.

Les prémisses conceptuelles de MUM depuis le modèle originel nommé BERT

BERT est une couche algorithmique basée sur un réseau neuronal pour le traitement du langage naturel (PNL) qui a été pré-formée sur le corpus Wikipédia. L’acronyme complet lit « Bidirectional Encoder Representations from Transformers » (les représentations d’encodeur bidirectionnel des transformateurs.). C’est un algorithme d’apprentissage automatique censé apporter une meilleure compréhension des requêtes et du contenu.

La chose la plus importante à retenir est que BERT utilise le contexte et les relations de tous les mots d’une phrase, plutôt qu’un mot après l’autre dans leur ordre d’apparition. Ainsi, BERT peut comprendre le contexte complet d’un mot en analysant les mots qui viennent avant et après. La partie bidirectionnelle de celui-ci rend BERT unique.

En appliquant cela, Google peut mieux comprendre l’essentiel d’une requête. Google a publié plusieurs exemples de requêtes dans le billet de blog de lancement.

BERT prend TOUT en compte dans la phrase et en découvre ainsi le vrai sens.

Un exemple concret :

  • “2019 brazil traveler to USA need a visa” (“2019 un voyageur Brézilien a besoin d’un visa pour se rendre aux USA”)

Maintenant Google est capable de repérer le mot “to” et de comprendre qu’il s’agit d’un Brésilien souhaitant se rendre aux USA. Autrefois Google ne comprenait pas l’importance de cette connexion et pouvait renvoyer des résultats au sujet de citoyens Américains voyageant au Brésil, la réponse sera donc non adaptée à la requête.

exemple du fonctionnent de google bert

Exemple concret Google Bert

Comme vous pouvez le voir dans l’exemple, BERT fonctionne mieux dans les requêtes plus complexes. Ce n’est pas quelque chose qui intervient lorsque vous effectuez une recherche à partir des termes principaux, mais plutôt des requêtes dans la longue traîne. Pourtant, Google affirme que cela aura un impact sur toutes les recherches sur dix. Et même dans ce cas, Google dit que BERT se trompera parfois. Ce n’est pas la solution ultime à la compréhension des langues.

  • Dernière mise à jour de Google: BERT

Les enseignements les plus importants de cette mise à jour de BERT sont que Google se rapproche encore une fois de la compréhension du langage au niveau humain. Pour les classements, cela signifie qu’il présentera des résultats qui correspondent mieux à cette requête et qui ne peuvent être qu’une bonne chose.

Il n’y a pas d’optimisation pour BERT autre que le travail que vous faites déjà: produire un contenu pertinent d’excellente qualité.

Le document original de BERT (pdf) contient tout ce dont vous avez besoin pour comprendre comment BERT fonctionne exactement. Malheureusement, c’est très savant et la plupart des gens ont besoin d’une «traduction».

Vidéo complète du webinaire

Qu’est-ce que MUM: Multitask United Model?

Le brevet déposé par Google le 19 mars 2020, aux USA, porte ne le numéro US20200089755A1

( Voir PDF complet du brevet en Anglais).

Google définit ainsi son projet dans sa présentation liminaire absolument illisible et indigeste je vous prévins :

L’invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur des supports de stockage informatique pour entraîner un modèle d’apprentissage automatique à exécuter plusieurs tâches d’apprentissage automatique à partir de plusieurs domaines d’apprentissage automatique. Un système comprend un modèle d’apprentissage automatique qui comprend de multiples réseaux neuronaux de modalité d’entrée correspondant à différentes modalités respectives et étant configuré pour mapper les entrées de données reçues de la modalité correspondante à des entrées de données mappées à partir d’un espace de représentation unifié; un réseau neuronal de codeur configuré pour traiter des entrées de données mappées à partir de l’espace de représentation unifié pour générer des sorties de données de codeur respectives; un réseau neuronal de décodeur configuré pour traiter les sorties de données de codeur pour générer des sorties de données de décodeur respectives à partir de l’espace de représentation unifié;et de multiples réseaux neuronaux de modalité de sortie correspondant à différentes modalités respectives et étant configurés pour mapper les sorties de données de décodeur sur les sorties de données de la modalité correspondante.

Plus simple, MUM est un modèle de langage construit sur le même système de transformateur que BERT, qui a fait des vagues en 2019. BERT est un modèle de langage puissant qui a fait une percée lors de sa sortie. MUM, cependant, fait monter les enchères: selon Google, il est censé être 1000 fois plus puissant que BERT.

Une grande partie de ce pouvoir vient du fait qu’il peut effectuer plusieurs tâches à la fois. Il n’a pas à faire une tâche après l’autre, mais il peut gérer plusieurs tâches simultanément.

Cela signifie qu’il peut lire du texte, comprendre le sens, acquérir des connaissances approfondies sur le sujet, utiliser la vidéo et l’audio pour renforcer et enrichir cela, obtenir des informations dans plus de 75 langues et traduire ces résultats en un contenu multicouche qui répond à des questions complexes. Tout à la fois!

Une idée de la puissance de Google MUM

Lors de I / O 2021, Prabhakar Raghavan de Google a donné un aperçu de la façon dont cela fonctionnerait. Il a utilisé la requête complexe «J’ai parcouru le Mt. Adams et maintenant je veux faire une randonnée sur le Mt. Fuji l’automne prochain, que dois-je faire différemment pour me préparer? » pour démontrer ce que MUM pourrait faire. Dans une session de recherche régulière, vous devrez rechercher vous-même tous les différents aspects. Une fois que vous avez tout, vous devez le combiner pour avoir toutes les réponses aux questions.

Maintenant, MUM combinerait des informations provenant de nombreuses sources différentes sur de nombreux aspects différents de la recherche, de la mesure des montagnes à la suggestion d’un imperméable, car c’est la saison des pluies sur le Mt. Fuji et même à l‘extraction des informations de sources japonaises. Après tout, il y a beaucoup plus d’écrits sur ce sujet spécifique dans cette langue.

processus de recherche MUM google

Dans des requêtes complexes comme celle-ci, tout se résume à combiner des entités, des sentiments et une intention pour comprendre ce que signifie quelque chose. Les machines ont du mal à comprendre le langage humain, et les modèles de langage comme BERT et MUM s’en rapprochent vraiment.

MUM va encore plus loin en traitant le langage et en ajoutant de la vidéo et des images car il est multimodal. Cela permet de générer un résultat riche qui répond à la requête en présentant un tout nouveau contenu. MUM sera même intégré à Google Lens, vous pouvez donc pointer votre appareil photo vers vos chaussures de randonnée et demander si celles-ci sont adaptées pour faire cette randonnée jusqu’au Mt. Fuji!

Bien sûr, l’objectif final de tout cela est de vous aider à obtenir plus d’informations avec moins de requêtes de recherche – probablement dans les limites de Google lui-même. Nous avons constaté une augmentation constante des résultats riches et des réponses rapides, qui deviennent également plus visuelles et plus visibles de jour en jour. De nombreux autres développements, à la fois à l’intérieur et à l’extérieur de la recherche, brossent l’image d’un Google qui cherche à fournir lui-même la plupart des réponses à vos questions.

Sur la voie d’une recherche conversationnelle et visuelle entièrement alimentée par l’AI

Google se dirige ouvertement vers un moteur de recherche entièrement alimenté par l’AI. Un moteur de recherche n’est même pas le mot juste ici, car il s’agit plutôt d’une machine de présentation de connaissances. Et cela ne se passe pas dans le vide de cette fameuse barre de recherche.

De plus en plus, Google ouvre l’idée de la recherche pour inclure des entrées provenant de nombreuses autres sources, à savoir:

  • Microphones
  • Caméras
  • Téléviseurs
  • Appareils portables
  • Haut-parleurs intelligents

Pour servir toutes ces différentes cibles d’une manière qui a du sens sur ces machines, la recherche et la présentation de la recherche doivent changer. Un microphone sur votre tracker de fitness doit entendre et comprendre votre requête, tandis que l’assistant doit faire quelque chose avec et répondre avec quelque chose d’utile.

La compréhension du langage est essentielle. Le développement de modèles de langage ultra-puissants, efficaces et flexibles qui peuvent générer du contenu pour fournir ces réponses de manière succincte et naturelle deviendra essentiel.

À I / O 2021, nous en avons vu un autre exemple: LaMDA.

LaMDA: modèle de langage pour les applications de dialogue

LaMDA, ou modèle de langage pour les applications de dialogue, est un autre grand tour de tête de l’AI dans la keynote I / O 2021 de Google. Il s’agit d’une nouvelle technologie pour communiquer avec une AI – comme un chatbot – beaucoup plus naturellement.

Il peut converser d’une manière plus fluide que les AI précédentes, car celles-ci suivent souvent un chemin simple de A à B. Les chatbots sont facilement confus lorsque vous changez de sujet, par exemple.

LaMDA entreprend de résoudre ce problème. Le modèle peut acquérir une grande quantité de connaissances sur un sujet et s’engager dans un dialogue bidirectionnel complet, même s’il s’aventure en dehors du sujet d’origine.

Google a montré une démonstration d’un modèle LaMDA formé sur la connaissance de la planète Pluton pour en discuter avec l’un des chercheurs. Ce n’est pas parfait, mais cela donne une bonne idée du genre d’avenir auquel nous pouvons nous attendre.

Les questions qui vont forcément surgir

Tous ces développements soulèvent des questions, bien sûr. Par exemple, si Google peut vraiment lire, entendre et voir du contenu dans toutes les langues et le reconditionner dans un nouveau format – avec le contexte et le contenu généré par l’AI – qui en est le propriétaire? Et qui est responsable de ce que contiennent ces résultats automatisés? Est-ce un autre clou dans le cercueil pour les producteurs de contenu?

Et qu’en est-il des préjugés dans l’AI? Les préjugés et l’éthique sont des sujets énormes dans l’AI, et si nous parlons vraiment d’étapes vers un avenir propulsé par l’AI, nous devons être assurés de sa neutralité et de sa fiabilité.

Bien sûr, Google mentionne spécifiquement le biais de l’AI dans son article et continue de former le modèle. C’est bon à savoir, mais on se demande jusqu’où cela va – et qui va contrôler les observateurs?

Google met MUM à l’épreuve

Google teste actuellement MUM et continuera de le faire avant d’être sûr de son fonctionnement et de l’ajouter aux systèmes par la suite. Il n’y a pas de calendrier précis pour savoir quand cela se fera, mais dans le cas de BERT, ça n’a pas beaucoup trainé.

L’introduction de MUM pourrait simplement signifier de meilleurs résultats de recherche. Néanmoins, cela pourrait également signifier un nouveau type de résultat de recherche où la part déjà importante des contenus automatisés issus du kwowledge graph serait encore plus prépondérante au détriment des véritables éditeurs de contenus. Car après tout, MUM se nourrira du travail des hommes, MUM ne pense pas, n’invente pas, ne créé pas, il compile de manière industrielle le travail laborieux des hommes.

Lire aussi:

Nouveautés

Freelance IT , les meilleurs moyens pour promouvoir votre activité

Freelance IT , les meilleurs moyens pour promouvoir votre activité

Si secteur IT continue à fortement recruter avec +23 000 créations nettes d’emplois recensés en janvier 2024, les entreprises chercheront des talents IT indépendants pour répondre à leurs besoins spécifiques notamment face à l’IA, la cybersécurité et le cloud...

Le marché IT en 2024 : des bonnes perspectives pour le freelancing

Le marché IT en 2024 : des bonnes perspectives pour le freelancing

Au cours de la dernière décennie, dans sa généralité, le marché du travail a radicalement changé face aux innovations technologiques et informatiques, le besoin des entreprises d’innover sans cesse pour se démarquer, les tendances de travail… Si le freelancing...

Lien externe : Guide 2024 pour les débutants

Lien externe : Guide 2024 pour les débutants

Le lien externe, également connus sous le nom de lien sortant, est essentiel à une structure de liens saine sur votre site web. En l’ajoutant à votre contenu, vous pouvez aider votre site web à obtenir de nombreux avantages, mais de nombreuses entreprises n'aiment pas...

SEO copywriting : Pour une stratégie de référencement efficace

SEO copywriting : Pour une stratégie de référencement efficace

Le copywriting est une partie essentielle du marketing de contenu, mais une nouvelle expression qui gagne en popularité est le SEO copywriting. Qu'est-ce que le SEO copywriting ? En quoi diffère-t-il du copywriting et de la rédaction de contenu ? Si vous êtes un...

SEO et SEA : Comment créer une stratégie parfaite en 2024 ?

SEO et SEA : Comment créer une stratégie parfaite en 2024 ?

Les adeptes du SEO et les professionnels du SEA ont toujours eu tendance à travailler séparément sans tenir compte de l'autre. Pourtant, les techniques de SEO ainsi que du SEA sont complémentaires. Les entreprises peuvent obtenir d'excellents résultats en combinant...

Seo checklist : 45 façons d’augmenter votre trafic de recherche

Seo checklist : 45 façons d’augmenter votre trafic de recherche

Si vous voulez augmenter votre trafic de recherche cette année, soyez attentif. Parce que cette Seo checklist va vous montrer 45 façons différentes que vous pouvez augmenter votre trafic de recherche : Les gens aiment rendre le SEO compliqué, mais il ne se résume qu'à...

SEO On Page : Guide 2024 pour optimiser votre site

SEO On Page : Guide 2024 pour optimiser votre site

Au fil des ans, les pratiques du SEO on page, pour la plupart, sont restées les mêmes. Mais les progrès récents dans le domaine du traitement du langage naturel (NLP) et de l'apprentissage automatique (ML) ont aidé Google à mieux comprendre le contenu des sites web et...

Consultant cybersécurité : Guide complet pour 2024

Consultant cybersécurité : Guide complet pour 2024

S'il est une chose sur laquelle nous pouvons être d'accord en ce qui concerne le secteur de la cybersécurité, c'est qu'il a donné naissance à un éventail vertigineux de metiers et spécialisations professions. En passant par les architectes en cybersécurité,...

SEO off page : Meilleures techniques en 2024

SEO off page : Meilleures techniques en 2024

Commençons par un exemple pour vous faciliter la tâche. Vous avez une voiture flambant neuve avec le moteur le plus raffiné... Vous voulez prendre la route et foncer comme le Ghost Rider... Mais vous appuyez sur la pédale d'accélérateur et vous vous apercevez que...

Concepteur de site web freelance : métier, formation et compétences

Concepteur de site web freelance : métier, formation et compétences

Si vous cherchez des conseils sur le metier concepteur de site web, vous trouverez beaucoup d'informations obsolètes. En passant par des  articles recommandant aux intéressés  d'apprendre des technologies qui ne sont plus des normes industrielles dans le domaine de la...

Lire aussi