G

Comment prédire les classements Google avec une plateforme de science des données

Résumé de l'article :
SEO

Découvrez comment prédire les classements Google avec une plateforme de Data Science ! L'auteur partage son expérience de prédiction des classements sur Google avec une précision de 92% grâce à l'algorithme Xgboost. Utilisant Dataiku, une plateforme accessible même sans connaissances en R, il décrit les étapes pour installer le logiciel, créer un projet, préparer un dataset et effectuer une première analyse. L'article fournit un guide pas à pas, montrant comment personnaliser et entraîner un modèle de prédiction, et comment analyser les résultats obtenus. Cette introduction claire à la Data Science appliquée au SEO est idéale pour ceux qui veulent optimiser leur présence sur Google. Rejoignez l'auteur pour en savoir plus sur la collecte et la fusion de données à partir de diverses sources dans le prochain article !

Tout LIRE 👇

Découvrez comment anticiper les positions sur Google grâce à une plateforme de Data Science! Cet article vous guide à travers l'expérience de prédire les classements Google avec une précision de 92% en utilisant l'algorithme Xgboost sur Dataiku, une plateforme accessible même sans maîtrise de R. Voici un guide pas à pas pour installer ce logiciel, créer un projet, préparer un dataset et réaliser une première analyse.

Six mois auparavant, j'ai publié un article intitulé "Comment prédire les classements Google" en français. Prédire la position exacte d'un site web pour un terme de recherche sur Google n'est pas possible. Pour simplifier cela, nous avons visé à prédire la présence d'un site sur la première page des résultats Google pour un terme donné. Après de nombreuses discussions SEO avec Rémi Bacha et sa précieuse contribution, nous avons atteint des résultats impressionnants avec une précision de 92%.

J'ai lancé un projet Open Source et partagé le code source en R, cependant, il nécessitait des connaissances en R pour être utilisé. Récemment, j'ai trouvé une solution simplifiant l'utilisation de cet algorithme prédictif via “Dataiku”, une plateforme de data science open source. En reproduisant mon cas d'utilisation, tout a fonctionné avec quelques clics et une configuration minimale.

Je vais créer deux articles pour expliquer comment automatiser ce processus et permettre à chacun de découvrir ses facteurs SEO. Ce premier article décrit l'utilisation de XgBoost ou d'un autre algorithme avec mon dataset préparé pour le sommet OVH. J'ai utilisé un dataset de 200,000 enregistrements incluant 2,000 mots-clés distincts (merci à Visiblis, Rankplorer, Majestic pour leur aide). Mon second article se concentrera sur la collecte et la fusion des données.

Étape 1 : Installer Dataiku

Vous devez installer Dataiku sur votre plateforme. Suivez simplement le tutoriel disponible sur leur site. Pour cet article, j'ai utilisé l'édition gratuite de Dataiku pour Virtualbox; quelle que soit la version, vos données restent sur votre infrastructure sans aucune limitation de taille ou de volume. Après installation, accédez à la page de connexion.

Étape 2 : Créer votre projet

Choisissez un nom pour votre projet. Vous êtes maintenant prêt à importer des fichiers. Cliquez sur le lien de votre projet et sélectionnez “Importer un dataset”.

Étape 3 : Préparer un nouveau dataset

Téléchargez mon dataset préparé et uploadez-le pour créer votre premier dataset. Cliquez sur le lien “Uploader vos fichiers”. Dans le prochain article, je vous montrerai comment créer votre propre dataset. Nommez-le par exemple : datasetgardenqueries.

Étape 4 : Créer votre première analyse

Cliquez sur la roue verte dans le menu puis sur “Nouvelle analyse”. Sélectionnez le dataset précédent et cliquez sur “Créer une analyse”. Pour supprimer une colonne, cliquez sur son nom et appuyez sur “Supprimer”. Pour les colonnes concernant Visiblis, enlevez les lignes invalides en sélectionnant la colonne “Visiblis_Title” et en choisissant cette fonction.

Choisissez la colonne “isTopTen” que vous voulez prédire et cliquez sur “Créer un modèle prédictif”. Optez pour le modèle Performance et l'algorithme “Xgboost”. Personnalisez le modèle en cliquant sur “Paramètres”. Dans la colonne de gauche, sous “Algorithme”, désélectionnez les autres algorithmes. Pour Xgboost, changez le nombre maximum d'arbres à 1000 pour de meilleurs résultats.

Cliquez ensuite sur “Caractéristiques” et supprimez les attributs inutiles comme URL, TextRatio, ExtBackLinks et Keyword. Sélectionnez “Rejeter” pour ignorer une caractéristique et concentrez-vous sur les données pertinentes. Enfin, cliquez sur le bouton vert “Entraîner”. Soyez patient, Xgboost est efficace mais long à exécuter.

Étape 5 : Vérifier les résultats

Analysez les résultats en tenant compte qu'ils sont valables uniquement pour le dataset et la thématique spécifiés. Google personnalise les pages de résultats de recherche avec plus de 300 facteurs. Mais cela vous donne une bonne idée de ce qui fonctionne. Ayez une approche pour obtenir les meilleurs et les pires termes/keywords afin que l’algorithme puisse confirmer ou rejeter une caractéristique.

Vous avez maintenant votre précision pour chaque algorithme et pouvez voir l'importance des variables. Cliquez sur le lien de votre algorithme pour accéder à un menu où vous découvrirez vos variables importantes et pourrez mesurer les performances de votre algorithme avec de nombreuses méthodes (courbe roc, matrice de confusion, diagramme de décision).

Conclusion

Voilà vos premiers pas sur cette plateforme où vous pouvez importer et manipuler un dataset rapidement et utiliser des algorithmes de prédiction en quelques clics. Pour tester votre modèle prédictif sur une nouvelle page ou une page mise à jour, suivez ce super tutoriel sur le site de Dataiku. La prochaine fois, je vous montrerai comment obtenir des données via les APIs de Majestic, Visiblis, SemRush ou Yooda et les fusionner en un seul dataset.

Dataiku permet de coder en R ou Python, mais plus important encore, vous pouvez partager tout le workflow rapidement avec le code source dans un fichier zip. Bien sûr, je vais préparer un zip pour déployer tous les processus en un seul import.

Un immense merci à Aysun Akarsu et Rémi Bacha pour la relecture.

D'autres articles qui devraient vous plaire

SEO

Améliorations massives de la qualité de recherche de Google avec la mise à jour de mars 2024 et de nouvelles politiques anti-spam

Google a lancé une mise à jour majeure de la qualité des recherches en mars 2024, accompagnée de multiples mises à jour anti-spam. La mise à jour de contenu utile, désormais intégrée au système de base, a permis de réduire de 40% les contenus non pertinents dans les recherches. Cette mise à jour est la plus complexe à ce jour, avec des ajustements importants de plusieurs systèmes fondamentaux, entraînant des fluctuations substantielles dans les classements. De nouvelles politiques anti-spam, y compris contre les abus de domaines expirés et le "Parasite SEO", sont également en vigueur, ciblant les contenus de faible valeur créés à grande échelle pour manipuler les classements. Pour en savoir plus sur les détails de cette mise à jour révolutionnaire et ses impacts potentiels, continuez la lecture de l'article complet.
👉 Lire l'article
SEO

SEO : Impact de l'algorithme Google sur les critiques de produits et les guides d'achat

En avril 2021, Google a introduit un nouvel élément dans son algorithme visant spécifiquement les pages d'avis sur les produits et les guides d'achat. L'objectif est d'évaluer la qualité et la pertinence des contenus pour améliorer les résultats de recherche. Cet article, bien que daté, reste une ressource riche en informations sur la Product Reviews Update, illustrant notamment les attentes de Google concernant la rédaction d'avis de produits. Des conseils pratiques sont également fournis pour optimiser ces avis, en insistant sur l'expertise, la précision et la transparence des informations. De plus, il est suggéré que cet algorithme pourrait impacter des contenus similaires, même non définis comme des avis produits. Pour les sites générant des revenus via des liens affiliés, des recommandations spécifiques sont données pour maintenir la crédibilité et éviter les pénalités. Préparez-vous dès maintenant pour d'éventuelles mises à jour futures ! Vous voulez en savoir plus ? Découvrez tous les détails dans l'article complet.
👉 Lire l'article
SEO

Mises à jour des scores Google PageSpeed avec Lighthouse 8.0 : Changements et impacts

Google a récemment annoncé la sortie de Lighthouse 8.0, une mise à jour qui mélange des critères d'évaluation plus stricts et d'autres plus indulgents, permettant à la majorité des sites de bénéficier de meilleures notes de performance. Parmi les principaux changements, on note une réévaluation du poids des différentes métriques de vitesse, rendant certaines plus rigoureuses comme le Total Blocking Time (TBT) et le First Contentful Paint (FCP), tandis que le Cumulative Layout Shift (CLS) devient moins strict. Lighthouse, outil incontournable pour les éditeurs, développeurs et experts SEO, alimente également l'outil PageSpeed Insights et est intégré directement dans Chrome. La version 8.0 sera déployée dans Chrome 93, mais est déjà disponible sur PageSpeed Insights. Les changements apportés à Lighthouse 8.0 signifient que 60% des sites verront un score amélioré, tandis qu'environ 20% pourraient observer une baisse jusqu'à cinq points. Les modifications de l'API et les ajustements aux principales métriques visent à offrir une évaluation plus précise et utile de la performance des pages. Avec cette mise à jour, Google continue de peaufiner ses outils pour fournir des résultats pertinents et optimiser l'expérience utilisateur. Pour découvrir ces nouvelles évaluations et comprendre en détail les ajustements effectués, consultez l'article complet.
👉 Lire l'article

plus de 73% de nos clients nous ont choisi par recommandation.

Nous avons accompagné
+300 entreprises.
En moyenne, 1 client nous
recommande à 2  entreprises.

Nos Growth News

3  articles & 1 outil
growth MARKETING
chaque semaine.

Le must have pour ceux qui souhaitent rester à
la page et des growth surprises en plus !

Merci,
vous allez recevoir un e-mail de confirmation.
Oops! Something went wrong while submitting the form.