Découvrez comment prédire les classements Google avec une plateforme de Data Science ! L'auteur partage son expérience de prédiction des classements sur Google avec une précision de 92% grâce à l'algorithme Xgboost. Utilisant Dataiku, une plateforme accessible même sans connaissances en R, il décrit les étapes pour installer le logiciel, créer un projet, préparer un dataset et effectuer une première analyse. L'article fournit un guide pas à pas, montrant comment personnaliser et entraîner un modèle de prédiction, et comment analyser les résultats obtenus. Cette introduction claire à la Data Science appliquée au SEO est idéale pour ceux qui veulent optimiser leur présence sur Google. Rejoignez l'auteur pour en savoir plus sur la collecte et la fusion de données à partir de diverses sources dans le prochain article !
Tout LIRE 👇Découvrez comment anticiper les positions sur Google grâce à une plateforme de Data Science! Cet article vous guide à travers l'expérience de prédire les classements Google avec une précision de 92% en utilisant l'algorithme Xgboost sur Dataiku, une plateforme accessible même sans maîtrise de R. Voici un guide pas à pas pour installer ce logiciel, créer un projet, préparer un dataset et réaliser une première analyse.
Six mois auparavant, j'ai publié un article intitulé "Comment prédire les classements Google" en français. Prédire la position exacte d'un site web pour un terme de recherche sur Google n'est pas possible. Pour simplifier cela, nous avons visé à prédire la présence d'un site sur la première page des résultats Google pour un terme donné. Après de nombreuses discussions SEO avec Rémi Bacha et sa précieuse contribution, nous avons atteint des résultats impressionnants avec une précision de 92%.
J'ai lancé un projet Open Source et partagé le code source en R, cependant, il nécessitait des connaissances en R pour être utilisé. Récemment, j'ai trouvé une solution simplifiant l'utilisation de cet algorithme prédictif via “Dataiku”, une plateforme de data science open source. En reproduisant mon cas d'utilisation, tout a fonctionné avec quelques clics et une configuration minimale.
Je vais créer deux articles pour expliquer comment automatiser ce processus et permettre à chacun de découvrir ses facteurs SEO. Ce premier article décrit l'utilisation de XgBoost ou d'un autre algorithme avec mon dataset préparé pour le sommet OVH. J'ai utilisé un dataset de 200,000 enregistrements incluant 2,000 mots-clés distincts (merci à Visiblis, Rankplorer, Majestic pour leur aide). Mon second article se concentrera sur la collecte et la fusion des données.
Étape 1 : Installer Dataiku
Vous devez installer Dataiku sur votre plateforme. Suivez simplement le tutoriel disponible sur leur site. Pour cet article, j'ai utilisé l'édition gratuite de Dataiku pour Virtualbox; quelle que soit la version, vos données restent sur votre infrastructure sans aucune limitation de taille ou de volume. Après installation, accédez à la page de connexion.
Étape 2 : Créer votre projet
Choisissez un nom pour votre projet. Vous êtes maintenant prêt à importer des fichiers. Cliquez sur le lien de votre projet et sélectionnez “Importer un dataset”.
Étape 3 : Préparer un nouveau dataset
Téléchargez mon dataset préparé et uploadez-le pour créer votre premier dataset. Cliquez sur le lien “Uploader vos fichiers”. Dans le prochain article, je vous montrerai comment créer votre propre dataset. Nommez-le par exemple : datasetgardenqueries.
Étape 4 : Créer votre première analyse
Cliquez sur la roue verte dans le menu puis sur “Nouvelle analyse”. Sélectionnez le dataset précédent et cliquez sur “Créer une analyse”. Pour supprimer une colonne, cliquez sur son nom et appuyez sur “Supprimer”. Pour les colonnes concernant Visiblis, enlevez les lignes invalides en sélectionnant la colonne “Visiblis_Title” et en choisissant cette fonction.
Choisissez la colonne “isTopTen” que vous voulez prédire et cliquez sur “Créer un modèle prédictif”. Optez pour le modèle Performance et l'algorithme “Xgboost”. Personnalisez le modèle en cliquant sur “Paramètres”. Dans la colonne de gauche, sous “Algorithme”, désélectionnez les autres algorithmes. Pour Xgboost, changez le nombre maximum d'arbres à 1000 pour de meilleurs résultats.
Cliquez ensuite sur “Caractéristiques” et supprimez les attributs inutiles comme URL, TextRatio, ExtBackLinks et Keyword. Sélectionnez “Rejeter” pour ignorer une caractéristique et concentrez-vous sur les données pertinentes. Enfin, cliquez sur le bouton vert “Entraîner”. Soyez patient, Xgboost est efficace mais long à exécuter.
Étape 5 : Vérifier les résultats
Analysez les résultats en tenant compte qu'ils sont valables uniquement pour le dataset et la thématique spécifiés. Google personnalise les pages de résultats de recherche avec plus de 300 facteurs. Mais cela vous donne une bonne idée de ce qui fonctionne. Ayez une approche pour obtenir les meilleurs et les pires termes/keywords afin que l’algorithme puisse confirmer ou rejeter une caractéristique.
Vous avez maintenant votre précision pour chaque algorithme et pouvez voir l'importance des variables. Cliquez sur le lien de votre algorithme pour accéder à un menu où vous découvrirez vos variables importantes et pourrez mesurer les performances de votre algorithme avec de nombreuses méthodes (courbe roc, matrice de confusion, diagramme de décision).
Conclusion
Voilà vos premiers pas sur cette plateforme où vous pouvez importer et manipuler un dataset rapidement et utiliser des algorithmes de prédiction en quelques clics. Pour tester votre modèle prédictif sur une nouvelle page ou une page mise à jour, suivez ce super tutoriel sur le site de Dataiku. La prochaine fois, je vous montrerai comment obtenir des données via les APIs de Majestic, Visiblis, SemRush ou Yooda et les fusionner en un seul dataset.
Dataiku permet de coder en R ou Python, mais plus important encore, vous pouvez partager tout le workflow rapidement avec le code source dans un fichier zip. Bien sûr, je vais préparer un zip pour déployer tous les processus en un seul import.
Un immense merci à Aysun Akarsu et Rémi Bacha pour la relecture.