人工智能 · 2024年2月5日

使用机器学习预测谷歌搜索排名的SEO技术问题探讨

在 2015 年末,JR Oakes 和他的同事利用机器学习做了一个实验,试图预测某个特定网页的谷歌搜索排名。下面这篇文章是他们的发现,他们希望这些成果能够帮助到 SEO 从业者。

机器学习正在成为许多大公司的重要工具。谷歌的人工智能算法击败围棋冠军和搜索排名算法 RankBrain 的例子都表明,机器学习不再是一个神秘的领域。在数据丰富的行业中,技术总能发挥作用。

机器学习也能够改变传统的网站推广和 SEO。一项实验尝试将机器学习算法应用于预测谷歌对特定网页的排名。实验结果显示,我们成功预测了41%的正确肯定和41%的正确否定。

接下来,我们将介绍实验过程,并讨论对 SEO 很重要的技术问题。

我们的实验

2015 年年末,我们开始关注机器学习及其在处理大数据方面的能力。我们结识了巴西数据科学家 Alejandro Simkievich,他致力于搜索相关性和转化率优化等问题的研究,并准备参加 Kaggle 竞赛。Simkievich是数据科学和机器学习咨询公司 Statec 的创始人,该公司在消费品、汽车、营销和互联网领域拥有众多客户。我们决定合作,尝试使用数据来帮助人们做出 SEO 决策。

我们尝试使用抓取工具、排名追踪、链接工具等数据来预测网页排名。虽然完全准确预测的可能性很低,但我们在机器学习方面取得了一定成功。

数据

机器学习通过采集数据并生成有价值信息来实现。我们收集了大量数据,包括来自 GetStat 和 Majestic 的重要数据集,以及通过网络爬虫获得的其他数据。

机器学习已成为许多大公司不可或缺的工具。每个人都听说过谷歌的人工智能算法击败围棋冠军和类似 RankBrain 的技术,但机器学习不再是神秘的领域。它在处理各种数据的行业中都能发挥作用,给这些行业带来希望。

接下来,我将介绍我们的实验过程,并讨论对于初步理解 SEO 很重要的一些文献和技术。

探讨SEO技术问题,如何使用机器学习预测谷歌搜索排名?

我们的目标是通过足够的数据成功训练一个模型,因此我们需要大量数据。对于第一个模型,我们有大约20万个观测值和54个属性。

背景知识

大部分机器学习工作都是处理回归、分类和聚类算法。回归算法用于预测数字,而分类算法用于预测类别成员。这两个概念与我们的项目相关。

探讨SEO技术问题,如何使用机器学习预测谷歌搜索排名?

搞定谷歌排名

我们尝试多种方式来预测每个网页的谷歌排名。最初,我们使用回归算法,但几周后意识到这个任务太困难。我们重新定义问题,尝试预测一个网站在搜索某个词时是否能进前十。

问题转变成了二进制分类问题,我们只有两个分类:网站排在前十或不排在前十。我们决定预测一个网站属于这两类的概率,而不是做出是或否的预测。

为了更明确地做出决策,我们设定了一个阈值来衡量一个网站是否能排在前十。

为了评估算法性能,我们使用混淆矩阵。

探讨SEO技术问题,如何使用机器学习预测谷歌搜索排名?

理清数据

我们的数据包括大约20万条记录,约2000个关键词/搜索词。这些关键词根据属性分为数字属性、类别变量和文字属性。

  • 数字属性表示关键词可以表示任意数字。
  • 类别变量表示有限数量的值,每个值代表一个不同的类别。
  • 文字属性包括搜索关键词、网站内容、标题、元数据描述等。

特征工程

我们设计了与排名相关的额外属性。

大多数属性是布尔逻辑体系的,但也有一些数值属性。例如,布尔逻辑属性是网站文本中的精确搜索词,而数值属性是被标记的搜索词数量。

探讨SEO技术问题,如何使用机器学习预测谷歌搜索排名?

运行 TF-IDF算法

我们使用 TF-IDF 算法对文本特征进行预处理。该算法为每个词赋予分数,根据词语在文件中的频率和在语料库中的频率来评估词语重要性。

我们尝试了两种 TF-IDF 方式,得到了略有不同的结果。最后,我们使用降维手段减少属性数量。

模型和集合

在连接所有属性后,我们尝试了多种算法,最有前途的是渐进增长分类器、脊分类器和神经网络。最终,我们使用简单的平均值处理模型结果,因为不同模型有不同的偏差。

优化阈值

最后一步是设定阈值将概率转化为二进制预测。我们通过交叉确认集优化阈值,然后在测试集上使用该阈值。

结果

我们认为混淆矩阵最好地衡量了模型的有效性。在最佳模型中,我们获得了约41%的正确肯定和41%的正确否定。

探讨SEO技术问题,如何使用机器学习预测谷歌搜索排名?

另一种可视化模型效果的方法是使用特征曲线。XGBoost 是一种非线性模型,对此模型进行了分析,并展示了特征类别对预测的贡献。

探讨SEO技术问题,如何使用机器学习预测谷歌搜索排名?

我们发现机器学习对 SEO 有着巨大的潜力。在将来,我们希望能够处理更多数据,并改进当前的模型。

机器学习是一个强大的工具,即使你不了解它是如何工作的。对于 SEO,机器学习可能会影响文本生成、用户行为观察和推荐系统等方面。

来自:机器之心

更多阅读:

  • 在合适的地方,机器学习带来的将是一场革命
  • 亚马逊云服务(AWS)中国宁夏及北京区域正式上线Amazon SageMaker
  • Cognizant:聊天机器人在保险业的未来
  • BCG:印度食品科技市场报告
  • 房地产科技2020:房地产的未来
  • 艺术与机器学习
  • Kaggle:2017机器学习及数据科学调查
  • 关于如何解释机器学习的一些方法
  • 从自动驾驶到机器学习:解读2017科技发展的15大趋势
  • 从模型选择到超参调整:如何为机器学习项目选择算法
  • 机器学习是如何预测《权利的游戏》中的叛徒的
  • 福布斯:社交媒体崛起使SEO走向穷途末路
  • GP Bullhound:2022年第三季度全球软件报告
  • 美国商业专利数据库:2021年美国专利授权量下降7.5%
  • PERKINS COIE LLP:2022年新兴科技趋势报告

(adsbygoogle = window.adsbygoogle || []).push({});

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.