CTR预估

Published: 06 May 2017 Category: ML

1. CTR

Click Through Rate.

CTR预估是数字广告营销领域一个重要的部分,其准确性会直接影响到一个小型的广告系统的广告投放定价。

做CTR预估时,通常基于历史广告的点击数据和query的各种特征,通过机器学习模型来预测CTR。目前最常用的方法主要为逻辑回归LR(Logistic Regression)和Boosting类算法,如迭代决策树GBDT(Gradient Boosting Decision Tree)。

下面是基于BML的CTR预估。

2. CTR预估环境准备

请参考: https://cloud.baidu.com/doc/BML/ScenarioTutorial.html

主要内容有:

  1. 数据清洗
  2. 特征提取
    在数字广告营销领域的CTR预估场景中,常用到的特征主要包括但不局限于以下几方面:

    • 广告创意特征:包括广告的图片、标题文字、价格、销量,推广商品所属类别、包含属性,广告的创意组、推广计划、广告主等。
    • query信息,包括query包含的关键词,query的分析结果如类别、属性等,query的扩展结果如同义词、相似query等。
    • 环境特征:包括用户的特征属性,query触发的时间等。
    • 名义特征:包括创意id,广告创建的时间等。
    • 点击反馈特征:包括计算历史上包含该特征的点击率等,如所属广告计划的历史点击率。
    • 组合特征:各方面特征的组合属性,如query和广告标题匹配的关键词个数等。
  3. 格式转换 请将训练数据转换为BML支持的格式,格式要求可参考数据格式,请根据格式的各字段解释和训练数据的意义,对训练数据进行格式转换、数据拆分或合并等工作。在BML的CTR预估中,常用的格式为稀疏不带权SparseID和稀疏带权SparseIDWeight两种格式。

  4. 数据上传

3. 创建数据集

4. 训练模型

5. 评估模型

主要有三个指标:AUC值、ROC曲线、PR曲线,最重要的指标为AUC值,为一个浮点数。

逻辑回归LR模型属于机器学习中的二分类模型,常被用来评价一个二值分类器(binary classifier)优劣,主要指标为ROC(Receiver Operating Characteristic)曲线和AUC(Area Under Curve)。

在CTR业务场景中,AUC指标在模型评估阶段常被用作最重要的评估指标来衡量模型的准确性,评估的AUC值能够衡量根据预估的CTR值进行排序的准确性,越接近1模型的效果越好,其中随机分类的LR模型AUC为0.5,所以模型的AUC基线值大于0.5才有意义。

参考

https://cloud.baidu.com/doc/BML/ScenarioTutorial.html