2017 香港中文大学(深圳)大数据分析挑战赛赛题

  1. 比赛背景

    在电子商务蓬勃发展的今天,工业界十分重视电商平台上用户的评论并以此为指导改善产品以达到更高的利润。自然语言处理 (NLP) 是现今人工智能领域一大重点研究方向。在本次比赛中,选手需要开发一整套针对特定品牌,特定产品评论的分析算法,并给出该评论在十个给出的品类下的情感分析。

  2. 数据介绍

    数据中包括 101480 条数据,其正文是电商平台中关于洗发水的评论,每条数据为12列,按顺序为

    1
    id, text, type1, type2, type3, type4, type5, type6, type7, type8, type9, type10

    其中对于type的值,“0” 表示没有出现这个type, “1” 表示出现这个type且为正面,“-1”表示出现了这个type且为负面。

    各个type的解释如下:

    • Price: 表示评论与价格相关,是否划算,是否便宜等。
    • Fakeconcern: 表示评论与商品是否为正品相关。
    • Promotion:表示评论中与商品促销相关,如出现“活动”字眼等。
    • Service: 表示评论与商家服务相关。
    • Leakage: 表示评论与洗发水是否泄露相关。
    • Package: 表示评论与商品包装相关。
    • Loyalty: 表示评论与用户忠诚度相关,其中若评论提及“多次购买”,“第二次购买”等等字眼则判为“1”,如“再也不买”的字眼则判定为“-1”。
    • Smell: 表示评论与气味相关。
    • Effect:表示评论与洗发水功效相关。
    • Logistics: 表示评论与物流相关。

    例子:

    如 Id 为11的评论:

    “跟超市搞活动时价格差不多,这次礼盒多了5小瓶赠品很合算。”

    “Price” 即为1, “Promotion”也为1。

  3. 评价方式

    对于每个type,是否猜中,正面,负面各有一个f1值,所以总共有30个f1值。

    其中对商家来说,负面的评论意义更大,故所有负面的f1值在计算总分时会乘以1.4,对于type来说,Smell, Effect, Package 和 Logistics 这四个type的意义对商家也更重要,所以其 f1 值在计算总分时将乘以1.25。

    其中每一项的 $F1$ Score 为:

    其中准确率 $Precision$:

    召回率 $Recall$: