2017 香港中文大学(深圳)大数据分析挑战赛

  1. 比赛主题
    本届大数据分析挑战赛的主题为:消费品行业中的数据分析

  2. 主办单位:香港中文大学(深圳)计算机协会(Computer @nd Comity)

  3. 协办单位:一面网络技术有限公司 (yimian.com.cn)

  4. 比赛目的及意义

    随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以 O2O(Online to Offline)消费最为吸引眼球。据不完全统计,O2O行业估值上亿的创业公司至少有 10 家,也不乏百亿巨头的身影。O2O 行业天然关联数亿消费者,各类 APP 每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。

    香港中文大学(深圳)大数据分析挑战赛由香港中文大学(深圳)计算机协会主办,一面网络技术有限公司协办,是面向全校学生的高端算法竞赛。通过开放由一面网络技术有限公司提供的海量电商评论和销量数据,大赛让所有参与者有机会运用自己设计的算法。

    本次大赛目的在于提升同学们对大数据的认识与理解,使得同学在比赛中学习、提高大数据分析能力,为今后的学习和工作提供宝贵的经验。

  5. 比赛赛题方向

    如今的电商平台中存在大量的商品评论,作为商家和数据分析者,希望提取其中的信息点来发现商业价值。你的任务是对商品评论进行类别和情感层面上的分类。

    训练集在赛事初发放。测试集发放分为两次,第一次发放约5w条数据,参赛者可以不限次数提交结果,但只在每日中午十二点返回最近一次的结果评测。第二次测试集发放在比赛截止前一晚,发放约5w条数据,参赛者可在最后一天无限次提交结果,最后以当夜 23:59 前最后一次提交的结果为准。

    为了方便对此有兴趣的同学参与比赛,计算机协会将会提供基础的数据分析指导,帮助大家完成自己第一次大数据分析。我们相信所有人都能从本次比赛获得宝贵的知识和经验。

    数据格式:

    1. 训练集(案例)包括如下字段:评论 ID、评论内容、类别1、类别2、类别3、情感
    2. 测试集(案例):评论 ID、评论内容
    3. 提交结果(案例):评论 ID、类别1、类别2、类别3、情感

    评测指标:

    对于每个类别和情感都可以得到一个f1-score, 最终总评为各个f1-score的加权

  6. 比赛评分

    比赛的成绩分为两个部分:

    • 对于销量的预测准确率 60%
    • 所用模型和方法答辩 40%

    线上测试开放后,每一位参赛队员每一日可提交一次,最终成绩取历次成绩中最好的一次。线上测试关闭后参赛选手需参与答辩,否则将没有第二部分成绩。

  7. 比赛赛程(可能会根据实际情况有微小变动)

    1. 报名:1月22号截止

      组队参赛,每个选手只能参与一支队伍,每组队员不多于3人(特殊情况可以提交申请,视情况放宽)。

      未找到队伍的同学可以个人报名,可以选择是否接受与其他单人参赛同学随机组队。

      选手需通过 Google 表单进行报名,报名成功后会有邮件提示报名成功。

    2. 数据发布:1月22号至1月24日

      数据发布后参赛选手就可以着手分析、编写脚本

    3. 线上测试开放:2月11日

    4. 线上测试关闭:3月9日

    5. 现场答辩:3月12日

      每队有五分钟时间陈述所用模型与处理方法,每队有五分钟的 Q&A 时间。现场颁奖。

  8. 其他信息请咨询计算机协会,email:[email protected]