比赛主题
本届大数据分析挑战赛的主题为:消费品行业中的数据分析主办单位:香港中文大学(深圳)计算机协会(Computer @nd Comity)
协办单位:一面网络技术有限公司 (yimian.com.cn)
比赛目的及意义
随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以 O2O(Online to Offline)消费最为吸引眼球。据不完全统计,O2O行业估值上亿的创业公司至少有 10 家,也不乏百亿巨头的身影。O2O 行业天然关联数亿消费者,各类 APP 每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。
香港中文大学(深圳)大数据分析挑战赛由香港中文大学(深圳)计算机协会主办,一面网络技术有限公司协办,是面向全校学生的高端算法竞赛。通过开放由一面网络技术有限公司提供的海量电商评论和销量数据,大赛让所有参与者有机会运用自己设计的算法。
本次大赛目的在于提升同学们对大数据的认识与理解,使得同学在比赛中学习、提高大数据分析能力,为今后的学习和工作提供宝贵的经验。
比赛赛题方向
如今的电商平台中存在大量的商品评论,作为商家和数据分析者,希望提取其中的信息点来发现商业价值。你的任务是对商品评论进行类别和情感层面上的分类。
训练集在赛事初发放。测试集发放分为两次,第一次发放约5w条数据,参赛者可以不限次数提交结果,但只在每日中午十二点返回最近一次的结果评测。第二次测试集发放在比赛截止前一晚,发放约5w条数据,参赛者可在最后一天无限次提交结果,最后以当夜 23:59 前最后一次提交的结果为准。
为了方便对此有兴趣的同学参与比赛,计算机协会将会提供基础的数据分析指导,帮助大家完成自己第一次大数据分析。我们相信所有人都能从本次比赛获得宝贵的知识和经验。
数据格式:
- 训练集(案例)包括如下字段:评论 ID、评论内容、类别1、类别2、类别3、情感
- 测试集(案例):评论 ID、评论内容
- 提交结果(案例):评论 ID、类别1、类别2、类别3、情感
评测指标:
对于每个类别和情感都可以得到一个f1-score, 最终总评为各个f1-score的加权
比赛评分
比赛的成绩分为两个部分:
- 对于销量的预测准确率 60%
- 所用模型和方法答辩 40%
线上测试开放后,每一位参赛队员每一日可提交一次,最终成绩取历次成绩中最好的一次。线上测试关闭后参赛选手需参与答辩,否则将没有第二部分成绩。
比赛赛程(可能会根据实际情况有微小变动)
报名:1月22号截止
组队参赛,每个选手只能参与一支队伍,每组队员不多于3人(特殊情况可以提交申请,视情况放宽)。
未找到队伍的同学可以个人报名,可以选择是否接受与其他单人参赛同学随机组队。
选手需通过 Google 表单进行报名,报名成功后会有邮件提示报名成功。
数据发布:1月22号至1月24日
数据发布后参赛选手就可以着手分析、编写脚本
线上测试开放:2月11日
线上测试关闭:3月9日
现场答辩:3月12日
每队有五分钟时间陈述所用模型与处理方法,每队有五分钟的 Q&A 时间。现场颁奖。
其他信息请咨询计算机协会,email:[email protected]