怎么看篮球指数?

燕难天燕难天最佳答案最佳答案

谢邀~ 作为在数据挖掘领域深耕多年的企业,百博相信大数据时代的数据分析对任何行业来说都是一个重要的驱动力。对于以数据为主要生产资料的运动赛事而言尤其如此。数据分析可以发掘赛场内的秘密——什么战术成功率高、哪名球员的贡献值最高等等;也可以探索赛场外的世界——观众喜欢什么样的比赛、赛事的营销重点应该放在哪里等等。通过数据的整合和分析,赛事方可以让比赛更“好看”,让赛事更“有价值”。

下面我们展示如何运用数据挖掘的方法来分析篮球比赛。首先需要构建评价篮球比赛的指标体系(详见文章《如何用数据量化评估一场篮球赛》),然后利用百博的自然语言处理能力从海量新闻报道中抽取文本特征,最后运用分类和聚类算法进行分析。

1.新闻文本特征提取 报道体育赛事的新闻稿通常由参赛选手、赛事进程和裁判评分三部分组成,因此我们可以分别提取这三大方面的特征。

a)选手特征 比赛中参赛的双方队员都会有相应的出场机会,因此我们需要提前设定好球员名称对应的标签,从而得到每个选手在每场比赛中相应的得分、篮板、助攻等数值。选手的特征还包括姓名、年龄、身高、体重等个人属性。

b)赛程特征 一场比赛由多个回合组成,每个回合又包含进攻和防守两个阶段,因此需要预先定义好各种阶段的单词,然后利用词袋模型计算每句话中的阶段词出现的频率,再结合全句的文字向量空间模型(Word2Vec)计算每一句话的标签。句子中的阶段词出现频率越高,说明该句型越倾向于进攻或者防守。 赛程还涉及主客场、比分、时间等信息。

c)裁判特征 体育比赛中都有专门的裁判员判罚记录,这些记录包括犯规类型(个人/集体)、罚球金额以及违例情况(带球/运球/投篮)等。还可增加一些辅助信息,比如当值裁判员的姓名、双方球队的犯规累计次数、罚球命中率等等。

2.文本分类 根据上述文本特征的提取方法,先对各条新闻进行分类,分类的结果用来标注每条新闻的类别(赛场上/下)和时间。

3.文本聚类 从大量的新闻中抽取一部分代表文章,采用语义方法进行处理,得到一组表示文本含义的词向量,继而运用K-means算法进行聚类。

我来回答
请发表正能量的言论,文明评论!