「感觉资料都在嘲笑我了」以博客来大数据专案为例,看一个资料科学专案会遇到哪些困难

「感觉资料都在嘲笑我了」以博客来大数据专案为例,看一个资料科学专案会遇到哪些困难

「谁在买书、买什幺书?一本书的书名要怎幺样下比较容易畅销?政党倾向跟购书行为有没有关係?」每一年博客来都会发表博客来报告,解读该年书市的畅销书。过去多半凭着销售数字来做,但今年博客来与中研院资讯科学院研究员陈昇玮的资料洞察实验室合作,用资料变出了更多新把戏。

资料洞察实验室利用博客来从 2014 年 12 月到 2016 年 3 月的销售资料,结合开放资料,让今年的博客来报告有丰富的购书者轮廓。例如大家熟悉的小说类别,同性爱小说和爱情小说的读者群较年轻、历史武侠和文学研究小说的读者群年龄较长,若深入分析「金庸」这个类别,更存在 15 岁以下的青少年和中年人两种主要客群。

「过去我们做单一的数据分析,比较常说什幺样的书卖得比较好。但整合各种博客来以前没有的资讯过后的结果,都是更加立体的想像。」博客来文化事业部部长张静如认为。

一个资料科学专案是怎幺开始的?

而对负责这次专案的资料洞察实验室 5 位成员游为翔、林家庆、周俊川、杜靖恺和张育诚来说,去年 9 月底收到资料、12 月底就要发表报告,短短 3 个月的时间无疑是一大压力,他们笑说,投注的心力与时间几乎是实际上的两倍,「可以说做了半年吧!」

这样一个资料科学团队,在实际接轨图书产业的资料时,遇到过什幺样的难题?又有什幺收穫?

「面对到的第一个问题,其实就是资料『很髒』。」周俊川说,这让团队光是前期在清理资料就花了不少心力。例如说,明明是同一个作者,但在资料上却有两种呈现方式,或是外国作者有译名,但明明是同一人,在每本书的翻译都不一样;或者说书名,系列套书在命名时也没有统一的格式。也因为书名、作者这些资料在栏位上没有定义,在搜资料时就需要花费很多工夫,只好看到一个规则、就写一个规则,然后清理,然后再去找一次有没有漏洞。或者资料的定义不够清楚,一本书可能分为平装版、精装版,但本质上其实都是同一本书。

整个流程中,资料清理花了近两个月时间、资料分析大概一个月,再来才是最后的统整以及视觉化呈现。有时候做到有点崩溃的时候,看到长成像是「86586^||^1^||^277^||^^||^0^||^0^001064」的资料,「你不觉得那看起来很像笑脸吗?这时候就觉得连资料都在嘲笑我。」游为翔笑说。

第二,则是资料科学中,领域知识的重要性。「11 月的时候我们去报告一次,回来之后大改方向。」游为翔回忆,经过第一次资料的梳理,得出来的结果多是已知的,这也带出这次专案执行中最大的困难,其实是最常获得「喔?这我知道啦,所以呢?」的回应。

因为许多资讯过去是内化在图书销售经验里头的。杜靖恺举例,像是刚开始曾分析出一个结果是会买欧美漫画的人特别不一样,他同时也会去看人文社会科学的书。但这一点,图书专业领域的人都会知道。另外,像是团队一开始以为书籍的出版日期能够拿来应用,但在与对方讨论的时候才发现日期并没有一定的规则,如果硬做下去不会有结果。「很多限制无法一开始就知道,要等遇到了才会知道。以为有 pattern(模式)可循,但其实没有。」

林家庆认为,「他们凭经验、我们靠验证,而且用统计的方式呈现关係的存在,但如果要得出更多 insight,就得不断的换方法、换方向,从错误中不断尝试。」

「感觉资料都在嘲笑我了」以博客来大数据专案为例,看一个资料科学专案会遇到哪些困难

 平常做专案的日子,就像这样长时间待在实验室里与资料奋斗。

而在资料的预测性分析中,团队最后也利用书籍特徵、书名关键字及上市前的市场状况来发展出畅销书预测模型,以文学小说畅销书的预测準确度来说,已经可以接近八成。「心得是,不要先预设立场,不要觉得资料太少太浅,就做不出什幺东西。」林家庆认为。

用数据说话的思维

而在这样的专案合作中,除了用资料得出更深刻的读者轮廓之外,用数据说话的思维,其实才是博客来这次导入资料科学方法最大的收穫。

「你要用客观的方式去表达,用数据去佐证主观的意见。」张静如表示,比方说过去博客来在经营图文书、尤其旅游类书籍时,会先跟出版社沟通要在网路上放上大量的内页介绍才会吸引读者,提升销售表现,出版社往往只会认为是单方面的说法、不一定全都买单,而这些过去内化在自己的经验里的想法,现在可以用数据呈现正相关,说服彼此达成更好的共识。

资料是验证事实的一种方式,也是开启未来应用的一把锁匙。「除了预测未来什幺事发生之外,现在对博客来来说重要的是『怎幺让它发生?』。我们觉得既然我们有这样的庞大的资料量,这是可以在好的分析工具之下有更好的应用。」

而在这次合作之前,都没接触过图书产业的资料洞察实验室成员,也从这样的过程中得出兴趣,即使专案结束,还是持续尝试更多方法,「例如说书的封面如何量化?我们现在就试着用类神经网路的模型去做。」对一般人来讲这很抽象,但资料科学就是要化抽象为结果,从未知到已知,也是从已知到未知的的一门学问。

你可能喜欢的: