说这是一款命运多舛的作品,应不过为。谷歌音乐的前端技术负责人唐汀回忆说:“这个项目做了一年半,有无数个这种时刻,我们都可以说‘这太难了’、‘这不可能’。但最后我们就剩下了一种‘横’,较劲,一定要把它做出来。”
这是这个故事的另一侧面。当李开复、郭去疾、宓群们为了推开音乐界的方便之门而费尽心机时,一批工程师在修筑进入新的音乐世界的通道。在很长时间里,他们并不真正清楚这款产品究竟通向何方,无论它的命运还是功能取舍、介面设定,一切都并不清晰,或者说,有待创造。但这种不确定性,也正成就了谷歌音乐的惊喜感。
此项目的第一名参与者,是产品经理洪峰。郭去疾称,在项目尚处于空想阶段,洪峰是一个非常合适的讨论对象:他对事物有着朴素而深入的好奇。而当它的眉目稍微清晰,洪峰又是一个颇为讲求细节的人:做事之前想得很清楚,一旦认准方向,他会想方设法说服合作者,一步步打磨出他想要的效果。
“避免去做一款让用户不开心的产品是相对简单的。但是做一款让用户们‘不不开心’的产品,并不等于做出的产品能让他们开心。”洪峰对《环球企业家》说。他语速不快,常打比喻。这种喜欢将理念性话题以相对形象的方法表达出来的沟通方式,一定程度上与他从小学起学过多年美术有关。其产品理念也是如此。
当他想到把数以百万计乃至人类拥有的全部音乐数字化,他“看到”了一片海洋:身在其中,每首歌就像触手可及的一个气泡。
怎么让一个沉浮于大海某一角落的人抓住一个他真正想要的气泡?这个问题属于工程总监林斌及其工程师团队。
林斌喜欢讲自己加盟谷歌的故事。2006年9月,还在微软研究院工作的他在出差时遇到相识已久的李开复,随口问了一句:“你们为什么不做音乐搜索?”李很痛快地回答:“可以啊,你来做?”几个月后,林斌加盟。
没有爽约,到了谷歌,虽然很快就意识到了在这家公司做音乐产品有多难,林斌还是坚持把这个项目划在自己名下,甚至在立项之前,就跟李开复申请了专职于音乐产品开发的工程师名额。
林斌的坚持让三名初入谷歌的新兵被划入代号“Project M”(M计划)的音乐项目。性格活泼的杭州女孩汤萌芽和外表羞涩但极爱唱歌的中山大学毕业生邹振盛摸索着产品的呈现方式,而稳重、极富沟通耐心的赵启胜则专注于后端以及与巨鲸网的沟通、协作。因为尚未获得创始人许可,他们最初的三个月甚至没有进入编写代码的状态,连李开复事后回忆起来也笑称他们几人为“最可怜的工程师”。期间,林斌们还有太多的障碍需要去一一排清,为了不影响士气,尽可能以“报喜不报忧”方式与他们沟通。回顾当初,林斌仍然有些动容:“到今天我也很感激他们,那时候他们很清楚这个项目的不稳定性。”
当项目最终获得批准时,正在谷歌中国做视频搜索产品的唐汀找到林斌,希望加入其中。之所以主动请缨,是因为成长于海外的他在申请派驻回中国时,本就希望参与一些富有中国特色的产品,而且,以前偶尔听到别人说中国不重视版权保护,也让他对此项目格外感兴趣。当唐汀带着高大的东北人韩准加入到这个团队,他们带来的是极度细心修改代码中错误的体力和耐力。
不过,这款产品还需要一个在科研层面带来突破的人。
2007年初,李开复去往谷歌纽约办公室出差,专门抽出时间做了一个关于谷歌中国的演讲,希望由此吸引更多一流工程师回国。会后,一个清秀的女生找到他。这个当时正在纽约办公室负责移动搜索质量的工程师名为胡宁,是李在卡内基梅隆的师妹,交谈不久,李就建议胡宁认识一下在北京负责移动搜索的林斌。
当林斌和胡宁终于在北京坐下来聊天,他惊讶地了解到,胡宁2004年在谷歌实习时就做过一款音乐搜索产品,而她博士的研究方向为音频信号处理和信息检索,与此恰好一脉相承。胡宁说,可以把科研领域的前沿成果放到谷歌音乐中来,并愿意为此搬回中国。
闻弦歌怎知雅意
当你获得了海量的音乐信息,你究竟有几种方式去处理它?
最简单的,是把自己变成一个庞大无匹的FTP,任何人都可以前来下载。但这就像一座无人管理的图书馆,只有当用户知道自己想读哪本书,它才是有价值的。
相对高级的方法是让电脑成为图书管理员:它通过之前做好的信息分类把类似的歌曲推送给听众。比如一家名为Pandora的公司,通过人力将音乐类别划分出400个标签,对每首歌进行标注。当你选中一首自己喜欢的歌曲,它会把同一标签下的歌曲逐一播放。但这就像一条单行道:在一个相对有限的曲库下,人做出的判别当然是准确而微妙的,可如果把曲库放大到百万级就难以为继。而且,每个人的口味总有不同,Pandora的方式却只能假设所有用户的审美是同一的。
那么,谷歌能不能教会计算机成为世界上最聪明的图书管理员呢?一方面,它能对不同音乐的特征了如指掌,另一方面,它又能针对用户做个性化推荐。
想做到这点,就必须让电脑学会很多原本只有人才有的常识。这一方向在初期显然不会像Pandora一样快而有效编制出一套推荐体系,但它的扩张性要好得多。
胡宁的工作,就是“教会电脑听歌”。与人类的“倾听”截然不同,胡宁需要先把音乐的物理特征还原成数字,由电脑对数字进行分析和类比。
比如,任何一个人都可以轻易识别出鼓和笛子的音色的差异,只要找到方法把这两种差异转化成数字——假设,鼓是2046,而笛子是1984——即使电脑没有耳朵,也可以将它们区分开来。而在一个成熟的算法下,那些音色接近的人也应该被标以类似的数字:王菲、爱尔兰乐队小红莓和冰岛歌手比约克,也许在最终数字上的差异只有0.1。
那么,想象一下,根据不同的音色,电脑是有可能给所有的音乐绘制出一张无限庞大的地图的。虽然电脑只是在计算时把彼此详尽的数据凑在一起,但还原成物理世界的歌曲,人们看到的就是钢琴曲集合在一起,吉他独奏凑在一起,声音粗砺的摇滚男声被划分到一个阵营⋯⋯
当然,真实的计算过程并非如此简单。面对一首歌,胡宁先要把它还原成频谱,并以“百毫秒”为单位将它分割成数千个段落,从每个段落中提取出事先设定好的一百余个特征值。这大约相当于,其中的一段几百毫秒为一个鼓点,而另一段几百毫秒是一声镲,它们各自被总结成一个拥有100多个特征值的向量,这两个向量是不同的。一首歌由上千个这样的多维特征向量构成。那些向量重合度相对高的歌曲是相似的——这就像你在一张纸上画出上千个点,如果有另一张纸上也有一千多个点,且这两张纸重叠起来看,所有点的位置类似,你可以说这两张画很像。
这个想法已经非常有趣,但洪峰依然希望在这个程度上更进一步。刚刚做完谷歌财经的他问胡宁,有没有可能像股票查询一样,用户只要在一些标准上做些简单的选择,就能得到不同的结果?
洪峰的设想从投资者角度是非常直观的:你可以让电脑列出市盈率在6倍以下的公司,或利润率在30%以上的公司。但胡宁并不认同他的创意:音乐是没有市盈率和利润率的,用户怎么选择?
但洪峰并不愿轻易放弃这一想法,他前后用了两周时间说服胡宁,音乐的指标并不需要像市盈率一样清晰,但增加用户与音乐的互动性本身就是一个有趣的想法。
于是,在本已紧张的开发计划中,谷歌音乐第二版包含了两个方向的产品:一个是胡宁推动的相似歌曲,一个是洪峰构想的根据音乐特征挑歌。