一点资讯技术副总裁王元元发表题为“信息流的未来与人工智能的机会”的演讲实录
【艾瑞网直播】2018年5月23-24日,为期两天的2018艾瑞(北京)年度高峰会议聚焦“智能无界决策”,在北京国贸三期大酒店盛大召开。艾瑞峰会汇聚众多互联网行业领军人物、创新者,企业决策者一起看清机遇,改变惯性,开拓认知商业新视野。
以下是一点资讯技术副总裁王元元发表题为“信息流的未来与人工智能的机会”的演讲实录。
大家好!非常荣幸今天能够在这里跟大家分享一下信息流行业现在,以及未来的发展趋势,更重要的是结合人工智能在这当中发挥的作用,跟大家进行探讨。
为什么说算法带来信息流行业的蓬勃发展,这一点可以从信息流行业本质来看,信息流本质是流量的战争。每一家公司都是为了获取更大的流量而奋斗,这个地方比较关键的是说,怎么样能够降低流量的获取成本?以及增加单位流量的变现效率,打通这个循环之后,利用公司运营的手段、市场推广手段,让整个流量不停的增加,进而取得商业上的成功。在这个过程当中,算法又起到非常至关重要的作用。它能够极大地增加每一个环节的运营效率,为什么说算法能跟信息流行业很好地结合呢?从算法能够起到巨大作用的前提讲一讲。一个算法能够起得比较大的作用,有两个条件:
一、有比较清晰和简单的优化目标。在信息流行业里面,这个优化目标可以转化成点击率、时长、广告的ECPM。
同时,可以采集到大量的数据、海量的数据,这些数据能够反过来为优化目标,提供重要的数据基础。这两个环节,正好是都满足了。所以说,信息流跟算法的共生或者是带动了人工智能在这个领域的极大发展。也可以说信息流像PC时代的搜索引擎一样,成为在移动互联网时代蓬勃发展的行业。
信息流最早是从2012年随着像一点资讯、今日头条个性化资讯客户端的诞生,引领着行业发展。从产品形式上来讲,它是从以前的静态资讯的获取方式,转变成千人千面,可以无限刷新的个性化推荐。推荐系统本身就是AI的产物。
随着信息流的不停发展,从信息流满足用户需求角度来看,从之前单一满足用户打发时间的需求,朝着自驱更多元的需求发展,资讯承载的价值也在不断地提升。
在一开始整个互联网上资讯内容的供给方,基本是机构、媒体,经过门户网站的编辑进行二次传播。但是到了现在,内容的供给主要来源是自媒体平台,大量的个人或者是机构的媒体,都转型到自媒体的平台上去创作内容。
随着信息流的发展不停的往前进,不停的占据用户的时长,整个行业最近遇到了非常严峻的监管挑战。从野蛮生长的状态到规范的状态,必须要经历的过程。
最后,信息流从现在大家可以看到每一个APP,每一个网站都在做信息流,大家可以看到每一家在做,我们可以看到这个趋势,也认为信息流会像搜索引擎一样,变成基础设施在行业里面产生作用。
接下来,我会从几个方面谈一下,人工智能在这当中产生的价值。有一些是完成的较为成熟,有一些其实是人工智能不擅长处理的,也是所有算法工作者需要挑战的问题。
最早期,当没有用户的行为数据时,推荐系统的建设主要是基于内容的推荐。基于内容的推荐,首先对内容进行显示的了解,这篇内容是讲什么人,讲什么方面,讲什么领域的。基于这些结构的分析,我们在根据用户的这些行为,用户看的时候分享了什么,来生成所谓的用户画像。利用文章的特征,再加上用户的画像,就可以建设一个较为初级的推荐系统,也能够让用户感知到比较个性化地推荐效果。
随着整个的产品用户规模不断的增加,所谓协同过滤的推荐方法,立马就产生了非常大的作用。协同过滤本质上是说不需要对用户的内容进行建模,根本不需要知道它是讲什么的?我只需要把它扔出去,让很多人点击,通过点击的数据分析出这些内容适合什么样的用户。这个也是现在基本上所有行业里面推荐系统都是优先使用的,它的效率是非常高的。
发展再到后期时,利用混合推荐的技术,把内容推荐和协同过滤的推荐有效结合起来。因为在一篇内容刚进入到系统时,这个内容是没有任何所谓的用户行为数据,没有办法进行协同过滤,把这两种方法结合在一块,既能进行内容用户侧的启动,同时也能够保证分发的效果。
深度学习这套技术,实际上影响着方方面面的行业。尤其在语音图像方面。信息流行业,深度学习技术相比于之前的方法,在提高用户的点击率和阅读时长方面,也产生了大的价值。
整个推荐系统的核心能力是说,我们要建设一个非常强大的,不管是相关性模型还是排序性模型,实际上整个模型的迭代方向就这几个:实时、规模、深度。
为什么说实时很重要?因为信息流领域的推荐跟电商或者是电影领域还不太一样,因为内容时效性非常短,大量内容转瞬即逝,过得非常快。所以我们要设计一些动态系统捕捉变化。
第二,超大规模。一点资讯日活六千万,一个月来看的话几亿的数据,几亿的数据我们都要放在网络里面,有很多的参数进行学习,这个里面有学习的速度问题,也有并发训练问题,这都学习在算法过程中克服。
除了规模以外,我们模型也是从浅到深的发展,现在深度学习不管是用户相关性模型还是排序模型中,都已经被利用了。除了深度,有序也非常重要。因为用户的行为是连续性行为,在建模过程中,把连续性行为放进去,这也是行业算法过程中关注的。
不知道在座各位有多少同学每天晚上刷一些短视频的应用,我也经常刷,刷的感觉是说越刷越不想睡觉。相比较我读高中、大学时,拿起一本课本或者是一本教材,我可能瞬间睡着了。我们想5秒钟的,只需要记忆5秒钟的内容,和你需要很高的成本记忆内容,实际上对用户的价值是完全不一样的。当然看5秒钟的内容,可以让你很轻松很愉悦。但是有些资讯,能够让你花一天,比如说现在的热点,可以对这个行业更多地了解。
可能你看到一篇行业好的论文,或者是行业的深度分析,可能对你这一个月内都产生价值。有些人看一些专业的书籍,这个价值可能时间更长,可能会影响你一辈子。
所以说,信息流对于用户资讯的需求满足,目前还是处于初级阶段。基本上提供大量地看了5秒就忘的内容,我们要思考怎么样在信息流分发过程中,找出能够让你记一天,记一个月,甚至记一辈子的好资讯。
这个地方其实就是要跟算法的特点结合在一块分析下,算法特别容易去解决刚才说的5秒钟记忆的内容分发问题。为什么?它只需要做到一点,只需要做到一个很精准的点击率预估就行了,不需要对内容进行更多的分析,不需要对用户的长期行为跟踪做出更多的监测,以及针对长期行为的优化。
我们看到算法一般产生效率,之前也提到了,所谓的数据和目标的设定就决定着它的效率。高的效率就来源于海量的数据和易于优化的目标,我们要克服这个问题,就需要针对数据和目标来进行处理。现在的数据,如果都是用户的一些行为数据,这个系统里面没有专家的数据参与进来,大量都使用无监督的学习方法,当然效率非常高。但是,我们永远没有可能想要的内容和推荐系统迭代的状态。
目前绝大多数的用户行为数据,也是通过用户的被动反馈来的。意味着算法只是为了讨好用户,我们收集来的数据是有上限的。一方面从流量角度来讲,要注重分发的效率。另外从主动引导的角度,可能牺牲一部分的流量,也需要去试探用户更多的兴趣,这两方面的结合,也可以让数据的价值不停提升。
从目标角度来看,现在有很多的像点击率或者是时长这样的目标,也是能够被很好地去优化推荐系统,但是好的系统可能不只考虑点击率目标,可能还需要把用户的时长分享,甚至于他阅读的行为连贯性,甚至仔细程度都刻画进来。
短期收益和长期收益指什么?我们的算法只是很短视,只看他当前点不点这篇文章,这个系统实际上非常短视的,可能给点击率高的内容。但很可能来了,怎么样用算法延长他的刷新次数,和提升观看率,这个时候算法是比较难做的。
刚才讲到个性化分发和内容价值的问题,我们也提出了以兴趣分发的核心系统。不希望仅仅通过深度学习、效率优先的方法,同时把人的知识补充在预先的结构中,会主动去思考每一种人群的兴趣是什么?每一个兴趣下面最优质的内容又是什么?这些主动的思考,一定会推送给用户更加有价值的内容。
我们看到传统的媒体都在往PGC内容发展,这不仅意味着简简单单换个名字,也意味着他们创作内容的方式和筛选内容的方式,也是朝着新媒体、个性化资讯平台的需求演变。自媒体平台的发展近期可以看到,整个行业内自媒体号的数目非常庞大,这也对内容的分发或者是内容的筛选带来一些挑战,怎么样从海量的账号中筛选出有价值的东西,也需要算法花很多时间去做。
整个算法在自媒体生态中,能够做的事情其实还蛮多的。比如说可以根据整个APP上面流量的分布,能够去精细地制定出供需关系,引导自媒体的作者针对性地生产。能够在注重分发效率的同时,也能够给特定的一些自媒体作者去进行流量的保护,比如说新的优质的自媒体账号,给他进行一定的保量。
在提升自媒体作者创作效率的角度来讲,可以通过全网的聚合,各种素材的自动整理,也能够帮助自媒体作者更方便的创作。
现在版权问题非常严重,怎么样通过全网抓取版权识别机制的实现,也能够帮助自媒体作者去保护他的权益。
刚才讲到整个行业的发展,经过了非常爆炸式地发展之后,现在从国家的角度也越来越把行业纳入到正常监管范围内。从现在来看,整个行业来讲,我们都需要拥有资质,或者是持证上岗是个常态。这个地方也是给还是处于野蛮生长阶段的信息流服务商,也提出了一些挑战。
这个地方算法在整个的监管背景下,其实也是在努力做一些事情,能够提高或者是促进整个行业的转变。一方面可以去打压低俗的文章,我们做得事情是收集更多的低俗文章内容,进行针对性地训练,整体性打压内容在平台分发的趋势。
另外,组织一些好的正能量文章,也可以利用机器学习的方法,让这些内容更多地展现在客户的手机上面。
最后,整个信息流行业从大家的百花齐放到可能会朝着一些重要的基础设施转变,现在可以从2012年开始像一点资讯、今日头条纷纷推出了客户端。紧接着各大门户开始跟进,基本上门户都已经信息流化了。
2015年开始,厂商、浏览器也作为一支重要的力量,参与到信息流行业当中来。现在浏览器的用户也成为整个信息流用户大盘子中最关键的一部分。
从2016年开始,很多工具类的应用,纷纷也推出了信息流。像淘宝、京东都做了各自领域垂直化的信息流。也看到了因为信息流在提升收入,在增加用户黏性方面的巨大价值。
我们认为现在百花齐放,可能最好是说能够通过一些基础设施的建设,能够帮助大家更方便的完成这方面工作。我觉得一个统一的基础设施的价值是非常大的,首先从创作者角度来看,我们的内容从一个地方上传就可以全网分发。从用户角度来讲,你的画像,你的行为聚集在一块,更有力的推送比较好的结果。从广告主来说,你的广告投放能够触达更多的用户。从监管部门来讲,也便于更好的管理。合作伙伴来讲,能够节省很多的审核风险,只需要专注于它的产品能力,提升它的竞争力。这是各方共赢的趋势,我们认为有必要给行业内所需要的企业,提供强大的开放平台,进行赋能。