重估推荐算法:海量信息时代,什么样的系统能帮人们掌控生活
十一假期打开手机,出行机票火车票被推送到眼前,顺序从上到下排列不仅提供合理价格,还兼顾合适的出门时间。等你到达目的地,特色餐馆、景点与洗浴放松场所也占据你的屏幕,你并不需要对当地风土了解,不尝不行的小吃,价位合适且不排队的餐厅已由一套系统为你安排好。
是谁在背后像秘书般,为你提供一个个选项?答案便是:推荐算法。
从出游机酒筛选,到目的地酒吧推荐,从短视频平台兴趣内容匹配,到求职招聘为你寻一个老板,甚至打车司机、按摩店、帆布鞋推荐匹配等场景中,推荐算法无处不在。
关于推荐算法,你可能曾听闻它是某种黑箱玄学,也可能听说它是流量至上的代名词,与“信息茧房”挂钩。
可事实上,今天的人们,可能真的离不开推荐算法。
根据《全国数据资源调查报告(2023 年)》统计,2023年,中国数据生产总量达 32.85ZB(泽字节),相当于 1000 多万个中国国家图书馆的数字资源总量。海量内容被用户们产出,加之AI大模型潮涌,人工智能生成内容进一步使得信息世界变得庞杂、漫无边际,还有不少低质量虚假信息充斥互联网。
信息过载下,“时刻渴望高效”的情绪也在蔓延,2024年6月,《中国青年报》一项调查显示,94.8% 受访青年感觉自己的生活开启了“倍速键”,需要在短时间内完成更多事情,获得更丰富的体验。
尤其面临社会急速变化,人们对效率的要求不由自主变高起来。“3小时学会Python”随处皆是,“逼自己一天背下面试题加入大厂”成为流量密码。
对比过去,人们对信息筛选和获取效率的渴望,从未像今天这样高,相应地,针对互联网信息进行处理及分发的推荐算法,已在方方面面融入人们的生活中。
那么,人们需要怎样的推荐算法?
到底什么是推荐算法?
在谈需要之前,先弄明白——什么是推荐算法。
根据中国人民大学高瓴人工智能学院给出的定义,算法在本质上是“以数学方式或者计算机代码表达的意见”,而推荐系统就是一个信息过滤系统,帮助用户减少因浏览大量无效数据而造成的时间、精力浪费。
其诞生是伴随着上世纪八九十年代出现的概念——“信息过载(Information Overload)”。随着信息技术和互联网的高速发展,人类的信息获取方式和半径被大幅扩展,信息量几何倍增加,但人的精力和时间却不足以处理信息爆炸所带来的海量资讯。
1992年,大卫·戈德堡等学者发表《基于社交关系和条件补全的协同过滤推荐算法》,首个协同过滤系统就此诞生。5年后,保罗·雷斯尼克等学者在《美国计算机学会通讯》中,首次提出了被广泛接受的推荐系统的概念和定义。
推荐系统真正开启广泛应用是在2003年。彼时,亚马逊提出了项到项的协同过滤,通过分析用户对推荐的物品、内容或服务的评分,来预测用户可能感兴趣的内容并将之推荐给用户,协同过滤算法成为当时解决信息过载问题的主流推荐模型。
该技术的爆发则与两家互联网企业崛起有着千丝万缕的关系。2009年,随着Facebook推出排名式个性化新闻推送,算法改变了人们在线互动的方式。在中国,字节跳动于2012年诞生,信息与个人兴趣需求的精准匹配,从“人找信息”的1.0阶段,正式进入“信息找人”的2.0阶段,满足信息超载下的用户刚需。
本质上,推荐算法实际上是一种技术进步,它有效提升了人们信息收集、整合与分析的效率。
经过近10年对推荐算法的尝试和优化,2021年,TikTok推荐算法被麻省理工科技评论评为“全球十大突破性技术”,因为这一技术让优质内容得到应有曝光,也让普通人的兴趣爱好有了共通价值。
甚至大模型技术也被应用于推荐算法中。以预训练模型技术BERT为例,它可通过对大量语料库进行无监督学习,从而获取丰富的语义信息。嵌入推荐系统后,BERT可以将用户和物品描述转化为具有丰富语义信息的向量表示,更好地理解用户需求以及物品的属性和特征。eBay、阿里、美团等互联网公司都已经开启了BERT模型在推荐系统应用的实践。
如今,推荐算法已经在人们的生活中无处不在,它会把相关内容推荐给更感兴趣的用户,信息在这个过程中得到更精准地分发,提升传播效率,帮助用户减少无效数据过量带来的低效浪费。
正是源于推荐算法已是当代信息生活的必备工具,直接影响大众如何认知和理解现实世界,相关部门也对推荐算法提出要求。
根据2021年12月31日发布的《互联网信息服务算法推荐管理规定》——算法推荐服务提供者应当坚持主流价值导向,积极传播正能量,不得利用算法推荐服务从事违法活动或者传播违法信息,应当采取措施防范和抵制传播不良信息。监管部门进一步指出,算法推荐应该服务公正公平、规范透明,促进算法推荐服务向上向善,营造更加清朗的网络空间。
该《规定》也要求算法服务提供者须进行备案。以抖音为例,在网信备案的公示内容里详细说明了抖音推荐算法的基本原理、运行机制、应用场景和目的意图。
重估推荐算法
此前一段时间中,推荐算法常被质疑构造了“信息茧房”,但一些专家基于研究提出的不同的观点。
“信息茧房”一词,最为人熟知的来源是美国法学教授凯斯·桑斯坦的《信息乌托邦》(出版于2006年),是指当个体只关注自我选择的或能够愉悦自身的内容,而减少对其他信息的接触,久而久之,便会像蚕一样逐渐桎梏于自我编织的“茧房”之中。
在桑斯坦提出“信息茧房”时,算法还是个模糊的概念。实际上,信息茧房这一概念在学术界根本没有实证研究、量化数据的支撑。相反,已有的许多研究证明,信息茧房的负面效应并不存在。
清华大学新闻与传播学院常务副院长、教授陈昌凤研究指出,信息茧房是一个似是而非、缺乏科学证据的概念。西方学界尚无有力研究证实“信息茧房”的存在。
一方面,造成“信息茧房”的实验室条件式的纯粹信息环境很难存在,人们总是在更多元的、复杂的信息环境中;另一方面,“信息茧房”若作为长期传播效果来研究,证实其存在更加困难。许多情形下,人们对“信息茧房”存在的是担忧,而不是拥有确定的论据。
2016年,赛斯·佛莱克曼等研究者选择了5万名参与者,要求他们报告自己最近阅读、观看或收听的新闻媒体,同时通过电子手段直接监测和记录他们的实际新闻消费行为。通过两项数据的对比,研究最终发现人们实际的媒体消费比他们自己想象中更具有多样性。
也就是说,人们实际并没有陷入“信息茧房”中,但他们可能会装作自己陷入了其中。
此外,也有学者提出,信息茧房与算法本身似乎不存在必然关系。
北京师范大学新闻传播学院教授喻国明表示:“信息茧房”是个体、社会、场景与技术等因素共同作用的结果,算法既不是“信息茧房”形成前的必要条件,也不在“茧房”生成后起到增效。实际上,随着算法与人的深度融合,可信任算法正在“信息茧房”的消解上发挥重要功能。
清华大学社科学院发布的《破茧还是筑茧?用户使用、算法推荐与信息茧房研究报告》发现,从中长期看,个性化推荐算法不一定是导致“信息茧房”的决定性因素,反而可能为个体提供了更多元和理性的信息世界。
因为算法在满足用户个性化需求的同时,还会通过多样性打散、基于算法的兴趣推荐,以及引入随机因素这三种方法为用户推荐丰富多样的内容。
对于更多人,推荐算法助力小众内容分发,知识普惠,甚至创造新价值。
2023年9月,一条名为“探访‘三花’剧团开放式化妆间”的短视频在网络上流传,此前,成都三花民间川剧团一度濒临倒闭。短视频发布后的短短三个月,剧团通过网络平台卖出2.5万张票,几乎是过去两年多的总和,让这个老川剧团迎来新生。
来源:央视新闻
最近,因读者对《我与地坛》的一段书评,“子弹文学”一词爆火,网友用1.5亿次短视频播放“品读”史铁生的文笔,进而带动图书销量暴涨。更因4条推荐视频,40年前的老书《画魂》被加印了5次……
从《第七天》到《赶时间的人》,从《窄门》到《翦商》,经典图书、冷门佳作重新翻红,背后是推荐算法的精准有效分发,让图书被有需要的、感兴趣的人看到,把人和信息更高效地连接起来。
推荐算法打通了“人找书”和“书找人”的双向链路,实现了图书与读者之间的精准匹配和高效连接,这不仅提升了读者的阅读体验,也促进了图书的传播和销售。
不止如此,小众硬核知识博主持续走红,让更多人爱上小众学科。典型分享者,就有传播甲骨文知识的李右溪:
另一位代表,是在抖音“招收”近两百万学生的“老小孩”、流态化和反应工程领域的领军人物,中国工程院院士金涌。
毫无“流量点”的学者、平常人发布的信息有机会受到明星同等的关注,并流行起来,是内容公平性的体现;而需求较为小众、细分的用户,也能看到符合自己兴趣的内容,则是用户视角公平性的体现。
对于经济发展,算法同样成为助推的主要力量。
如果没有算法推荐,淄博、天水这样从传统眼光来看缺乏资源的地方很难被看见。
毕竟每座城市都有丰富的故事和物产,但到底哪一段故事、哪一份情怀、哪一款美食能激发用户热情?这不是某个人的理性能计算出来的,只能在无数普通人当下即时、网络交互式的消费实践中呈现出来。
换而言之,算法视角以超脱的目光对一个地方旅游资源进行着创造性地再发现和再生产。
借助《黑神话:悟空》的爆火,山西文旅在算法推荐平台也接住了2000万玩家的热情,从旅游攻略和路线设计到旅游接待和服务,背后都有算法对当下情绪的捕捉和挖掘,让网红城市从开始的单点爆发,变成不断的热点,更多看似不显眼的地方成为流量爆发点。
推荐算法同样助力农村地区发展及生产力提升。
比如在抖音“梁老师讲农业”直播间里,81岁的老农技员梁振清把自己毕生所学的农技知识,通过互联网从湖北鹤峰推广到全国各地。
在推荐系统的帮助下,视频能被准确推荐给对三农、乡村、农技感兴趣的用户,另一方面, 用户能顺势在搜索框中搜索、了解农技相关内容,扩展相关知识。
推荐算法,不仅仅是技能的交流和传播,也是提升农民收入水平、乡村振兴的“新农具”。
回归个体,在人生低谷、某行业处于下行周期,丰富的内容、精彩的自我表达同样抚慰了无数人的情绪和焦虑。
人们需要怎样的推荐算法
最后回归自己,究竟什么样的推荐算法才更适合当下人们?
首先,应正视——推荐算法与“人”的关系。
推荐算法是一个工具,应按人的需求,为我所用。
在人大新闻学院副教授董晨宇看来,推荐算法应当被看作“私人助理”。目前看来,抖音、淘宝、B站、微博、美团、知乎均已支持在“个性化推荐管理”界面中随时开启或关闭相关功能。关闭后,系统将不会基于个性化推送处理个人信息,仅会推送与用户偏好无关、具有普遍性的内容或广告。
用户还可在“内容偏好管理”中,标注自己感兴趣的标签,让推荐更加精准化个性化。而在“热点榜单”中,用户则可以获取当下热门公共性话题,开拓新认知空间。
其次,大众算法素养有必要持续提升。
在理解“信息是如何被算法筛选和推荐”的原理基础上,当代网民可通过主动搜索、与人工智能持续互动,主动地、有目的地训练算法,让它成为工作生活中的助手。
人们既可以有意识点击感兴趣的优质内容,也可以“不感兴趣”掉低劣或不感兴趣的信息,数次操作后,敏锐的系统便能快速理解种种手指点击背后的“偏好”,端出一套更称心如意的信息盛宴。
最后,推荐算法不应止于工具属性,可识别真实、高质量内容,也是对技术发展的必然要求。
片面追求流量数据的“流量至上”时代早已过去,事实证明,如果推荐算法只追求短期流量,反而会导致体验下降,促使用户流失,失去竞争力。从商业理性视角而言,平台为了让用户有获得感、惊喜感,从而愿意更长久地留在平台上,自然也有动力推荐更丰富多元的内容。
伴随监管加强以及技术进步,高质量内容所产生的长期流量以及带来的正向反馈和社会效益成为互联网平台在设计推荐算法时更关注的目标。
特别是面对信息愈发鱼龙混杂的互联网环境,一个服务大众的推荐算法应该以用户为中心,能够识别真实、高质量内容。在这方面,越来越多互联网平台正为此作出更多努力。
长视频平台B站就有相关动作与机制。对于新注册但内容优质的创作者,平台将给予更高权重的推荐。同时,B站也并未完全依赖于算法,在系统中引入人工编辑,在价值、新鲜话题方面,让人为和机器推荐组合起来,提供更好的用户体验。
令很多人想不到的是,淘宝的算法也不止提供商品推荐,同样也用于商品屏蔽,以避免过度重复的商品内容展示,让用户感到厌倦和无用。
作为推荐算法代表平台,近两年,抖音也在逐步将搜索与推荐结合,让原本在推荐分发里不占优势的内容得到更多流量。以知识类、经验攻略优质内容为例,作品发布3个月以后,搜索的平均流量占比可以达到50%以上。
由于用户偏爱收藏内容价值更高、学习属性更强的内容,抖音还加强了收藏按钮展现。点击该按钮后,将被推荐更多相关内容。例如,用户收藏了吴姥姥的物理课,后续会收到更多科普、文化类的内容。优化后,“有用”类型内容流量显著提升。
除此之外,抖音的双列模式也给予用户更多主动权和选择权,图文、中长视频等内容体裁的建设的加强,以及独立频道的上线,也为生活经验等多元优质内容提供稳定的分发阵地。
当下,大模型时代来临,文字、图片、视频、语音皆可生成之下,AI bot像是一个更为友好的接口,其后的推荐算法也必将继续迭代,让大模型为人提供真正有价值、高质量的信息体验。
比如微软基于 OpenAI ChatGPT 技术,开发的新一代搜索引擎New Bing,可以与用户进行聊天式搜索,并且支持多模态回应。字节跳动豆包APP也有类似能力。
未来,关于推荐算法的争议或许还会继续存在,但始终应该明白,算法是一个工具,工具所能发挥出的作用取决于使用者的目标和使用方法。
不管是个人还是行业,首先要对推荐算法祛魅,它所推荐的一切内容都是人们与之互动的结果。
因此,人,才是推荐算法的核心。
善用算法,也就掌握了获取信息的主动权。让技术为我所用,才能在这个日新月异的时代,看到新的世界和乐趣。