一、智能算法的推荐原理
智能算法推荐的本质,是从一个聚合内容池里面给当前用户匹配出最感兴趣的内容。
这个内容池,每天有几十上百万的内容,涵盖15s短视频、1min长视频、5min超长视频。
而在给用户匹配内容的时候,平台主要依据3个要素:内容、用户以及用户对内容的感兴趣程度。
系统是怎么理解我们创作的内容呢?
平台在做内容刻画的时候,主要会依托于关键词识别技术:通过提取文案、视频中的关键词,根据关键词将内容进行粗分类,然后根据细分领域的关键词,再对分类进行细化。
比如,视频文案及内容的关键词是“罗纳尔多、足球、世界杯”。
大部分关键词都属于体育类词汇,就会先把你的作品分到体育大类,然后根据具体的关键词,再细分到“足球”、“国际足球”等二三级类目。
关键词提取原则:
1)高频词原则:系统从作品、文案中提取高频出现的词汇;
2)独特性规则:大部分文案、内容出现的词,不会被认为是关键词。
比如虚词(的、地、得、而、对于……);
比如转折词(虽然、但是、因为、所以……)。
怎么才能让系统更好的识别我们的关键词呢?
1)避免使用非常规词。比如:活久见、城会玩、腿玩年、DBQ……
2)名人/地名用全程,不用缩写或外号。比如:詹姆斯vs詹皇,广西、广东vs两广地区,香港、澳门vs港澳……
3)多用具有代表性的实体词。实体词就是一些名词和代词,比如人名、地名、公司名称等。
例如:《流动着的舞台,街头中的故事》,在这个文案中,我们很难提取出有意义的实体词,我们对它进行优化:《印度就是脏乱差?这组图片让你看清印度的另一面,与想象中大不同》
优化后,我们这个就能提取出“印度”这个实体词,知道是跟印度有关的内容,进一步提取,还会发现“脏乱差”、“图片”这些有意义的词汇。
系统是怎么理解用户的?
为了更好的理解用户需求,系统会从多个角度进行用户画像:
1)历史浏览信息(从作品文案、内容中的关键词提取)
2)身份标签(兴趣标签、职业、年龄、性别、机型……)
3)环境特征:根据他们当前的环境(工作、通勤、旅游、娱乐场所、休息……),确认用户的状态
通过这一系列的比对、分析,系统推测还原出一个用户的基本属性,比如:Ta可能是一个正在旅游的男性,喜欢足球、汽车等分类。
系统会把上述的用户特征,归类为这个用户的标签。
用户标签主要分为3大类:
1)用户的基本信息(年龄、性别、地域);
2)用户的行为信息(关注账号,历史流浪记录,点赞收藏的内容、音乐、话题);
3)阅读兴趣(阅读行为、用户聚类、用户标记)。
系统根据用户的信息和行为,对用户进行分析计算,计算出用户喜好的分类、话题、人物等其他信息,这样就完成了系统对用户的刻画。
推荐算法的本质
利用作品的特征(主题词、标签、热度、转发、时效、相似度)、用户喜好特征(短期点击行为、兴趣、职业、年龄、性别等),以及环境因素(地域、时间、天气、网络环境),拟合一个用户对内容满意的函数,它会估算用户对每一个作品的点击概率,然后再从系统几十上百万的内容流量池中,将所有的作品按照兴趣由高到低排序,Top10的作品在此时会脱颖而出,被推荐到用户的手机上进行展现。
大概就是这个样子想学的可以私信小编
首先抖音平台的流量分发是有几个等级的。那么我们刚发上去的视频都会被放到初级流量池中,给一个最基础的流量几百或者几千个播放量,然后通过看过这些视频的用户行为来判断是不是继续给这个视频流量。那么有哪些行为呢?
用户在看视频时停留的时间长度,是看完了,还是没看几秒就划过去了?还是重复的看了几遍?也就是我们所说的,完播率和复播率。看完了证明这个视频他比较有兴趣看完,看了几遍有可能是很喜欢这个视频。
那么这个用户对这个视频很喜欢他点了赞并且写了评论,还把视频转发给朋友,还下载下来了。并且有这个行为的用户有很多发给100个人看有八九十都是很喜欢,那么抖音平台就会把这个视频发给更多的人看,就进入到下一个级别的流量池了。那么越来越多的人看到了,越来越多的人喜欢,这个视频得到平台的流量推送也就原来越多了。
所以决定一个视频的推送流量是通过用户的六种行为决定的:完播率、复播率、点赞率、评论率、转发率、停留时间。