当前位置:主页 > 新闻中心 >

新闻中心

NEWS INFORMATION

im体育足彩-斯坦福大学博士后王鸿伟:知识图谱辅助的个性化推荐系统

时间:2021-05-25 00:21 点击次数:
  本文摘要:文中为把门技术性社群营销在线直播平台第188期的文本內容梳理共享资源特邀嘉宾:斯坦福学校博士研究生王鸿伟感谢梳理人:Datafun秋林津渡介绍互联网产业迅猛发展的今日,人性化引荐系统是全部朝向用户的网络平台的核心技术。科学语义网做为一种新的科学专业知识媒介,为引荐系统获得了附加的輔助信息来源于,并有利于提升 引荐結果的多元性和可解释性。 此次共享资源的主题风格即是科学语义网輔助的人性化引荐系统。

IM体育官方网站

文中为把门技术性社群营销在线直播平台第188期的文本內容梳理共享资源特邀嘉宾:斯坦福学校博士研究生王鸿伟感谢梳理人:Datafun秋林津渡介绍互联网产业迅猛发展的今日,人性化引荐系统是全部朝向用户的网络平台的核心技术。科学语义网做为一种新的科学专业知识媒介,为引荐系统获得了附加的輔助信息来源于,并有利于提升 引荐結果的多元性和可解释性。

此次共享资源的主题风格即是科学语义网輔助的人性化引荐系统。此次主题风格将从下边4个层面开展:引荐系统的基本知识科学语义网輔助的引荐方式解读根据embedding的科学语义网引荐方式复合型科学语义网引荐方式引荐系统的基本知识1、什么叫引荐系统在当今网络时代,引荐系统是全部朝向用户的互联网运营的关键技术,要是商品是朝向用户的,那麼就会有引荐系统的市场的需求。

引荐系统是解决困难信息发生爆炸事故难题,给用户引荐一个用户很感兴趣的小规模纳税人非空子集。用户在很多产品中,不告知怎样随意选择,引荐系统是替用户保证这一随意选择,猜到用户的兴趣爱好,随后给用户引荐一个小规模纳税人的产品非空子集,那样用户便会格蕾斯在很多产品中。

荐好多个引荐系统的事例。如下图是imdb系统中的影片引荐,imdb不容易引荐用户有可能更为很感兴趣的影片。

如下图是美国亚马逊系统中的书籍引荐,给用户引荐和用户更为涉及到,用户更为很感兴趣的书本。如下图是booking.com系统中游玩景点的引荐,给用户引荐更为很感兴趣旅游景点。如下图是大家更为熟识的引荐系统的事例,知乎问答,响音,今日头条等系统,都是有引荐作用。2、引荐系统的搭建方式引荐系统关键有两个每日任务,一个是得分预测分析(RatingPrediction)。

如下图左侧是得分预测分析的事例,横坐标轴是物件,纵坐标是用户。报表是用户对物件的得分,这一得分能够说明的反映用户对物件的喜好程度,1答复很不反感,5答复很反感。

引荐系统便是预测分析报表中回应好处的缺点值,这就叫得分,这一得分叫说明对系统(Explicitfeedback)。另一个是网页页面预测分析(CTRPrediction)。

右侧是网页页面预测分析的事例,报表中仅有0和1,0答复用户没网页页面过,1答复用户网页页面过,这类数据信息叫隐式对系统(Implicitfeedback),网页页面预测分析不可以反映用户的十分太弱的钟爱程度,用户网页页面了不一定表述用户反感,例如摆地摊淘宝网,用户仅仅网页页面了某一物件就散伙了,因此 网页页面物件并没法意味着用户的实际觉得。引荐系统有一个十分經典的方式叫协作过滤装置(CollaborativeFiltering,CF),CF的关键是假定相仿的用户有相仿的钟爱。

如下图为4个用户对4个物件的得分状况,来预测分析用户u4对物件i1的得分。根据这4个用户在别的3个产品(i2,i3,i4)的得分,推算出来出有别的3个用户和u4用户的相仿度,各自是0.7,0.1,0.2,随后用相仿度加权平均值别的3个用户在i1物件的得分,那样就得到 了u4对i1的得分为2.1。

协作过滤装置CF是依据历史时间物件得分纪录,推算出来出有用户相仿度,进而预测分析成绩。CF是一种罕见的方式,但不会有下列2类难题。

第一类是稠密性难题(Sparsity),一般状况下得分产自是十分较密的,例如一个用户一辈子有可能只不容易看几百部影片,但影片数量约上百万数量级,因此 在推算出来相仿度的情况下不容易有艰辛。第二类更进一步,冷启难题(Coldstart),当来啦一个新的用户,这一新的用户没历史数据,因此 不上推算出来相似度,就不上保证引荐。

当备案新的app时,例如阅读类的app,系统一开始不容易回应你对什么主题风格很感兴趣,由于系统没你的历史数据,一开始不上让你引荐。科学语义网輔助的引荐方式解读对于引荐系统经常会出现的难题,大家的构思是即然用户和物件互动很较少,乃至没,那能够引入别的的一些信息,这种引入的信息叫輔助信息(SideInformation)。如下图是4类十分罕见的輔助信息:社交媒体;用户或商品属性特点;多媒体系统信息,例如影片的宣传海报,文字信息,视頻声频信息等;前后文信息,假定一个用户售卖了一个产品,售卖纪录的一些信息,例如時间、地址、当今用户加入购物车的别的物件信息等。1、什么叫科学语义网科学语义网(KnowledgeGraphs,KG)也是一种輔助信息。

KG是一个有向对映异构图(heterogeneousgraph),图上连接点答复实体(entity),边答复关联(relation)。一个KG一般来说包含许多 对三元组triple(head,relation,tail),在其中head和tail是两个实体(entity),relation便是边。如下图,引荐系统的item是影片,因此 ForrestGump是引荐系统的item,另外也是KG中的实体,KG中别的的实体并并不是引荐系统的item,ForrestGump这部影片的出演是TomHanks,尽管TomHanks是KG的实体(entity),但并并不是item。

把图上左侧这种三元组(triples)人组一起,就变成了右侧的一个非常大的KG。2、为何要在引荐系统中用以KG如下图,假定一个用户(最左侧)看了3部电影(item),CastAway,BacktotheFuture,TheGreenMile,在KG中,能够将这3部电影相接到别的的一些事儿上,例如CastAway这部影片的类型(genre)是探险形(Adventure),BacktotheFuture的导演(directed)是RobertZemeckis等,能够相接到许多 别的non-item实体上,再作从这种non-item实体又相接到item影片实体上,例如最右侧的Interstellar,ForrestGump,RaidersoftheLostArk。KG建立一个从用户早就看了的影片到沒有看了的影片的相接,而这种相接并不是由用户的欣赏纪录当作的。

在CF里,本质上是把正中间这方面换成了别的用户,用别的用户历史时间欣赏纪录得到 这种相接。KG获得了此外一种有关物件相接的信息来源于的方式。如圖是一个新闻报道引荐的事例,假定某一用户看了一条新闻,这一新闻报道的內容是:BorisJohnsonHasWarnedDonaldTrumpToStickToTheIranNuclearDeal。从这一条新闻报道中提纯了4个实体,在KG中,能够对这种实体保证更进一步的扩展,保证2次,保证3次扩展,又不容易寻找这种实体都偏向此外一条新闻:NorthKoreanEMPAttackWouldCauseMassU.S.Starvation,SaysCongressionalReport。

这2条新闻报道在字面没一切相仿度,新闻报道的英语单词都不一样,但她们是很涉及到的,这一关联性体现在KG上,她们在矮层是涉及到的,但这类关联性不上从字面上实际意义上得到 ,这也是为什么可用KG,KG获得了一种item相仿度的推算出来方法。3、KG能给引荐系统带来哪些第一个提高引荐系统的精密度(Precision),更为精准的寻找item中间的相似度,以下图2部电影,能根据TomHanks保证个相接。

第2个提高引荐系统的多元性(Diversity),能够根据出演扩展,能够根据影片类型扩展,还可以根据导演扩展,总会有一款是用户十分反感的。第三个是可解释性(Explainability),可以用KG的path来表明系统为何不容易引荐这部影片,如下图某一用户反感CastAway这部影片,系统不容易引荐TheTerminal这部影片,由于她们有完全一致的出演。4、科学语义网应急处置方式KG的应急处置方式中有一类方式叫KnowledgeGraphEmbedding,KGE。

KGE主要是对KG的每一个实体(entity)和每一个关联(relation)通过自学一个低维的特点。在KGE中有一个根据译成的间距实体模型,Translationaldistancemodels。如上公式计算为TransE优化算法实体模型,对KG中的每一个tuple(h,r,t),通过自学到的entityembedding,relationembedding,使h+r等同于t,这的r相当于译成具有,把h译成t,f涵数对每一个tuple的实际得分越低越好。

如图所示(a)是TransE实体模型,假定head相匹配的embedding再加relation相匹配的embedding相同tail相匹配的embedding。根据TransE有很多扩展实体模型,例如TransH,TransR。

TransH解决困难的是一对多的难题,某一个head和relation很有可能会相匹配好几个tail,如图所示(b),把head和tail都投射到一个平面图上,随后让他们在较为不可的平面图上保证转换。TransR是把head和tail都投射到此外一个室内空间中,在新的室内空间里让h+r=t。KG-awareRecommenderSystems月方式大概能够分成3类。

第一类是Embedding-basedmethods,根据embedding的方式,embedding是前边解读的KGembedding,有关这类方法,下图列举了5篇毕业论文,今日将不容易解读第二篇和第5篇。第二类是Path-basedmethods,根据KG推算出来途径的引荐方式,今日会涉及这类方法。第三类是Hybridmethods,结合embedding和path的方式,今日将解读一下第一、3、4篇,第三、4是比较统一的方式。

5、科学语义网輔助的引荐系统难题界定不明一个用户的非空子集Users,一个物件的非空子集Items,用户和物件中间的互动(relations,yuv),一个还包含许多 non-item实体的KG。图上yuv答复用户u对物件v的一个隐式对系统,即用户是否网页页面过这一物件,总体目标是等额的一个新的u-v对,预测分析点击量yuv。公式计算界定如圖。

用户非空子集U={u1,u2,...},物件非空子集V={v1,v2,...},互动引流矩阵(隐式对系统)Y引流矩阵Y={yuv?{0,1}|u?U,v?V},KG还包含实体(entity)和关联(relation),由许多 三元组组成。每一个物件v在KG中有可能相匹配一个或好几个实体。物件是实体的一个非空子集。

目地是通过自学一个预测分析涵数F,等额的一对u,v,能够键入一个预测分析得分?uv,θ是现阶段的一个主要参数。根据embedding的科学语义网引荐方式1、DKN方式DKN:Deepknowledge-awarenetworkfornewsrecommendation,属于根据embedding的科学语义网引荐方式,是2018年公布发布的毕业论文,这篇毕业论文是有关新闻报道引荐。如圖,得到一段新闻报道,提纯新闻报道中的实体,依据这种实体,创设一个科学语义网的子图,对科学语义网保证embedding同构,得到 每一个实体的embedding,最终就得到 每一个实体的矩阵的特征值。

如圖,针对某一实体FightClub,仅有其相匹配的embedding还过度,在KG中每一个实体,相接着许多别的的实体,那这种相邻实体便是该实体的前后文,将这种前后文中的每一个实体的embedding乘积均值,就得到 该实体的前后文embedding。如圖公式计算中ē便是实体ei的前后文embedding。在NLP中有一个实体模型叫KimCNN,主要是等额的一个sentence,返回一个矩阵的特征值。

如圖等额的一个n个英语单词的sentence(图上n为7),对每一个英语单词保证embedding同构,embedding的长短为d(图上d为5),得到 一个d*n的wordembedding引流矩阵。用七个卷积核保证卷积和进行featuremaps,得到 七个1维空间向量,对每一个空间向量做池化(Maxpooling),得到 该sentence的wordembedding。前边解读中了解3种矩阵的特征值,分别是实体embeddings,前后文embeddings,wordembedings,大家的方式是把这3种embeddings保证一个求和,卷积和,池化,最终得到 这一sentence的embeddings,这类方式叫KCNN。

接下去解读根据KCNN保证引荐的方式。如圖假定某一用户早就网页页面过去了3条新闻报道,来啦一个备选新闻报道,预测分析该用户对备选新闻报道的点击量。

对这4条新闻报道保证KCNN的embedding同构,得到 4个矩阵的特征值。由于用户看了的新闻报道的必要性对备选新闻报道是不一样的,用AttentionNet计 算出去用户看了的每一条新闻和备选新闻报道的管理决策分值。用得到 的分值权重值欣赏纪录,得到 Userembedding。

将userembedding和candidatenewsembedding拼接,键入一个预测分析的网页页面几率,这一便是保证预测分析的DKN实体模型。2、MKR方式MKR:Multi-TaskFeatureLearningforKnowledgeGraphEnhancedRecommendation,属于根据embedding的科学语义网引荐方式,是今年公布发布在WWW的毕业论文,是一个多个任务的实体模型。

如圖为MKR架构,还包含3个控制模块,一个是引荐控制模块,一个是knowledgegraphembedding,KGE控制模块,还有一个是之上两个控制模块的公路桥梁,cross&compressunits,交叉式传送模块,下边将各自诠释这3个控制模块。引荐系统软件控制模块,輸出是user,item,键入是用户对物件的点击量。

控制模块分2块,一个是low-level的一部分,一个是high-level的一部分。在low-lever一部分,用了一个MLP(multi-layerperceptron)来应急处置用户的特点UL,item是cross&compressunits保证的应急处置,返回一个物件的特点VL,把UL和VL拼接一起,用一个recommendationsystem涵数fRS,键入一个网页页面预测值。

KGE控制模块,也分成low-lever和high-level一部分,輸出head,用cross&compressunites来保证特点应急处置,relation用MLP保证特点应急处置,把这两个事件处理拼接一起,历经一个K层的MLP,得到 一个predictedtail,预测分析的tail和实际的tail用一个涵数fKG算术一个分值,那样就可以提升这一score值。这一多个任务往往能保证一起,主要是引荐系统软件控制模块的物件(item)和KGE控制模块的实体线(entity)是相匹配的,许多 item能够在KGE中找寻相匹配的entity,item和entity是对同一个物件的描述,她们的embedding在某类程度上是相仿的,是能够被相接的。

正中间的cross&compressunits就是这个相接结合,这一控制模块是在每一层都是有,在l层,輸出是item的embeddingvl和entity的embeddingel,键入是下一层的embedding。这一控制模块推算出来分2步,第一步是cross,第二步是compress。cross作业者是将vl,el保证一个cross,vl是一个d*1的空间向量,elT是1*d的空间向量,引流矩阵求和后得到 一个d*d的引流矩阵Cl。

compress是将交叉式后的引流矩阵Cl新的传送返embeddingspace,这方面关键点一部分能够参考毕业论文。根据主要参数wl传送键入vl+1,el+1。

通过自学优化算法中loss的计算方法如圖。LRS是引荐系统软件的loss,预测分析user-item的分值uv和实际分值yuv的差别。

im体育足彩

LKG是KG的loss,针对实际tuple(h,r,t),预测分析分值score越大就越高,而针对任意拆换tuple(h’,r,t’)(胜样版),预测分析的分值越低越好。LREG是正则表达式项。优化算法搭建第一块是引荐系统软件的每日任务,第二块是KGE每日任务,交叠训炼2者。

在每一次循环系统里边,保证t次的RS的每日任务训炼,保证1次的KGE每日任务训炼,保证t次RS训炼是由于更为瞩目RS每日任务,这一t是能够调节的,这就是MKR实体模型。复合型科学语义网引荐方式1、RippleNet方式RippleNet:PropagatingUserPreferencesontheKnowledgeGraphforRecommenderSystems,属于复合型科学语义网引荐方式,是2018公布发布在CIKM的一篇毕业论文。Ripple从姓名上讲解是水波纹的含意,水波纹是一层一层的,那这一优化算法是所说在KG中某一实体线,和该实体线联接的别的实体线也有一弹跳,二弹跳,三弹跳的关联,如圖列出了ForrestGump这部影片相匹配的3弹跳的相邻实体线。

如圖是RippleNet框架,輸出是一对user-item,键入是用户对物件的网页页面预测值。对輸出用户u,出示用户的网页页面纪录Vu,在KG中找寻相匹配的Vu,例如图上有两个相匹配实体线,出示这种实体线相匹配的tuple,把实体线一弹跳的非空子集拿出来。对輸出物件v保证embedding同构。

如上公式计算,将itemembeddingv和这种headhi在R室内空间中保证一个softmax,得到 v相对性于每一个head的分值pi。如圖公式计算,用pi加权平均值相匹配的tailembeddingti,得到 键入ou1,即当今用户u的一弹跳的特点,相匹配图上翠绿色横条,能够当作该用户对当今物件的一阶呼吁(User's1-orderresponse)。

以后拿ou1特点不断以前的作业者,拿ou1和物件二弹跳的tuple算术一个p值,权重值相匹配的tailembedding,得到 ou2。不断保证下来,得到 许多 弹跳的响应值oui,把这种响应值特一起,得到 用户最终的embedding。用这一用户embedding和物件最开始的embedding保证内积,再作用一个sigmoid涵数下结论网页页面预测值。

通过自学优化算法如圖,在不明KG和RippleNet系统软件状况下,通过自学主要参数,利润最大化后验概率。根据贝叶斯定理,能够把该公式计算分离3个值。

第一项是主要参数的先验产自,用上边这一公式计算来描绘这一先验概率产自p(θ),此项相匹配的是正则表达式项loss。第二项等额的主要参数θ,KG的几率,此项相匹配的是KG的embedding一部分。当(h,r,t)是因此以样版,Ih,r,t类似1,相反为0,期待hTRt能类似实际的tuple值。

第三项不明主要参数θ和KG,用户和物件互动的似然函数。这一似然函数是一个伯努利产自,有关用户和物件内积的伯期待产自。

把这3项用负log保证应急处置,得到 loss涵数,提升这一实体模型。2、KGCN和KGCN-LS方式KGCN:KnowledgeGraphConvolutionalNetworksforRecommenderSystems,是公布发布在今年WWW上的一篇毕业论文。KGNN-LS:Knowledge-awareGraphNeuralNetworkswithLabelSmoothnessRegularizationforRecommenderSystems,是公布发布在今年KDD上的一篇毕业论文,这篇是根据第1篇的扩展,这2篇毕业论文一块详细介绍。

核心内容是根据KG輔助的引荐,但引入了一个新的实体模型GCN(图神经网络),方式是根据GCN对KG扩展一个实体模型。在KG中的边没说明权重值,只是一个关联种类。

引入一个relationscoringfunctionsu(r),对每一个relation得分,进而把KG转化成weightedgraph。涵数su(r)的輸出是user和relation,键入一个分值。

核心内容是识别用户瞩目的种类,例如一些用户钟爱同类型的影片,一些用户钟爱某一领衔主演的电影。su(r)用于描绘各有不同用户对各有不同relation的钟爱程度,将userembeding和relationembedding内积,算术出有适度的分值。把对映异构KG转化成weightedgraph,那样一个graph相匹配邻接矩阵Au,标注为u是由于每一个用户相匹配的邻接矩阵是不一样的,su(r)是不尽相同用户。

把KG中实体线信息内容根据GNN保证一个结合,如圖公式计算是一个规范的GNN的公式计算,Au是用户相匹配的邻接矩阵。Du是Au的三角平面图引流矩阵diagonaldegreematrix。Wl便是训炼传送主要参数引流矩阵。

Hl,Hl+1是entity相匹配的embedding引流矩阵。σ是一个非线性函数。这一算式实质是在KG上保证了一个多弹跳的messagepassing,把实体线周边的这些相邻点的特点向正中间摆满,最终一层来教的特点是结合了多弹跳的相邻点的特点。当得到 最终一层embeddingHl后,就可以保证网页页面预测分析。

图中公式计算中u相匹配的是Userembedding。vu是依据前边KGNN推算出来下结论的有关用户的entityembedding。根据f涵数得到 预测值,f涵数能够所取内积,或MLP等。

到它是第1篇毕业论文的KGCN实体模型。如上公式计算,在传统式GNN实体模型中,Au是同样的,只务必训炼Wl。但在大家的实体模型中,Au和Wl都务必训炼,Au是根据relationscoringfunction推算出来,图的构造务必训炼,导致实体模型主要参数许多 ,更非常容易过标值。

为了更好地防止过标值的难题,引入一个正则表达式项,给实体模型一个管束。用label保证管束,userengagementlabels,所说的是用户对物件的打分值,yuv是用户对某一物件的得分,这一得分是一个不明值,因此 能够在KG中对这种点打一个标识。用户看了某旅影片,相匹配的标识是1,沒有看了的影片相匹配的标识是0,对non-item实体线没标识。

下一步是预测分析某一点的label,有一类优化算法叫标识散播优化算法(labelpropagationalgorithm,LPA),这一优化算法是提升下边这一涵数。迭代更新全部的边,Au是边的权重值。假如i,j连接点有边,表述这两个连接点联络比较强悍,那这两个连接点的label不容易比较类似。这两个连接点的边权重值越大,那这两个连接点的label越大完全一致。

它是优化算法LPA的一个假定,标识过多是光洁的。预测分析一个无标识的连接点,将其周边连接点的label加权平均值,不断该作业者直至散发,这就是labelpropagation。

运用labelpropagation保证正则表达式项,针对一个连接点v,其实际lable是yuv(图上为0)。运用LPA优化算法预测分析这一v的label,得到 预测值?uv,算术出有预测值和实际值中间的损害J。

在保证labelpropagation时,标识散播是不尽相同边权重值,因此 最终预测值是有关边权重值的涵数,损害J也是一个有关边权重值的涵数。损失函数R(A)是一个有关A的涵数,因此 能够把梯度方向往这一损失函数中散播,起着一个正则表达式项的具有。

如圖,汇总一下全部实体模型,把详细对映异构KG转化成weightedgraph,通过自学边的权重值,得到 一个邻接矩阵,用GNN得到 entityembedding,用这一entityembedding和userembedding来保证这一预测分析,得到 预测值?uv,用?和实际值y得到 一个loss,偏位散播,将出现偏差的原因梯度方向往前散播,重做Au和主要参数W。下边一部分是正则表达式项,邻接矩阵为主要参数,保证一个labelpropagation,得到 预测值?uv,用?和y得到 一个loss,偏位散播,重做Au。汇总一下,文中关键解读了3个一部分的內容,第一一部分解读了科学语义网是引荐系统软件的一种新的輔助信息内容。此外两个一部分解读了两大类科学语义网引荐方式,一类是根据embedding的科学语义网引荐方式,还包含DKN和MKR,一类是复合型科学语义网引荐方式,还包含RippleNet、KGCN和KGNN-LS。


本文关键词:体育,足彩,斯坦福大学,博士后,王鸿,伟,知识,im体育足彩

本文来源:im体育足彩-www.silverladyshop.com

Copyright © 2005-2021 www.silverladyshop.com. im体育足彩科技 版权所有 备案号:ICP备56640368号-8

在线客服 联系方式 二维码

服务热线

090-15856928

扫一扫,关注我们