首页 网站首页 商业资讯 内容 查看内容

内容标签系统系列——图文标签系统

社群营销 内容 2023-2-10 14:58 10099人围观

摘要

自然说话处置(Natural Language Processing,NLP)是野生智能的一个重要分支,其触及的面很是广,包括语音识别 、内容了解、信息检索、信息抽取、问答系统、机械翻译、对话系统等,图文标签大概叫图文内容了解是其中一个根本的使命和才能。现实信息流等保举营业中,需要用到文本的一级/二级,三级多tag(关键词,现实可所以实体词或笼统词)作为文本内容了解的关键输出和保举营业文本特征的关键输入。本文先容基于NLP范畴多方式融合方式停止关于图文方面的内容了解和利用。

一、简介

图文内容标签有三个典型的利用处景[1]

第一,本性化保举,经过对内容停止标签提取,结适用户的爱好TAG,对用户停止精准的本性化保举,是内容标签在本性化保举上面的一个典型的利用。

第二,搜索,经过内容的关键词大概内容标签,跟用户输入的关键词做精准婚配,返回更切确的搜索成果。

第三,标签提取,利用内容标签作为文本特征,来提升聚类或分类的结果。当前首要内容保举范畴图文标签利用形式通常为 一级、二级标签+三级多tag形式。

提取内容标签的方式在这里总结为3大类方式:第一类是抽取式,本质是从文本中抽取关键词大概短语;第二类是天生式,经过天生的方式,来天生关键词和短语;第三类是辨别式,即设定标签调集利用多分类方式停止打标操纵



二、一/二级标签

一/二级标签包括单标签和多标签形状根基上来说还是简单的,出格是bert模子这类大范围预练习模子出来今后大大下降了NLP范畴中这类小范围牢固标签调集的分类题目标难度。

但照旧有几点值得一提:

  • 数据处置:这一点很重要很有用;这里关于非平衡样本的处置方式,就利用一般的样本增强手段处置即可;
  • 模子设想及挑选:数据很重要但并非像部分人说的算法工程师就是在处置数据。私以为数据处置虽然有用可是简单并不是算法工程师独占的特征(最少数据分析师是可以做到的),可是按照现实题目来挑选模子甚至设想特定收集,这是算法工程师的特征才能。

值得一提的是,bert-base 模子大概Albert模子为大部分人的几近无脑的首选,固然这是可以的,同时在此提出一个思绪:能否可以连系一级/二级标签的联系,非论是类似性大概高低层级关系来设想收集,练习模子以提升模子结果?【后续偶然候再补充计划】

三、三级多tag

关于三级标签,这样的标签调集常常很是的大,我们很轻易发生一个朴实的思惟:能否依照某种方式分拆分,挑选,圈定

首先,文本分歧于视频图像,NLP范畴处置的大大都题目是特征空间和标注空间是同一个空间的题目,这样就会大大简化题目同时也供给了一些纷歧样的处置思绪:我们可以将万级的标签分为 实体标签和笼统标签

  • 实体标签

关于实体标签,间接利用bert-bilstm-crf模子就能到达较好的结果,模子办事的输出成果接入pipline 与笼统标签成果停止拼接。

  • 笼统标签

笼统标签的处置也存在一个根本标签调集圈定的步调,除了样本处置,还是应当首要斟酌模子设想的题目:

固然可以间接利用albert模子停止多标签分类操纵,但由于特征空间都一样不像视频那样可以有分歧数据源停止相互补充,结果上限可见;

这里保举一个多标签召回+文底细似度婚配的融合计划,可以到达较好的结果【计划图后续偶然候补充】

四、图文内容标签利用

最初给大师先容一下图文内容标签的一些利用:

1)本性化保举包括信息流保举、广告保举等,了解用户也就是用户打一些爱好标签,爱好标签是多个维度,其中内容标签是细粒度爱好标签中最重要的一种标签;然后是了解内容天生内容标签,按照内容标签做召回和排序。[1]

2)智能搜索,内容标签在搜索方面也是有较多的利用。比如Query扩大:经过Query和点击过的短视频的内容标签做一个影射,然后练习一个端到真个天生模子,来天生输入Query的扩大Query。Query保举:经过天生Query的内容标签,和用户的爱好标签做婚配,用来做Query保举中的召回和排序。

3)query标签等,零丁拆出来这个,主如果query是用户自动的行为成果,可以加倍自动地反应用户意图和爱好,同时这类数据又会比文章数据来的短小且含噪声,需要分歧的处置。固然终极的方针是为了打标支持用户爱好标签大概圈定方针用户,跟搜索还是有很大区此外。

参考文献

[1] 公然课笔记 | 多模态短视频内容标签技术及利用: https://mp.weixin.qq.com/s/CEPBXaJfrIO1w0yX7YdZZA

[2] BERT:Bidirectional Encoder Representation from Transformers;

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

我有话说......

相关推荐

到底什么是一个游戏的机制、玩法、内容?

到底什么是一个游戏的机制、玩法、内容?

预警:这篇文章非常长、术语多、没有配图、段子藏得深,不是我平常推荐游戏的通俗安利

简书:一个优质内容平台的没落

简书:一个优质内容平台的没落

简书这几年的发展,可以说是核心用户接连逃离的纪录片。但直到今天,我也没有找到能完

一名过来人谈军队文职!

一名过来人谈军队文职!

最近也是收到了很多小伙伴的咨询,很多人对于军队文职不了解,甚至不知道是干嘛的,其

死神(BLEACH):《千年血战篇》内容解析

死神(BLEACH):《千年血战篇》内容解析

《净化—BLEACH》 | 诗体漫画最巅峰**前言**早期翻译为死神是没有任何问题的。在整个

一篇标准的论文范文格式

一篇标准的论文范文格式

大多数作者在写论文的时候对于论文的格式搞不明白。一般情况下根据所投稿刊物的格式要

【干货】关于UGC、PGC、OGC三者详细区别!

【干货】关于UGC、PGC、OGC三者详细区别!

1概念层面UGC:User-generated Content的缩写,用户生产内容。又作UCC。PGC:Professi

一针见血告诉你论文摘要怎么写

一针见血告诉你论文摘要怎么写

【题记】简单的来讲,论文摘要就是整篇文章和浓缩预览,它被排放在论文的首要位置。论

我整理了三百多篇论文,得出了写文献综述的这些经验

我整理了三百多篇论文,得出了写文献综述的这些经验

来源 | 募格课堂(ID:mugeketang)作者 | 晚木众所周知,论文是读研的一大难关,在论文

「文献笔记」到底该怎么记?

「文献笔记」到底该怎么记?

今天专门写一篇关于「文献笔记」的文章,因为我发现有90%以上的童鞋低估了做文献笔记

胡鑫宇录音笔内容曝光,原来这才是死亡真相

胡鑫宇录音笔内容曝光,原来这才是死亡真相

胡鑫宇事情官方发布会引发媒体与网友广泛关注,最新情况官方已经说明:胡鑫宇缢吊高度

如何在知乎创作出成功的图文内容?

如何在知乎创作出成功的图文内容?

一. 选题:什么样的图文内容更容易在知乎获得用户喜爱?在知乎更容易获得用户喜爱的内

教你4步清理C盘,让电脑释放30G空间,瞬间提速十倍

教你4步清理C盘,让电脑释放30G空间,瞬间提速十倍

闲来无事,韩博士煮一壶清茶,想着下载爱豆的最新视频日常拯救自己。结果电脑偏偏来搞

Win10桌面最全美化指南!(任务栏透明+dock栏+磁贴美化+壁纸)

Win10桌面最全美化指南!(任务栏透明+dock栏+磁贴美化+壁纸)

点点关注不迷路!先看成品:其他历史桌面:这两个桌面都是动态桌面—————————

(纯干货)中国特色公文用词汇编,笔杆子请惠存!

(纯干货)中国特色公文用词汇编,笔杆子请惠存!

一、行政材料用词积累1、“以...为XX”:为基础(基点)、为核心(中心)、为根本、为

”毒教材”卷土重来,细品下内容触目惊心,文化入侵的情况不 ... ...

”毒教材”卷土重来,细品下内容触目惊心,文化入侵的情况不 ...

去年的”毒教材”内容相信大家都还印象深刻,与之相关的人都受到了处罚,可以说是大快

一文说透:中国的宏观税负率到底是多少?比美国高还是低 ... ...

一文说透:中国的宏观税负率到底是多少?比美国高还是低 ... ...

内容提要:1、财经女侠说中国的税率只有19.4%,远低于美国纽约的31.7%2、什么是税?税

收藏!学术写作中常用的50个连接词和短语

收藏!学术写作中常用的50个连接词和短语

上次我们丸子学长推出的“收藏!100+同义词(动词)使你的SCI论文“高大上”这篇文章

【毕业论文】开题报告怎么写,知道这些就够了

【毕业论文】开题报告怎么写,知道这些就够了

马上进入十月份,准毕业生们陆陆续续就要开始撰写开题报告了。那么,如何选题并撰写报

推特敏感设置取消(中文版)

推特敏感设置取消(中文版)

第一步:从Twitter看别人作品敏感设置点去网页版 登录Twitter账号然后点右上角(看图

Stable Diffusion 完美复制Korean doll likeness!(详细版 ...

Stable Diffusion 完美复制Korean doll likeness!(详细版 ...

2023/02/21 -- 更新了资料的网盘下载Stable Diffusion是2022年发布的深度学习文生图模

电话咨询: 15924191378
添加微信