您的位置首页  人工智能

人工智能定义论文人工智能的概念界定人工智能益处和弊端

  论文概述:在产业界的实践保举体系场景中,好比音乐保举,反复消耗征象极其遍及,用户常常会重复屡次听统一小批他们偏心的歌曲或艺术家

人工智能定义论文人工智能的概念界定人工智能益处和弊端

  论文概述:在产业界的实践保举体系场景中,好比音乐保举,反复消耗征象极其遍及,用户常常会重复屡次听统一小批他们偏心的歌曲或艺术家。要有用地建模这类反复消耗举动,枢纽在于精准捕获用户对特定物品反复消耗间的工夫纪律。现有研讨经常依靠于启示式假定野生智能的观点界定,比方,假定消耗距离遵照指数散布。但鉴于理想天下中保举场景的庞大性,这类预设的散布常常难以精确描画出用户反复消耗举动的庞大静态变革,从而招致保举结果不幻想。遭到神常常微分方程(Neural ODE)在捕获庞大体系静态特性方面的启示,我们设想了ReCODE——一种新的模子无关框架,它经由过程Neural ODE来建模反复消耗举动。ReCODE次要由两部门组成:一是用户静态偏好的猜测模块,二是用户静态反复企图的建模模块。经由过程同时思索用户的立即挑选和反复消耗形式,ReCODE为目的高低文中的用户偏好供给了片面的建模。别的,ReCODE能够作为插件适配到多种现有的保举模子中,包罗基于协同过滤的和基于序列的保举模子,使其易于在差别场景下使用。在两个实在天下数据集上的尝试考证了ReCODE可以明显提拔原始模子的保举结果。

  论文概述:公允重排序成绩旨在更公高山在物品之间从头分派排名槽位,以告竣一个有义务和品德的排序体系。在经济学范畴,对从头分派成绩的探究有着长久的汗青,为将公允从头排名观点化为一种税收历程供给了贵重的看法。直观地说,公允重排序能够被观点化为对高暴光的物品纳税,并将其从头分派给较少暴光较少的物品。如许的表述为我们从头审阅公允重排序供给了新的视角,并激起了新办法的开展。从税收的角度来看,我们在实际上证实了大大都先前的公允重排序办法能够从头表述为单个物等级税收政策。幻想状况下,优良的税收政策该当是有用的,而且便利掌握以调解排名资本。但是,不管是实证阐发仍是实际阐发都表白,先前的单个物等级税收政策都没法满意两个幻想的可控请求:(1)持续性,确保税率的细小变革招致精确性和公允性的小幅变革;(2)对精确性丧失的可控性,确保在特定税率下对精确性丧失的准确估量。为了克制这些应战,我们引入了一种名为“Tax-rank”的新的公允从头排名办法。Tax-rank引入了一个共同的优化目的,按照两个物品之间功效差别来纳税。然后,我们经由过程在最优传输中操纵Sinkhorn算法来高效地优化如许的目的。在片面阐发以后,Tax-rank为公允从头排名供给了一个改良的税收政策,从实际上证实了在精确性丧失方面的持续性和可控性。在尝试中,我们将Tax-rank使用于两个公然可用的数据集,别离针对保举和告白使命。尝试成果显现,Tax-rank在结果和服从方面均优于一切基线办法。

  论文概述:产物搜刮多样化经由过程供给多样的产物以满意差别的用户企图。现有的产物搜刮多样化办法次要依靠来自由线平台的数据集。但是,因为这些数据集凡是不公然,而且缺少野生标识表记标帜的用户企图,这些范围性能够招致尝试成果不成复现,限定了该范畴的开展。为理解决这些成绩,本文机关了一个用于产物搜刮多样化的新数据集JDivPS野生智能好处和短处。这是第一个具有野生标注用户企图的可公然会见的数据集。数据滥觞于中国最主要的电子商务平台之一--京东。它包罗10000个查询,约莫1680000个差别的产物,每一个查询均匀有10个野生标识表记标帜的用户企图。我们在此数据集上评价了多种模子,并在论文中展现了这些模子在此数据集上的尝试成果,作为将来产物搜刮多样化事情的参考。

  论文概述:狂言语模子(LLMs)在各个范畴中得到了明显的存眷,在需求会见内部信息的常识麋集型使命上,简单呈现“幻觉”。为了克制这一应战,检索加强天生(RAG)能够经由过程分离检索机制,来进步天生内容的究竟性。但是,传统的检索办法依靠于宏大的文档索引,这与天生模子的构造存在摆脱。近来,天生式检索(GR)手艺的开展,使得言语模子可以经由过程间接天生文档标识符(DocIDs)来停止检索,展示出了更好的检索机能。但是,GR与下流使命之间的干系,和在GR中操纵LLMs的潜力,另有待进一步探究。本文提出CorpusLM,一个同一的言语模子,旨在经由过程操纵内部语料库,集整天生式检索、闭卷天生和RAG,来有用地处置各类常识麋集型使命。我们经由过程同一的贪婪解码历程,和设想了一系列机制,来进一步加强常识麋集型使命中检索和天生的机能:(1)我们提出了一个面向排序的DocID列表天生战略,经由过程从DocID排名列表中进修,以提拔天生式检索机能;(2)我们设想了一个持续的DocIDs-References-Answer解码战略野生智能好处和短处,以完成更有用、更高效的检索加强天生;(3)我们引入了无监视DocID了解使命,旨在深化了解DocID的语义及其与下流使命的联系关系性。我们在KILT基准上对我们的办法停止了评价,利用了包罗T5和Llama2在内的两种主干模子。尝试成果证实,我们的模子在检索和下流使命上都展示了良好的机能。

  论文概述:现在,很多平台为用户供给了搜刮和保举效劳,作为用户获失信息的主要东西。这类征象招致用户搜刮和保举举动之间存在相干性,为细粒度地建模用户爱好供给了时机。现有办法大概别离对用户搜刮和保举举动停止建模,大概无视了用户搜刮和保举举动之间的差别转换。本文提出了一个名为UniSAR的框架,有用地建模了差别范例的细粒度的举动转换,觉得用户供给同一的搜刮和保举效劳。详细而言,UniSAR经由过程三个步调对用户在搜刮和保举之间的转换举动停止建模:提取、对齐和交融,别离由带有预界说掩码机制的Transformer、将提取的细粒度用户转换停止对齐的比照进修模块,和交融差别转换的穿插留意力机制来完成。为了给用户供给同一的效劳,进修到的暗示被输入到下流搜刮和保举模子中。在搜刮和保举数据长进行结合进修,以操纵两个使命上的常识来互相加强。在两个大众数据集上的尝试成果证实了UniSAR关于同时加强搜刮和保举成果的有用性。尝试阐发进一步考证了UniSAR经由过程胜利建模搜刮和保举之间的用户转换举动来提拔结果。

  论文概述:在线效劳平台如快手,抖音,淘宝等,遍及将搜刮与保举效劳整合至单一使用中,这也就催生了一个新的使命——猜测用户翻开使用的念头。该使命旨在猜测用户启动使用的企图是为了搜刮特定信息仍是探究保举内容以获得文娱。在快手平台内部的阐发中,猜测用户翻开使用的念头可以协助提拔用户利用体验并在各类下流场景中获得用户时长的提拔。但是,精确猜测用户翻开使用念头并不是易事,它遭到用户小我私家的偏好,汗青搜刮保举举动和工夫等身分的影响。遭到神经霍克斯历程(NHP)能够有用建模变乱序列使命的启示,本文提出了一种新奇的神经霍克斯历程模子,以捕获汗青用户阅读和搜刮举动之间的工夫依靠性。该模子被称为NHP-OAM,我们接纳了条理化 transformer和一个新奇的强度函数来编码多身分影响,并经由过程翻开使用念头猜测层来整合工夫和用户偏好信息,以猜测用户的翻开使用的念头。为了展现我们的NHP-OAM模子的良好性并为翻开使用念头猜测使命构建基准,我们不只扩大了公然的S&R数据集ZhihuRec,还构建了一个新的实在天下开放使用念头数据集(OAMD)。在这两个数据集上的尝试考证了NHP-OAM模子相较于基准模子的良好性。进一步的下流使用尝试展现了NHP-OAM在猜测用户翻开使用念头方面的有用性,凸显了NHP-OAM的宏大使用代价。

  论文概述:强化进修旨在以探究—操纵折中的方法到达序列决议计划的收益最大化,其布置到保举体系中可有用探究用户的潜伏爱好。但是,当前保举体系常面对着用户举动形式差别大的应战,使得强化进修战略的探究变得艰难。比方,差别活泼度的用户素质上需求差别强度的本性化探究方法。已有基于强化进修的序列决议计划保举模子常利用数据自力的探究办法,并将其使用于局部用户,激发的低探究服从成绩影响了持久的用户体验,障碍了保举体系的可连续开展。为处理这些应战,本文提出了面向用户的本性化探究战略(UOEP),其可以在用户群体中完成精密化探究的新办法。起首,UOEP构建了一个基于散布的代价估量器,其可基于用户积累嘉奖的差别分位数程度停止战略优化,效劳于具有差别活泼度程度的用户群体。操纵该代价估量器,进而设想了一组专注于在差别用户群体内停止有用探究的决议计划器,其可在强化进修探究过程当中同时加强多样性和不变性,更有用的得到用户级此外探究—操纵折中。公然数据集上的尝试成果表白UOEP在保举体系持久收益方面的有用性,也考证了UOEP可改进低活用户的体验并增长用户间的个别公允性。

  论文概述:天生式检索请求模子按照查询精准天生相干文档的标识符,一旦天生历程某一步堕落,则相干文档没法被召回野生智能的观点界定,极大限定了检索的精度。为理解决这一成绩,本领情提出TSGen,其利用一个枢纽辞汇合作为文档标识符 (Term-Set DocID),这些词由选词模块颠末端到端进修获得,可以片面且精简地归纳综合文档内容;基于如许的文档标识符,我们设想了序等变解码 (Permutation-Invariant Decoding),使得文档的辞汇合标识符中的枢纽词能以任何次第天生,即一切能够的词序均会指向对应的文档。比拟于传统文档标识符(一个天然言语序列),模子在解码时具有更普遍的视野:其不会遭到前缀树的限定,而是可以从候选文档的一切词当选择下一个要天生的词,从而在看到更多信息的状况下做出准确决议;同时模子在解码时具有更大的容错空间:即便模子在某一步解码中出错,只需天生的词属于相干文档的辞汇合标识符,则相干文档仍旧可以被召回。在天生式检索的经常使用测评基准上,TSGen得到了明显优于现有baseline的检索精度。

  论文概述:扩展神经收集模子的范围可以在多种使命上明显提拔模子机能。已有事情进一步表白,神经收集模子的机能会遵照必然的扩大定律(Scaling law)。基于扩大定律,我们能够猜测锻炼集巨细和模子巨细等身分对模子机能的影响。本研讨尝探索求在检索使命中,基于神经收集构建的浓密向量检索模子的机能能否也满意必然的扩大定律。我们提出利用与锻炼丧失函数相似的比照猜疑度(Contrastive Perplexity)替代现有的检索目标,作为次要的评价目标。关于具有差别参数范围的检索模子,测试其在利用差别数据范围的标注数据停止锻炼的状况的检索机能。大批尝试成果表白,在该设置下,浓密向量检索模子的机能遵照与模子参数范围和标注数据范围相干的幂律函数干系。我们进一步探究了利用数据加强方法天生锻炼数据对扩大定律参数的影响。终极,我们讲获得扩大定律使用于锻炼资本分派使命,阐发了在预算有限的状况下,应怎样挑选模子参数范围和锻炼数据范围。本研讨将有助于了解基于神经收集的浓密向量检索模子的扩大结果,并为了将来的研讨事情供给无益的指点。

  论文概述:跟着天生模子的使用,互联网日趋充溢着由AI天生的内容(AIGC),招致实在内容和AI天生的内容都被索引到搜刮的语料库中。本文讨论了在这类状况下,AI天生的图象对文本-图象搜刮的影响。起首,我们构建了一个包罗实在图象和AI天生图象的基准测试,用于这项研讨。在这个基准测试中,AI天生的图象具有与实在图象充足类似的视觉语义。对这个基准测试的尝试提醒,文本-图象检索模子偏向于将AI天生的图象排在实在图象之前,即便AI天生的图象并没有比实在图象更多地展现与查询相干的视觉语义。我们将这类成见称为无形的相干性成见。这类成见在差别锻炼数据和架构的检索模子中都被检测到,包罗重新开端锻炼的模子和那些在大批图象-文本对上预锻炼的模子,包罗双编码器和交融编码器模子。进一步的探究提醒,将AI天生的图象混入检索模子的锻炼数据会加重无形的相干性成见。这些成绩招致了一个恶性轮回,即AI天生的图象有更高的时机从大批数据中被暴暴露来,这使得它们更有能够被混入检索模子的锻炼中,而如许的锻炼使得无形的相干性成见愈来愈严峻野生智能好处和短处。为理解决上述成绩并分析无形相干性成见的潜伏缘故原由,起首,我们引入了一种有用的锻炼办法来减轻这类成见。随后,我们使用我们提出的去偏办法来追溯辨认无形相干性成见的缘故原由,提醒出AI天生的图象引诱图象编码器将分外的信息嵌入到它们的暗示中,这些信息使得检索器估量出更高的相干性分数。本文的发明提醒了AI天生的图象对文本-图象检索的潜伏影响,并对进一步的研讨有所启迪。

  论文概述:基石模子的才能激烈依靠于大范围、多样化、高质量的预锻炼数据。为了进步数据质量,研讨者和从业者凡是需求手动保护差别滥觞的数据集,并为每一个数据堆栈开辟公用的数据清算流水线。因为缺少同一的数据处置框架,这个历程反复且烦琐。为了减缓这个成绩,我们提出了一个数据处置框架 Yulan-GARDEN,该框架集成了由一系列差别粒度级此外运算符构成的处置模块和撑持对数据停止探测和评价的阐发模块。所提出的框架易于利用且高度灵敏。在这篇论文中,我们起首经由过程一些利用处景来引见怎样利用该框架,接下来经由过程 ChatGPT 的主动评价和预锻炼 GPT-2 模子的端到端评价方法来证实其在数据质量提拔方面的有用性。

  论文概述:法令文档检索和讯断猜测是智能法令体系中相当主要的使命。在理论中,肯定两个文档能否同享不异的讯断关于肯定它们在法令检索中的相干性相当主要。但是,现有的法令检索研讨要末无视了讯断猜测的主要感化,要末依靠于隐式的锻炼目的,希冀按照其讯断在向量空间中对法令文档停止恰当的对齐。这两种办法都没无为相干性建模供给讯断分歧性的明白证据,招致检索的潜伏不精确性和欠亨明性。为处理此成绩,我们提出了一种法令指导的检索办法,称为GEAR,以序列到序列的方法显式地将讯断猜测与法令文件检索明白地分离起来。详细来讲,GEAR基于法令罪名界说从法令文档中提取来由,并构建法令构造束缚树为法令文档分派语义ID,在单次揣度中完成了对两个法令使命的两重猜测。尝试表白,GEAR在两其中文法令案例检索数据集上优于开始进办法,且具有跨言语和范畴的鲁棒性。

  论文概述:Transformer模子已被普遍使用于序列数据建模。它的中心在于自留意机制。此中Query-Key的留意力分数凡是由语义差别和地位差别组成。但是,先前的研讨凡是以差别的方法对这两种差别停止建模,这能够限定了序列建模的表达才能。为理解决这个成绩,本文提出了一种新型的Transformer架构-EulerFormer,它供给了一个同一的实际框架来表达语义差别和地位差别。详细来说,EulerFormer接纳了一种新的变更函数野生智能的观点界定,经由过程欧拉公式将序列词元高效地转换成极坐标情势的复向量,从而完成了语义和地位信息的同一建模。其次,我们提出了一种差分旋起色制,此中语义扭转角度能够由自顺应函数掌握,按照语义高低文完成语义和地位信息的自顺应交融。别的,我们还提出了一种相位比照进修使命,以改进 EulerFormer 中高低文暗示的各向同性。我们的实际框架具有高度完整性和泛化性(比方,RoPE 能够作为一种EulerFormer的一种惯例)。EulerFormer对语义变革更加鲁棒,而且具有更良好的实际性子(比方,可控长途间隔衰减)。在四个公然数据集长进行的大批实考证实了我们办法的有用性和服从。

  论文概述:合作搜刮撑持多个用户配合完成特定的搜刮使命。研讨发明,期近时通信平台中设想轻量级合作搜刮插件更符适用户的合作风俗。但是,因为多用户交互场景的庞大性,完成功用齐备的轻量级合作搜刮体系具有应战性。因而,以往的轻量级协同搜刮研讨不能不依靠于Wizard of Oz范式。比年来,狂言语模子已被证实能够与用户天然交互,并经由过程基于狂言语模子的代办署理助手完成庞大的信息查找使命野生智能好处和短处。因而,为了更好地撑持合作搜刮的研讨,在这个演示中,我们提出了CoSearchAgent,一个由狂言语模子撑持的轻量级合作搜刮代办署理。CoSearchAgent被设想为一个Slack插件,能够撑持该平台上多方对话时期的合作搜刮。CoSearchAgent 可以了解多用户对话中的查询和高低文,并可以经由过程 API 在互联网上搜刮相干信息,能够按照相干搜刮成果供给谜底来响使用户查询。当信息需求不分明时,它还能够提出廓清成绩。本文所提出的 CoSearchAgent能够不变布置且易于修正,将有助于撑持合作搜刮的进一步研讨。

  论文概述:因为本钱效益和可再现性方面的劣势,用户模仿已成为信息检索体系面向用户评价的一种有远景的处理计划。但是,精确模仿用户的搜刮举动持久以来不断是一个应战,由于用户在搜刮中的举动十分庞大,并遭到进修、推理和计划等庞大的认知历程驱动。近来,大型言语模子(LLM)在模仿人类智能方面展现出了明显的潜力,并被用于构建各类使命的自立代办署理。但是,操纵LLM模仿搜刮举动的潜力还没有完整探究。在本文中,我们引见了一种基于LLM的用户搜刮举动模仿器,称为USimAgent。所提出的模仿器能够模仿用户在搜刮过程当中的查询、点击和截至举动,因而可以为特定的搜刮使命天生完好的搜刮会话。对实在用户举动数据集的实证研讨表白,所提出的模仿器在查询天生方面优于现有办法,在猜测用户点击和截至举动方面与传统办法相称。这些成果不只考证了操纵LLM停止用户模仿的有用性,也为开辟更壮大和通用的用户模仿器供给了启迪。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
  • 标签:人工智能定义论文
  • 编辑:田佳
  • 相关文章