新样式助力东谈主工智能更方便获得维基百科数据
10 月 1 日(周三),德国维基媒体协会(Wikimedia Deutschland)晓喻推出一个新数据库,该数据库将让东谈主工智能模子能更方便地获得维基百科的海量常识资源。
这个样式名为 “维基数据镶嵌样式”(Wikidata Embedding Project),其中枢是对维基百科过火姊妹平台上的现存数据(包含近 1.2 亿条要求)讹诈基于向量的语义搜索本领 —— 这种本领可匡助研究机鸠集词汇的含义及词汇间的关系。
该样式还新增了对 “模子高下文公约”(Model Context Protocol,简称 MCP)的相沿。MCP 是一套匡助东谈主工智能系统与数据源进行交互的圭臬,合并这一圭臬后,大型说话模子(LLMs)可通过当然说话查询更迫害地获得有关数据。
这次样式由维基媒体德国分部牵头,妥协神经搜索公司 Jina.AI 与 IBM 旗下及时考验数据公司 DataStax 共同开展。
多年来,维基数据(Wikidata)一直为维基媒体旗下平台提供机器可读数据,但此前的器具仅相沿要津词搜索和 SPARQL 查询(一种专科查询说话)。而新系统将与 “检索增强生成”(Retrieval-Augmented Generation,简称 RAG)系统更好地兼容 ——RAG 系统能让东谈主工智能模子调取外部信息,这为缔造者提供了契机,使其模子可基于经维基百科剪辑审核考证的常识构建。
此外,新数据库对数据的结构化处置还能提供要津的语义高下文。举例,在数据库中查询 “科学家”(scientist)一词,不仅会生成有名核科学家名单及曾任职于贝尔实际室(Bell Labs)的科学家名单,还会包含 “科学家” 一词的多说话翻译、经维基媒体审核通过的科学家职责场景图片,以及对 “究诘者”(researcher)、“学者”(scholar)等有关见识的延长关系。
当今,该数据库可在 Toolforge 平台上公开探员。维基数据还规划于 10 月 9 日为感兴味的缔造者举办一场线上推敲会。
当下,东谈主工智能缔造者正紧迫寻找可用于模子微调的高质地数据源,这次新样式标推出恰逢当时。尽管考验系统自身已变得愈加复杂(常常是复杂的考验环境,而非陋劣数据集),但它们仍需经由严格筛选的优质数据技艺高效运转。关于要求高准确性的讹诈场景,对可靠数据的需求尤为紧迫:尽管有些东谈主可能对维基百科持轻慢气魄,但相较于 “通用会聚爬虫”(Common Crawl,一种从互联网上大规模合手取网页的数据集)这类包罗万象的数据集,维基百科的数据具有更强的事实导向性。
在某些情况下,对高质地数据的追求可能会给东谈主工智能实际室带来不菲资本。本年 8 月,东谈主工智能公司 Anthropic 就建议与一群作家已毕诉讼息争 —— 这些作家的作品被 Anthropic 用作考验材料,Anthropic 答应支付 15 亿好意思元以了结整个侵权索赔。
维基数据东谈主工智能样式司理菲利普・萨德(Philippe Saadé)在接管媒体采访时强调,该样式寂然于主流东谈主工智能实际室及大型科技公司。萨德对记者暗意:“这次‘镶嵌样式’的推出标明,巨大的东谈主工智能本领恐怕只可由少数几家公司掌控。它不错是怒放的、合作式的,其构建标的应是管事于整个东谈主。”

包袱剪辑:郭明煜
下一篇:没有了