Swash中文网
领取MOLI红包
DOUG中文网

热门赛道 | 向量数据库:数据存储的智能革命|索引|sql

发布日期:2025-01-04 11:18    点击次数:128

   以下内容摘自睿兽分析,更多详细内容及数据分析,请登录睿兽分析获取完整版报告行业定义向量数据库(Vector Database)可高效存储和处理非结构化的数据,如文档、图片、视频、音频和纯文本等。在信息完整的情况下,通过向量的嵌入函数来精准描写这些非结构化的数据的特征,从而实现向量搜索、查询、删除、修改、元数据过滤等功能。向量数据库的核心是将文本、图片、音频等非结构化的信息转换成向量的形式存储在数据库中,当用户输入问题时,将问题转换成向量,最后在数据库中搜索最相似的向量和上下文,最后将结果返回给用户。向量数据库和传统数据具有相似性,通过提供标准的sql访问接口,降低用户的使用门槛,同时提供高效的数据组织,检索和分析的能力。满足用户在存储和检索向量需求的同时,提供管理结构化数据的能力。这两者最大的区别在于传统数据库是一个精准的索引,查找到的内容存在正确答案,在数据库中的数据只有两类,一类是符合查询要求,可返回给用户;另一类则是不符合查询要求;而向量搜索则是一种模糊匹配,找到的是相对最符合需求的数据,而非一个精确的标准答案。向量数据库依据保存和检索的不同可分为以下5类:1)纯向量数据库:如Pinecone、Weaviate、Qdrant、Chroma、Zilliz、Vespa等专用于存储和检索向量,具有利用索引技术进行高效的相似性搜索,大数据集和查询工作负载的可扩展性,支持高维数据、基于HTTP和JSON的API,以及对向量运算(加法、减法、点积、余弦相似度)的原生支持等优点。2)向量库:如Faiss、Annoy等,支持面相ANN的索引结构,包括倒排文件、乘积量化和随即投影,支持推荐系统、图片搜索和自然语言处理(NLP)。3)全文搜索数据库:如Elastic、OpenSearch等,对于非结构化文本具有高扩展性和性能以及丰富的文本检索功能。4)支持向量的非关系型(NoSQL)数据库:如DataStax、Cassandra、Rockset、MongoDB等,NoSQL数据库性能高、规模大。Neo4j(图形数据库)可与社交媒体或知识图谱的大语言模型融合。5)支持向量的关系型(SQL)数据库:如ClickHouse、Singlestore、PostgreSQL等,多模型SQL数据库提供混合搜索,可将向量与其他数据结合,并且大多数SQL数据库可在云上部署服务。非结构化的信息以向量的形式存储在向量数据库中,以猫为例,不同种类的猫可通过体型大小、毛发长度、腿长短等特征来区分。下图中X-Y轴分别对应毛长和体型的数值,每只猫即可对应一个二维坐标点,由此可轻易将波斯猫、缅因猫和无毛猫区分开来,但仍然无法很好的区分波斯猫和西伯利亚猫。通过继续添加腿的长短这一特征,得到一个三维的坐标系以及每只猫在三维坐标系中的位置,只要特征足够多就可以得到高维的坐标系。向量是具有大小和方向的数学结构,将这些特征转化为向量表示,通过计算各向量之间的距离来判断它们的相似度,从而实现相似性搜索。随着ChatGPT的发布,人工智能的发展迎来了新的时代,知识的存储与表达也有了新的标准,但其输入端上下文(tokens)大小的限制困扰着很多的开发者和消费者。文本本身直接作为数据具有维度高、学习低效的缺点,因而大模型接触和学习的数据并非文本本身,而是向量化的文本,即大模型对自然语言的压缩和总结。向量数据库是高维度的,可弥补生成式人工智能模型的这一缺陷。向量数据库通常用于支持复杂的查询操作,如相似性搜索,这种高效的索引和检索机制使向量数据库特别适用于机器学习和人工智能应用,提供强大的“记忆”能力。向量数据库公司融资事件整体体量较小。自2020年起,融资事件和金额均有所增加,2014-2019年企业融资均值为3.87亿人民币,2020-2023年企业融资均值上升至12.44亿人民币,增长221.54%。相关企业全球向量数据库仍处于0-1的阶段,有着巨大的市场空间,随着GPT-4的火热和AIGC的发展,向量数据库由于其可扩展大语言模型(LLM)的能力变得火热。2023年4月,海外4家向量数据库创业公司相继获得融资,Pinecone完成1亿美元B轮融资,Weaviate获得5000万美元B轮融资,Qdrant获750万美元种子轮融资,Chroma获得1800万美元种子轮融资。国内向量数据库主要厂商主要为云厂商,如腾讯云、阿里云、华为云等,涉及向量数据库的上市公司有大华股份、云创数据、中国软件、东软集团、每日互动、星环科技和美亚柏科等。热点讯息2023年11月,国内首个向量数据库标准发布中国信通院联合腾讯云计算(北京)有限责任公司、中移(苏州)软件技术有限公司等多家企业共同编制的、国内首个向量数据库标准正式发布,将为我国向量数据库研发、测试及选型提供重要参考,推动我国人工智能产业高质量发展。此次发布的向量数据库标准聚焦七大能力域,包含47个能力测试项,其中有27个必选项和20个可选项。目前,腾讯云向量数据库是首个完成标准评价的向量数据库,通过全部必选测试项。2023年7月,阿里云升级AnalyticDB向量数据库引擎阿里巴巴集团的数字技术和智能支柱阿里云增强了其AnalyticDB矢量引擎,使企业更容易访问各种大型语言模型(LLM)来构建定制的生成式AI能力。AnalyticDB矢量引擎可为客户提供全面的数据处理和分析能力,以及通过与LLM连接,提供问答功能,企业可以将特定部门的知识输入向量数据库,在30分钟内构建和启动生成式AI应用程序。2023年7月,优刻得镜像市场上线Milvus向量数据库镜像Milvus是一款在GitHub上拥有两万多星的开源向量数据库,专为向量的快速查询检索而设计,能够对万亿规模的向量数据创建索引,具备高性能、高可扩展性等特点,数据可持久化存储在本地或者支持s3协议的对象存储,且支持数据分区;除了向量,Milvus还支持布尔值、整数、浮点数等数据类型,可更好地存储表达业务数据的特性。在Ucloud云主机镜像市场中发布的向量数据库镜像,旨在为AI业务场景的客户提供技术架构中所需要的一个重要拼图,形成更完整的解决方案,满足业务技术架构需要。2023年7月,腾讯云发布向量数据库产品腾讯正式对外发布向量数据库产品Tencent Cloud VectorDB。腾讯云表示,这一数据库是AI原生(AI Native)的向量数据库,能广泛应用于大模型的训练、推理和知识库补充等场景。向量数据库相比传统数据准备方式可以实现10倍效率的提升,若将腾讯云的向量数据库作为外部知识库使用,能将成本降低2-4个数量级。以上内容摘自睿兽分析,更多详细内容及数据分析,请登录睿兽分析获取完整版报告

Powered by Swash中文网 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024