Welcome to Scribd!

Skip carousel

5 向量数据库 - 原理与概念

Uploaded by

mojunjie521

0% found this document useful (0 votes)

9 views10 pages

Original Title

5 向量数据库--原理与概念

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

9 views10 pages

5 向量数据库 - 原理与概念

Uploaded by

mojunjie521

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 10

Search inside document

向量数据库--原理与技术

主讲人：李侃
目录

• 向量数据库定义
• 向量数据库原理
• 向量检索算法
什么是向量数据库

• 向量数据库（Vector Database）：也叫矢量数据库，主要用来
存储和处理向量数据。
• 非结构化数据（图像、文本和视频等）可以通过某种变换或者嵌入
转化为向量数据存储于向量数据库中，实现相似性检索。不同于基
于精确匹配的传统数据库查询方法，向量数据库可以实现基于上下
文语义的相关查找。
• 向量数据库的主要特点：高效存储与检索。利用索引技术和向量检
索算法能实现高维大数据下的快速响应。
• 向量数据库同时支持对传统结构化数据的管理。
向量数据库工作流程
输入一个向量，从数据库中查找与输入向量最相似的topN个向量返回。

实际应用中，还需要保存数据与向量的映射关系，即返回topN个向量及其数据id，根据数据id获取具体的数据。

图像、文本、
音频、视频

Data

距离定义：欧式、余弦、内
积
数据项量化 trade off：召回率、响应时间、
embedding 内存占用

检索算法倒排索引 HNSW 乘积量化哈希

存储 storage index
向量检索算法

基于树的方法基于图的方法基于量化的方法基于哈希的方法

向量检索算法

基于树的方法

基于树的方法主要思想是将数据
进行划分，减小搜索空间，达到
快速检索的目的。但难以扩充到
高维空间。

基于树的方法主要有KDTree（K-
Dimensional Tree）和Annoy
（Approximate Nearest Neighbors KDTree方法示意 Annoy方法示意
Oh Yeah）。
向量检索算法

基于图的方法

• 基于图的方法利用邻居节点
之间的连通性构建高速公路，
将问题转化为图的遍历，能快
速缩小搜索范围，加快检索速
度。

• 主要分为NSW（Navigating NSW方法示意 HNSW方法示意

Small World）方法与HNSW
（Hierarchical Navigating Small
World）方法。
向量检索算法

基于量化的方法
量化方法的出发点是减少计算量而非搜索空
间。通过量化的方法，损失一定的精度，达
到加快检索速度的目的。

量化的方法主要包括SQ（ ScalarQuantization ） PQ方法示意（构建聚类中心）

和PQ（ Product Quantization ）

SQ是将每一个维度量化成指定位数的一个数，
比如将32位的int量化成8位的int，通过损失一
定的精度，缩减存储成本。

PQ的思路是把高维向量分割成多段低维向量，
再各个量化。检索时同样分割目标向量，计
算每一段与当前段聚类中心的距离用以估计
最终最终距离。 PQ方法示意（检索过程）
向量检索算法

基于哈希的方法
• 基于哈希的方法主要是利用哈希函数的特性
（相似度高的数据其哈希值相似）。

• 哈希函数可以将高维数据转换成低维数据，
极大提高建设效率。基于哈希的方法主要是
LSH（Locality-Sensitive Hashing）。

• LSH也是一种基于空间划分的方式，假设两局部敏感哈希分桶示意
个向量相似，那么他们的哈希值也是相似的。
利用哈希函数将相似的向量映射到相同的桶里
面。查询时先找到与查询向量最相似的桶，再
对桶内的数据进行查询计算最相似的topK。
The End

5 向量数据库 - 原理与概念New
Document17 pages
5 向量数据库 - 原理与概念New
mojunjie521
No ratings yet
3 李成龙走进向量数据 1215
Document38 pages
3 李成龙走进向量数据 1215
sekiftlyz
No ratings yet
6 向量数据库 - Milvus安装
Document7 pages
6 向量数据库 - Milvus安装
mojunjie521
No ratings yet
华为数字化转型与数据管理实践介绍
Document13 pages
华为数字化转型与数据管理实践介绍
叶芊
No ratings yet
Dynatrace（DT N）：云时代的APM领导者
Document23 pages
Dynatrace（DT N）：云时代的APM领导者
JiaqiXie
No ratings yet
Python深度学习 (1) ：安装Anaconda与PyTorch库（GPU版本）
Document12 pages
Python深度学习 (1) ：安装Anaconda与PyTorch库（GPU版本）
小半
No ratings yet
【人工智能-数学基础视频课程】 - 唐宇迪 - 在线视频教程-CSDN学院
Document6 pages
【人工智能-数学基础视频课程】 - 唐宇迪 - 在线视频教程-CSDN学院
Samson Orlov
No ratings yet
DOE试验设计 (SAS JMP) 经典学习案例 (免费下载)
Document33 pages
DOE试验设计 (SAS JMP) 经典学习案例 (免费下载)
llshr17
No ratings yet
Red Hat OpenShift 與 Microsoft Azure 攜手建構體驗一致的雲地整合容器平台
Document27 pages
Red Hat OpenShift 與 Microsoft Azure 攜手建構體驗一致的雲地整合容器平台
Wilson Shen
No ratings yet
Kotlin从入门到进阶实战
Document411 pages
Kotlin从入门到进阶实战
Mark Lee
No ratings yet
明新資料科學深度學習研習 1 2
Document57 pages
明新資料科學深度學習研習 1 2
Polly Sheng
No ratings yet
MiniTab中文操作教程2
Document101 pages
MiniTab中文操作教程2
Jason
No ratings yet
資料庫可以為你做那些事part2
Document23 pages
資料庫可以為你做那些事part2
科技濃湯 TechSoup Taiwan
No ratings yet
python数据分析
Document152 pages
python数据分析
brian
No ratings yet
生生猛猛愛妻守則
Document5 pages
生生猛猛愛妻守則
健康生活園Healthy Life Garden
No ratings yet
人工智慧概論? 1
Document148 pages
人工智慧概論? 1
孫恪璿
No ratings yet
02 ChatGPT项目实战 PDF
Document63 pages
02 ChatGPT项目实战 PDF
wb c (cwbzjh)
No ratings yet
3/27 Office 365 進階功能-實作講義（台北場）
Document6 pages
3/27 Office 365 進階功能-實作講義（台北場）
科技濃湯 TechSoup Taiwan
No ratings yet
React小书 PDF
Document231 pages
React小书 PDF
mengyong cai
100% (1)
关键字練習記錄
Document34 pages
关键字練習記錄
Yee Pei
No ratings yet
Dynamics 365 NPO 解決方案分享
Document20 pages
Dynamics 365 NPO 解決方案分享
科技濃湯 TechSoup Taiwan
No ratings yet
FS-LDM培训材料 (DAY 1) NCR数据仓库事业部
Document56 pages
FS-LDM培训材料 (DAY 1) NCR数据仓库事业部
yangxy
No ratings yet
評IBM PC業務賣給聯想 PDF
Document4 pages
評IBM PC業務賣給聯想 PDF
Willy Baron
No ratings yet
(itpub.net) Oracle-EBS R12DBA维护笔记
Document100 pages
(itpub.net) Oracle-EBS R12DBA维护笔记
Jack Wang
No ratings yet
系統分析與設計 System Analysis and Design
Document32 pages
系統分析與設計 System Analysis and Design
STM Works
No ratings yet
SGG Elasticsearch PDF
Document125 pages
SGG Elasticsearch PDF
cvkbhkfjg
No ratings yet
Null
Document28 pages
Null
drassi
No ratings yet
Python视觉实战项目52讲
Document483 pages
Python视觉实战项目52讲
杨奕航
No ratings yet
aws白皮书
Document51 pages
aws白皮书
Candice Bai
No ratings yet
openGauss 技术架构
Document72 pages
openGauss 技术架构
Gary Liu
No ratings yet
C++ 財務程式設計 - Introduction
Document18 pages
C++ 財務程式設計 - Introduction
ycliutw
100% (1)
Sas 技术内幕：从程序员到数据科学家
Document220 pages
Sas 技术内幕：从程序员到数据科学家
Run Tian
No ratings yet
5/7 Office 365 進階功能-實作講義（高雄場）
Document10 pages
5/7 Office 365 進階功能-實作講義（高雄場）
科技濃湯 TechSoup Taiwan
No ratings yet
全链路供应计划优化集团分享V2
Document47 pages
全链路供应计划优化集团分享V2
Tianyu Tao
100% (1)
計算機概論題庫
Document36 pages
計算機概論題庫
tims940048
No ratings yet
Python视觉实战项目71讲 (更新)
Document607 pages
Python视觉实战项目71讲 (更新)
杨奕航
No ratings yet
MySQL 运维篇
Document83 pages
MySQL 运维篇
kangitsuki
No ratings yet
轻舟低代码平台外宣
Document64 pages
轻舟低代码平台外宣
cckun
No ratings yet
人工智能之数据挖掘2020
Document330 pages
人工智能之数据挖掘2020
qiuzicheng
No ratings yet
西南证券向量数据库：AI时代的技术基座 230621
Document36 pages
西南证券向量数据库：AI时代的技术基座 230621
andywli0425
No ratings yet
图机器学习在京东视频召回中的应用
Document36 pages
图机器学习在京东视频召回中的应用
王天宇
No ratings yet
后端技术栈
Document1 page
后端技术栈
haidaihhh
No ratings yet
CCKS 讲习班知识计算即服务赋能企业知识化转型（郑毅）
Document57 pages
CCKS 讲习班知识计算即服务赋能企业知识化转型（郑毅）
757786288
No ratings yet
Radar Imaging
Document9 pages
Radar Imaging
Bulijiojio
No ratings yet
巨量資料技術與應用
Document60 pages
巨量資料技術與應用
Ruei-Jr Tseng
No ratings yet
(03) 數據的收集與存儲
Document89 pages
(03) 數據的收集與存儲
Alya penta agharid
No ratings yet
混合云高可用高性能
Document3 pages
混合云高可用高性能
jie tang
No ratings yet
第6章层次结构存储系统
Document1 page
第6章层次结构存储系统
Kang Kang
No ratings yet
01 字节跳动+EB+级+Iceberg+数据湖的机器学习应用与优化-谢凯
Document34 pages
01 字节跳动+EB+级+Iceberg+数据湖的机器学习应用与优化-谢凯
hunaos1
No ratings yet
VPN
Document40 pages
VPN
itspanther
No ratings yet
02 ⽹易互娱大数据平台出海上云架构设计与实践-柯维鸿
Document36 pages
02 ⽹易互娱大数据平台出海上云架构设计与实践-柯维鸿
hunaos1
No ratings yet
鹰眼下的淘宝 - 阿里技术沙龙
Document55 pages
鹰眼下的淘宝 - 阿里技术沙龙
Yang Yu
No ratings yet
｛Mongo DB｝一种基于NoSQL的地图瓦片数据存储技术
Document3 pages
｛Mongo DB｝一种基于NoSQL的地图瓦片数据存储技术
Charles O'Connor
No ratings yet
基于开源技术的地质空间大数据系统设计与实现齐少凡
Document6 pages
基于开源技术的地质空间大数据系统设计与实现齐少凡
Chi
No ratings yet
C1-2 NCS7000G2F产品交流
Document8 pages
C1-2 NCS7000G2F产品交流
尹实
No ratings yet
Vision Based Robotic Grasping GuoguangDu
Document42 pages
Vision Based Robotic Grasping GuoguangDu
sfk114514
No ratings yet
Sybase IQ DBA - 12.x
Document90 pages
Sybase IQ DBA - 12.x
charlielinsoe
No ratings yet
基于HDFSMapReduce.zh CN
Document7 pages
基于HDFSMapReduce.zh CN
郑铭
No ratings yet
Koordinator在云原生AI、大数据场景的设计思考
Document23 pages
Koordinator在云原生AI、大数据场景的设计思考
eskyhero
No ratings yet
周剑魂数据虚拟化助力企业数字化转型
Document15 pages
周剑魂数据虚拟化助力企业数字化转型
Fang Yong
No ratings yet
(1 4 1) - 104）算法和计算复杂性
Document15 pages
(1 4 1) - 104）算法和计算复杂性
mojunjie521
No ratings yet
origin使用指南
Document57 pages
origin使用指南
mojunjie521
No ratings yet
1 ChatGPT与生成式AI技术发展概述
Document80 pages
1 ChatGPT与生成式AI技术发展概述
mojunjie521
No ratings yet
7 向量数据库 - Milvus基础操作
Document10 pages
7 向量数据库 - Milvus基础操作
mojunjie521
No ratings yet