工程師
其他
數(shù)據(jù)庫
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

向量數(shù)據(jù)庫:構(gòu)建下一代智能應(yīng)用的數(shù)據(jù)底座

課程費(fèi)用

6800.00 /人

課程時(shí)長

3

成為教練

課程簡(jiǎn)介

理解向量數(shù)據(jù)庫的核心概念、架構(gòu)和優(yōu)勢(shì)。
掌握向量數(shù)據(jù)庫的關(guān)鍵技術(shù),包括向量索引、相似度搜索、近似最近鄰搜索 (ANN)。
學(xué)習(xí)如何在向量數(shù)據(jù)庫中存儲(chǔ)、索引和查詢向量數(shù)據(jù)。
了解向量數(shù)據(jù)庫的應(yīng)用場(chǎng)景和最佳實(shí)踐。
掌握主流向量數(shù)據(jù)庫的使用方法和評(píng)估標(biāo)準(zhǔn)。
能夠構(gòu)建自己的向量數(shù)據(jù)庫原型系統(tǒng),并集成到AI應(yīng)用中。

目標(biāo)收益

培訓(xùn)對(duì)象

數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師、AI開發(fā)者、以及對(duì)向量數(shù)據(jù)庫感興趣的技術(shù)人員。

課程大綱

第一天:向量數(shù)據(jù)庫基礎(chǔ)與核心技術(shù)
模塊 1:向量數(shù)據(jù)庫概述 (上午)
什么是向量 (Embedding)? 向量的生成方法:Word2Vec, GloVe, FastText, Sentence-BERT, OpenAI Embeddings
傳統(tǒng)數(shù)據(jù)庫在處理向量數(shù)據(jù)時(shí)的局限性
向量數(shù)據(jù)庫的定義、目標(biāo)和優(yōu)勢(shì):高性能相似度搜索、高可擴(kuò)展性、支持多種數(shù)據(jù)類型
向量數(shù)據(jù)庫的應(yīng)用場(chǎng)景:圖像搜索、文本檢索、推薦系統(tǒng)、異常檢測(cè)、生物信息學(xué)
主流向量數(shù)據(jù)庫介紹:Milvus, Weaviate, Pinecone, Qdrant, FAISS (Facebook AI Similarity Search)
模塊 2:向量索引技術(shù) (上午) 向量索引的類型:基于樹的索引、基于圖的索引、基于哈希的索引、基于量化的索引
常用的向量索引算法:
K-D Tree (K-Dimensional Tree)
Ball Tree
HNSW (Hierarchical Navigable Small World)
IVF (Inverted File Index)
PQ (Product Quantization)
各種索引算法的優(yōu)缺點(diǎn)分析:搜索精度、搜索速度、內(nèi)存消耗
動(dòng)手實(shí)踐:比較不同向量索引算法的性能
模塊 3:相似度搜索 (下午) 相似度度量方法:歐氏距離 (Euclidean Distance), 余弦相似度 (Cosine Similarity), 點(diǎn)積 (Dot Product), Jaccard相似度
相似度搜索的類型:精確搜索、近似搜索 (Approximate Nearest Neighbor Search - ANN)
精確搜索的局限性:性能瓶頸
近似搜索的優(yōu)勢(shì):提高搜索效率
動(dòng)手實(shí)踐:使用不同的相似度度量方法計(jì)算向量之間的相似度
模塊 4:近似最近鄰搜索 (ANN) 技術(shù) (下午) ANN的定義和目標(biāo):在可接受的精度損失下,實(shí)現(xiàn)快速相似度搜索
常用的ANN算法:
局部敏感哈希 (Locality Sensitive Hashing - LSH)
乘積量化 (Product Quantization - PQ)
倒排索引 (Inverted File Index - IVF)
分層可導(dǎo)航小世界 (Hierarchical Navigable Small World - HNSW)
ANN算法的性能評(píng)估指標(biāo):召回率 (Recall), 精度 (Precision), QPS (Queries Per Second)
動(dòng)手實(shí)踐:使用ANN算法進(jìn)行相似度搜索
第二天:向量數(shù)據(jù)庫應(yīng)用與最佳實(shí)踐
模塊 5:向量數(shù)據(jù)庫選型與架構(gòu)設(shè)計(jì) (上午)
向量數(shù)據(jù)庫選型的考量因素:數(shù)據(jù)規(guī)模、查詢性能、易用性、成本、可擴(kuò)展性
主流向量數(shù)據(jù)庫的對(duì)比分析:Milvus, Weaviate, Pinecone, Qdrant, FAISS
向量數(shù)據(jù)庫的部署架構(gòu):?jiǎn)螜C(jī)部署、集群部署、云端部署
向量數(shù)據(jù)庫與其他組件的集成:數(shù)據(jù)源、AI模型、應(yīng)用服務(wù)
動(dòng)手實(shí)踐:選擇適用于特定場(chǎng)景的向量數(shù)據(jù)庫
模塊 6:向量數(shù)據(jù)庫的數(shù)據(jù)建模與索引構(gòu)建 (上午) 選擇合適的向量模型:根據(jù)應(yīng)用場(chǎng)景選擇合適的預(yù)訓(xùn)練模型或自定義訓(xùn)練模型
向量數(shù)據(jù)庫的數(shù)據(jù)類型:向量類型、標(biāo)量類型、元數(shù)據(jù)類型
創(chuàng)建向量數(shù)據(jù)庫的Schema:定義向量維度、數(shù)據(jù)類型、索引參數(shù)
向量數(shù)據(jù)庫的索引構(gòu)建:選擇合適的索引算法、調(diào)整索引參數(shù)
動(dòng)態(tài)索引與增量索引
動(dòng)手實(shí)踐:設(shè)計(jì)向量數(shù)據(jù)庫的Schema和索引
模塊 7:向量數(shù)據(jù)庫的應(yīng)用開發(fā) (下午) 使用向量數(shù)據(jù)庫的API:插入數(shù)據(jù)、刪除數(shù)據(jù)、查詢數(shù)據(jù)
向量數(shù)據(jù)庫的查詢語句:相似度搜索、范圍查詢、過濾查詢
向量數(shù)據(jù)庫的客戶端庫:Python, Java, Go, REST API
向量數(shù)據(jù)庫與AI模型的集成:embedding生成、模型推理
動(dòng)手實(shí)踐:構(gòu)建一個(gè)簡(jiǎn)單的圖像搜索應(yīng)用
模塊 8:向量數(shù)據(jù)庫最佳實(shí)踐與未來趨勢(shì) (下午) 性能優(yōu)化:數(shù)據(jù)分區(qū)、緩存、查詢優(yōu)化
監(jiān)控與報(bào)警:實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫狀態(tài)、及時(shí)發(fā)現(xiàn)問題
數(shù)據(jù)安全:訪問控制、數(shù)據(jù)加密、數(shù)據(jù)審計(jì)
向量數(shù)據(jù)庫的未來趨勢(shì):
多模態(tài)數(shù)據(jù)支持:支持文本、圖像、音頻、視頻等多種類型的數(shù)據(jù)
自動(dòng)化索引構(gòu)建:自動(dòng)選擇合適的索引算法和參數(shù)
可解釋性:提供向量相似性的解釋
云原生:在云平臺(tái)上構(gòu)建彈性伸縮的向量數(shù)據(jù)庫
開放討論:學(xué)員分享對(duì)向量數(shù)據(jù)庫未來發(fā)展的看法
可選模塊 (根據(jù)客戶需求調(diào)整) 向量索引算法源碼分析: 深入剖析HNSW、IVF等索引算法的源碼實(shí)現(xiàn)
特定向量數(shù)據(jù)庫平臺(tái)的實(shí)踐: 深入學(xué)習(xí)Milvus、Weaviate、Pinecone等平臺(tái)的使用方法和高級(jí)特性
向量數(shù)據(jù)庫與LLM的結(jié)合: 構(gòu)建基于向量數(shù)據(jù)庫的知識(shí)庫、問答系統(tǒng)
工具與技術(shù): 向量數(shù)據(jù)庫:Milvus, Weaviate, Pinecone, Qdrant, FAISS
機(jī)器學(xué)習(xí)框架:TensorFlow, PyTorch
編程語言:Python, Java, Go
API調(diào)用:RESTful API
云平臺(tái):AWS, Azure, Google Cloud
第一天:向量數(shù)據(jù)庫基礎(chǔ)與核心技術(shù)
模塊 1:向量數(shù)據(jù)庫概述 (上午)
什么是向量 (Embedding)? 向量的生成方法:Word2Vec, GloVe, FastText, Sentence-BERT, OpenAI Embeddings
傳統(tǒng)數(shù)據(jù)庫在處理向量數(shù)據(jù)時(shí)的局限性
向量數(shù)據(jù)庫的定義、目標(biāo)和優(yōu)勢(shì):高性能相似度搜索、高可擴(kuò)展性、支持多種數(shù)據(jù)類型
向量數(shù)據(jù)庫的應(yīng)用場(chǎng)景:圖像搜索、文本檢索、推薦系統(tǒng)、異常檢測(cè)、生物信息學(xué)
主流向量數(shù)據(jù)庫介紹:Milvus, Weaviate, Pinecone, Qdrant, FAISS (Facebook AI Similarity Search)
模塊 2:向量索引技術(shù) (上午)
向量索引的類型:基于樹的索引、基于圖的索引、基于哈希的索引、基于量化的索引
常用的向量索引算法:
K-D Tree (K-Dimensional Tree)
Ball Tree
HNSW (Hierarchical Navigable Small World)
IVF (Inverted File Index)
PQ (Product Quantization)
各種索引算法的優(yōu)缺點(diǎn)分析:搜索精度、搜索速度、內(nèi)存消耗
動(dòng)手實(shí)踐:比較不同向量索引算法的性能
模塊 3:相似度搜索 (下午)
相似度度量方法:歐氏距離 (Euclidean Distance), 余弦相似度 (Cosine Similarity), 點(diǎn)積 (Dot Product), Jaccard相似度
相似度搜索的類型:精確搜索、近似搜索 (Approximate Nearest Neighbor Search - ANN)
精確搜索的局限性:性能瓶頸
近似搜索的優(yōu)勢(shì):提高搜索效率
動(dòng)手實(shí)踐:使用不同的相似度度量方法計(jì)算向量之間的相似度
模塊 4:近似最近鄰搜索 (ANN) 技術(shù) (下午)
ANN的定義和目標(biāo):在可接受的精度損失下,實(shí)現(xiàn)快速相似度搜索
常用的ANN算法:
局部敏感哈希 (Locality Sensitive Hashing - LSH)
乘積量化 (Product Quantization - PQ)
倒排索引 (Inverted File Index - IVF)
分層可導(dǎo)航小世界 (Hierarchical Navigable Small World - HNSW)
ANN算法的性能評(píng)估指標(biāo):召回率 (Recall), 精度 (Precision), QPS (Queries Per Second)
動(dòng)手實(shí)踐:使用ANN算法進(jìn)行相似度搜索
第二天:向量數(shù)據(jù)庫應(yīng)用與最佳實(shí)踐
模塊 5:向量數(shù)據(jù)庫選型與架構(gòu)設(shè)計(jì) (上午)
向量數(shù)據(jù)庫選型的考量因素:數(shù)據(jù)規(guī)模、查詢性能、易用性、成本、可擴(kuò)展性
主流向量數(shù)據(jù)庫的對(duì)比分析:Milvus, Weaviate, Pinecone, Qdrant, FAISS
向量數(shù)據(jù)庫的部署架構(gòu):?jiǎn)螜C(jī)部署、集群部署、云端部署
向量數(shù)據(jù)庫與其他組件的集成:數(shù)據(jù)源、AI模型、應(yīng)用服務(wù)
動(dòng)手實(shí)踐:選擇適用于特定場(chǎng)景的向量數(shù)據(jù)庫
模塊 6:向量數(shù)據(jù)庫的數(shù)據(jù)建模與索引構(gòu)建 (上午)
選擇合適的向量模型:根據(jù)應(yīng)用場(chǎng)景選擇合適的預(yù)訓(xùn)練模型或自定義訓(xùn)練模型
向量數(shù)據(jù)庫的數(shù)據(jù)類型:向量類型、標(biāo)量類型、元數(shù)據(jù)類型
創(chuàng)建向量數(shù)據(jù)庫的Schema:定義向量維度、數(shù)據(jù)類型、索引參數(shù)
向量數(shù)據(jù)庫的索引構(gòu)建:選擇合適的索引算法、調(diào)整索引參數(shù)
動(dòng)態(tài)索引與增量索引
動(dòng)手實(shí)踐:設(shè)計(jì)向量數(shù)據(jù)庫的Schema和索引
模塊 7:向量數(shù)據(jù)庫的應(yīng)用開發(fā) (下午)
使用向量數(shù)據(jù)庫的API:插入數(shù)據(jù)、刪除數(shù)據(jù)、查詢數(shù)據(jù)
向量數(shù)據(jù)庫的查詢語句:相似度搜索、范圍查詢、過濾查詢
向量數(shù)據(jù)庫的客戶端庫:Python, Java, Go, REST API
向量數(shù)據(jù)庫與AI模型的集成:embedding生成、模型推理
動(dòng)手實(shí)踐:構(gòu)建一個(gè)簡(jiǎn)單的圖像搜索應(yīng)用
模塊 8:向量數(shù)據(jù)庫最佳實(shí)踐與未來趨勢(shì) (下午)
性能優(yōu)化:數(shù)據(jù)分區(qū)、緩存、查詢優(yōu)化
監(jiān)控與報(bào)警:實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫狀態(tài)、及時(shí)發(fā)現(xiàn)問題
數(shù)據(jù)安全:訪問控制、數(shù)據(jù)加密、數(shù)據(jù)審計(jì)
向量數(shù)據(jù)庫的未來趨勢(shì):
多模態(tài)數(shù)據(jù)支持:支持文本、圖像、音頻、視頻等多種類型的數(shù)據(jù)
自動(dòng)化索引構(gòu)建:自動(dòng)選擇合適的索引算法和參數(shù)
可解釋性:提供向量相似性的解釋
云原生:在云平臺(tái)上構(gòu)建彈性伸縮的向量數(shù)據(jù)庫
開放討論:學(xué)員分享對(duì)向量數(shù)據(jù)庫未來發(fā)展的看法
可選模塊 (根據(jù)客戶需求調(diào)整)
向量索引算法源碼分析: 深入剖析HNSW、IVF等索引算法的源碼實(shí)現(xiàn)
特定向量數(shù)據(jù)庫平臺(tái)的實(shí)踐: 深入學(xué)習(xí)Milvus、Weaviate、Pinecone等平臺(tái)的使用方法和高級(jí)特性
向量數(shù)據(jù)庫與LLM的結(jié)合: 構(gòu)建基于向量數(shù)據(jù)庫的知識(shí)庫、問答系統(tǒng)
工具與技術(shù):
向量數(shù)據(jù)庫:Milvus, Weaviate, Pinecone, Qdrant, FAISS
機(jī)器學(xué)習(xí)框架:TensorFlow, PyTorch
編程語言:Python, Java, Go
API調(diào)用:RESTful API
云平臺(tái):AWS, Azure, Google Cloud

課程費(fèi)用

6800.00 /人

課程時(shí)長

3

預(yù)約體驗(yàn)票 我要分享

近期公開課推薦

近期公開課推薦

活動(dòng)詳情

提交需求