課程費用

6800.00 /人

課程時長

3

成為教練

課程簡介

理解向量數(shù)據(jù)庫的核心概念、架構(gòu)和優(yōu)勢。
掌握向量數(shù)據(jù)庫的關(guān)鍵技術(shù),包括向量索引、相似度搜索、近似最近鄰搜索 (ANN)。
學(xué)習(xí)如何在向量數(shù)據(jù)庫中存儲、索引和查詢向量數(shù)據(jù)。
了解向量數(shù)據(jù)庫的應(yīng)用場景和最佳實踐。
掌握主流向量數(shù)據(jù)庫的使用方法和評估標(biāo)準(zhǔn)。
能夠構(gòu)建自己的向量數(shù)據(jù)庫原型系統(tǒng),并集成到AI應(yīng)用中。

目標(biāo)收益

培訓(xùn)對象

數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)工程師、AI開發(fā)者、以及對向量數(shù)據(jù)庫感興趣的技術(shù)人員。

課程大綱

第一天:向量數(shù)據(jù)庫基礎(chǔ)與核心技術(shù)
模塊 1:向量數(shù)據(jù)庫概述 (上午)
什么是向量 (Embedding)? 向量的生成方法:Word2Vec, GloVe, FastText, Sentence-BERT, OpenAI Embeddings
傳統(tǒng)數(shù)據(jù)庫在處理向量數(shù)據(jù)時的局限性
向量數(shù)據(jù)庫的定義、目標(biāo)和優(yōu)勢:高性能相似度搜索、高可擴展性、支持多種數(shù)據(jù)類型
向量數(shù)據(jù)庫的應(yīng)用場景:圖像搜索、文本檢索、推薦系統(tǒng)、異常檢測、生物信息學(xué)
主流向量數(shù)據(jù)庫介紹:Milvus, Weaviate, Pinecone, Qdrant, FAISS (Facebook AI Similarity Search)
模塊 2:向量索引技術(shù) (上午) 向量索引的類型:基于樹的索引、基于圖的索引、基于哈希的索引、基于量化的索引
常用的向量索引算法:
K-D Tree (K-Dimensional Tree)
Ball Tree
HNSW (Hierarchical Navigable Small World)
IVF (Inverted File Index)
PQ (Product Quantization)
各種索引算法的優(yōu)缺點分析:搜索精度、搜索速度、內(nèi)存消耗
動手實踐:比較不同向量索引算法的性能
模塊 3:相似度搜索 (下午) 相似度度量方法:歐氏距離 (Euclidean Distance), 余弦相似度 (Cosine Similarity), 點積 (Dot Product), Jaccard相似度
相似度搜索的類型:精確搜索、近似搜索 (Approximate Nearest Neighbor Search - ANN)
精確搜索的局限性:性能瓶頸
近似搜索的優(yōu)勢:提高搜索效率
動手實踐:使用不同的相似度度量方法計算向量之間的相似度
模塊 4:近似最近鄰搜索 (ANN) 技術(shù) (下午) ANN的定義和目標(biāo):在可接受的精度損失下,實現(xiàn)快速相似度搜索
常用的ANN算法:
局部敏感哈希 (Locality Sensitive Hashing - LSH)
乘積量化 (Product Quantization - PQ)
倒排索引 (Inverted File Index - IVF)
分層可導(dǎo)航小世界 (Hierarchical Navigable Small World - HNSW)
ANN算法的性能評估指標(biāo):召回率 (Recall), 精度 (Precision), QPS (Queries Per Second)
動手實踐:使用ANN算法進行相似度搜索
第二天:向量數(shù)據(jù)庫應(yīng)用與最佳實踐
模塊 5:向量數(shù)據(jù)庫選型與架構(gòu)設(shè)計 (上午)
向量數(shù)據(jù)庫選型的考量因素:數(shù)據(jù)規(guī)模、查詢性能、易用性、成本、可擴展性
主流向量數(shù)據(jù)庫的對比分析:Milvus, Weaviate, Pinecone, Qdrant, FAISS
向量數(shù)據(jù)庫的部署架構(gòu):單機部署、集群部署、云端部署
向量數(shù)據(jù)庫與其他組件的集成:數(shù)據(jù)源、AI模型、應(yīng)用服務(wù)
動手實踐:選擇適用于特定場景的向量數(shù)據(jù)庫
模塊 6:向量數(shù)據(jù)庫的數(shù)據(jù)建模與索引構(gòu)建 (上午) 選擇合適的向量模型:根據(jù)應(yīng)用場景選擇合適的預(yù)訓(xùn)練模型或自定義訓(xùn)練模型
向量數(shù)據(jù)庫的數(shù)據(jù)類型:向量類型、標(biāo)量類型、元數(shù)據(jù)類型
創(chuàng)建向量數(shù)據(jù)庫的Schema:定義向量維度、數(shù)據(jù)類型、索引參數(shù)
向量數(shù)據(jù)庫的索引構(gòu)建:選擇合適的索引算法、調(diào)整索引參數(shù)
動態(tài)索引與增量索引
動手實踐:設(shè)計向量數(shù)據(jù)庫的Schema和索引
模塊 7:向量數(shù)據(jù)庫的應(yīng)用開發(fā) (下午) 使用向量數(shù)據(jù)庫的API:插入數(shù)據(jù)、刪除數(shù)據(jù)、查詢數(shù)據(jù)
向量數(shù)據(jù)庫的查詢語句:相似度搜索、范圍查詢、過濾查詢
向量數(shù)據(jù)庫的客戶端庫:Python, Java, Go, REST API
向量數(shù)據(jù)庫與AI模型的集成:embedding生成、模型推理
動手實踐:構(gòu)建一個簡單的圖像搜索應(yīng)用
模塊 8:向量數(shù)據(jù)庫最佳實踐與未來趨勢 (下午) 性能優(yōu)化:數(shù)據(jù)分區(qū)、緩存、查詢優(yōu)化
監(jiān)控與報警:實時監(jiān)控數(shù)據(jù)庫狀態(tài)、及時發(fā)現(xiàn)問題
數(shù)據(jù)安全:訪問控制、數(shù)據(jù)加密、數(shù)據(jù)審計
向量數(shù)據(jù)庫的未來趨勢:
多模態(tài)數(shù)據(jù)支持:支持文本、圖像、音頻、視頻等多種類型的數(shù)據(jù)
自動化索引構(gòu)建:自動選擇合適的索引算法和參數(shù)
可解釋性:提供向量相似性的解釋
云原生:在云平臺上構(gòu)建彈性伸縮的向量數(shù)據(jù)庫
開放討論:學(xué)員分享對向量數(shù)據(jù)庫未來發(fā)展的看法
可選模塊 (根據(jù)客戶需求調(diào)整) 向量索引算法源碼分析: 深入剖析HNSW、IVF等索引算法的源碼實現(xiàn)
特定向量數(shù)據(jù)庫平臺的實踐: 深入學(xué)習(xí)Milvus、Weaviate、Pinecone等平臺的使用方法和高級特性
向量數(shù)據(jù)庫與LLM的結(jié)合: 構(gòu)建基于向量數(shù)據(jù)庫的知識庫、問答系統(tǒng)
工具與技術(shù): 向量數(shù)據(jù)庫:Milvus, Weaviate, Pinecone, Qdrant, FAISS
機器學(xué)習(xí)框架:TensorFlow, PyTorch
編程語言:Python, Java, Go
API調(diào)用:RESTful API
云平臺:AWS, Azure, Google Cloud
第一天:向量數(shù)據(jù)庫基礎(chǔ)與核心技術(shù)
模塊 1:向量數(shù)據(jù)庫概述 (上午)
什么是向量 (Embedding)? 向量的生成方法:Word2Vec, GloVe, FastText, Sentence-BERT, OpenAI Embeddings
傳統(tǒng)數(shù)據(jù)庫在處理向量數(shù)據(jù)時的局限性
向量數(shù)據(jù)庫的定義、目標(biāo)和優(yōu)勢:高性能相似度搜索、高可擴展性、支持多種數(shù)據(jù)類型
向量數(shù)據(jù)庫的應(yīng)用場景:圖像搜索、文本檢索、推薦系統(tǒng)、異常檢測、生物信息學(xué)
主流向量數(shù)據(jù)庫介紹:Milvus, Weaviate, Pinecone, Qdrant, FAISS (Facebook AI Similarity Search)
模塊 2:向量索引技術(shù) (上午)
向量索引的類型:基于樹的索引、基于圖的索引、基于哈希的索引、基于量化的索引
常用的向量索引算法:
K-D Tree (K-Dimensional Tree)
Ball Tree
HNSW (Hierarchical Navigable Small World)
IVF (Inverted File Index)
PQ (Product Quantization)
各種索引算法的優(yōu)缺點分析:搜索精度、搜索速度、內(nèi)存消耗
動手實踐:比較不同向量索引算法的性能
模塊 3:相似度搜索 (下午)
相似度度量方法:歐氏距離 (Euclidean Distance), 余弦相似度 (Cosine Similarity), 點積 (Dot Product), Jaccard相似度
相似度搜索的類型:精確搜索、近似搜索 (Approximate Nearest Neighbor Search - ANN)
精確搜索的局限性:性能瓶頸
近似搜索的優(yōu)勢:提高搜索效率
動手實踐:使用不同的相似度度量方法計算向量之間的相似度
模塊 4:近似最近鄰搜索 (ANN) 技術(shù) (下午)
ANN的定義和目標(biāo):在可接受的精度損失下,實現(xiàn)快速相似度搜索
常用的ANN算法:
局部敏感哈希 (Locality Sensitive Hashing - LSH)
乘積量化 (Product Quantization - PQ)
倒排索引 (Inverted File Index - IVF)
分層可導(dǎo)航小世界 (Hierarchical Navigable Small World - HNSW)
ANN算法的性能評估指標(biāo):召回率 (Recall), 精度 (Precision), QPS (Queries Per Second)
動手實踐:使用ANN算法進行相似度搜索
第二天:向量數(shù)據(jù)庫應(yīng)用與最佳實踐
模塊 5:向量數(shù)據(jù)庫選型與架構(gòu)設(shè)計 (上午)
向量數(shù)據(jù)庫選型的考量因素:數(shù)據(jù)規(guī)模、查詢性能、易用性、成本、可擴展性
主流向量數(shù)據(jù)庫的對比分析:Milvus, Weaviate, Pinecone, Qdrant, FAISS
向量數(shù)據(jù)庫的部署架構(gòu):單機部署、集群部署、云端部署
向量數(shù)據(jù)庫與其他組件的集成:數(shù)據(jù)源、AI模型、應(yīng)用服務(wù)
動手實踐:選擇適用于特定場景的向量數(shù)據(jù)庫
模塊 6:向量數(shù)據(jù)庫的數(shù)據(jù)建模與索引構(gòu)建 (上午)
選擇合適的向量模型:根據(jù)應(yīng)用場景選擇合適的預(yù)訓(xùn)練模型或自定義訓(xùn)練模型
向量數(shù)據(jù)庫的數(shù)據(jù)類型:向量類型、標(biāo)量類型、元數(shù)據(jù)類型
創(chuàng)建向量數(shù)據(jù)庫的Schema:定義向量維度、數(shù)據(jù)類型、索引參數(shù)
向量數(shù)據(jù)庫的索引構(gòu)建:選擇合適的索引算法、調(diào)整索引參數(shù)
動態(tài)索引與增量索引
動手實踐:設(shè)計向量數(shù)據(jù)庫的Schema和索引
模塊 7:向量數(shù)據(jù)庫的應(yīng)用開發(fā) (下午)
使用向量數(shù)據(jù)庫的API:插入數(shù)據(jù)、刪除數(shù)據(jù)、查詢數(shù)據(jù)
向量數(shù)據(jù)庫的查詢語句:相似度搜索、范圍查詢、過濾查詢
向量數(shù)據(jù)庫的客戶端庫:Python, Java, Go, REST API
向量數(shù)據(jù)庫與AI模型的集成:embedding生成、模型推理
動手實踐:構(gòu)建一個簡單的圖像搜索應(yīng)用
模塊 8:向量數(shù)據(jù)庫最佳實踐與未來趨勢 (下午)
性能優(yōu)化:數(shù)據(jù)分區(qū)、緩存、查詢優(yōu)化
監(jiān)控與報警:實時監(jiān)控數(shù)據(jù)庫狀態(tài)、及時發(fā)現(xiàn)問題
數(shù)據(jù)安全:訪問控制、數(shù)據(jù)加密、數(shù)據(jù)審計
向量數(shù)據(jù)庫的未來趨勢:
多模態(tài)數(shù)據(jù)支持:支持文本、圖像、音頻、視頻等多種類型的數(shù)據(jù)
自動化索引構(gòu)建:自動選擇合適的索引算法和參數(shù)
可解釋性:提供向量相似性的解釋
云原生:在云平臺上構(gòu)建彈性伸縮的向量數(shù)據(jù)庫
開放討論:學(xué)員分享對向量數(shù)據(jù)庫未來發(fā)展的看法
可選模塊 (根據(jù)客戶需求調(diào)整)
向量索引算法源碼分析: 深入剖析HNSW、IVF等索引算法的源碼實現(xiàn)
特定向量數(shù)據(jù)庫平臺的實踐: 深入學(xué)習(xí)Milvus、Weaviate、Pinecone等平臺的使用方法和高級特性
向量數(shù)據(jù)庫與LLM的結(jié)合: 構(gòu)建基于向量數(shù)據(jù)庫的知識庫、問答系統(tǒng)
工具與技術(shù):
向量數(shù)據(jù)庫:Milvus, Weaviate, Pinecone, Qdrant, FAISS
機器學(xué)習(xí)框架:TensorFlow, PyTorch
編程語言:Python, Java, Go
API調(diào)用:RESTful API
云平臺:AWS, Azure, Google Cloud

活動詳情

提交需求