iis服务器助手广告
返回顶部
首页 > 资讯 > 数据库 >使用Redis实现向量相似度搜索
  • 523
分享到

使用Redis实现向量相似度搜索

Redis向量相似度搜索Redis向量相似度Redis相似度 2023-08-07 21:08:02 523人浏览 泡泡鱼
摘要

目录什么是向量向量相似度搜索的基本原理Redis实现向量相似度搜索1、Redis Search安装2、创建向量索引库3、添加向量到索引库4、向量搜索5、从索引库中删除向量6、删除向量索引库7、查询索引库信息在自

自然语言处理领域,有一个常见且重要的任务就是文本相似度搜索。文本相似度搜索是指根据用户输入的一段文本,从数据库中找出与之最相似或最相关的一段或多段文本。它可以应用在很多场景中,例如问答系统、推荐系统、搜索引擎等。

比如,当用户在知乎上提出一个问题时,系统就可以从知乎上已有的回答中找出与该问题最匹配或最有价值的回答,并展示给用户。

要实现类似高效的搜索,我们需要使用一些特殊的数据结构算法。其中,向量相似度搜索是一种在大规模数据搜索中表现优秀的算法。而Redis作为一种高性能的键值数据库,也可以帮助我们实现向量相似度搜索。

在开始学习如何使用Redis实现向量相似度搜索之前,需要了解向量及向量相似度搜索的基本知识和原理,以便更好地理解后面的内容。

什么是向量

向量是数学、物理学和工程科学等多个自然科学中的基本概念,它是一个具有方向和长度的量,用于描述问题,如空间几何、力学、信号处理等。在计算机科学中,向量被用于表示数据,如文本、图像或音频。此外,向量还代表ai模型对文本、图像、音频、视频等非结构化数据的印象。

向量相似度搜索的基本原理

向量相似度搜索的基本原理是通过将数据集中的每个元素映射为向量,并使用特定相似度计算算法,如基于余弦相似度的、基于欧氏相似度或基于Jaccard相似度等算法,找到与查询向量最相似的向量。

Redis实现向量相似度搜索

了解原理后,我们开始来实现如何使用Redis实现向量相似度搜索。Redis允许我们在FT.SEARCH命令中使用向量相似度查询。使我们可以加载、索引和查询作为Redis哈希或JSON文档中字段存储的向量。

相关文档地址

https://redis.io/docs/interact/search-and-query/search/vectors

1、Redis Search安装

关于Redis Search的安装和使用,此处不再赘述,如果您对此不熟悉,可以参考上一篇文章:

C#+Redis Search:如何用Redis实现高性能全文搜索

2、创建向量索引库

这里我们使用NRedisStack和StackExchange.Redis两个库来与Redis进行交互操作。

//创建一个Redis连接
static ConnectionMultiplexer mux = ConnectionMultiplexer.Connect("localhost");
//获取一个Redis数据库
static IDatabase db = mux.GetDatabase();
//创建一个RediSearch客户端
static SearchCommands ft = new SearchCommands(db, null);

在进行向量搜索之前,首先需要定义并创建索引,并指定相似性算法。

public static async Task CreateIndexAsync()
{
    await ft.CreateAsync(indexName,
        new FTCreateParams()
                    .On(IndexDataType.HASH)
                    .Prefix(prefix),
        new Schema()
                    .AddTagField("tag")
                    .AddTextField("content")
                    .AddVectorField("vector",
                        VectorField.VectorAlGo.HNSW,
                        new Dictionary<string, object>()
                        {
                            ["TYPE"] = "FLOAT32",
                            ["DIM"] = 2,
                            ["DISTANCE_METRIC"] = "COSINE"
                        }));
}

这段代码的意思是:

  • 使用了一个异步方法 ft.CreateAsync 来创建索引。它接受三个参数:索引名称 indexName,一个 FTCreateParams 对象和一个 Schema 对象;
  • FTCreateParams 类提供了一些参数选项,用于指定索引的参数。这里使用 .On(IndexDataType.HASH)  方法来指定索引数据类型为哈希,并使用 .Prefix(prefix)  方法来指定索引数据的前缀;
  • Schema 类用于定义索引中的字段和字段类型。这里定义了一个标签字段(tag field)用于区分过虑数据。定义了一个文本字段(text field)用于存储原始数据,以及一个向量字段(vector field)用于存储经原始数据转化后的向量数据;
  • 使用了 VectorField.VectorAlgo.HNSW 来指定向量算法为 HNSW(Hierarchical Navigable Small World)。还传递了一个字典对象,用于设置向量字段的参数。其中,键为字符串类型,值为对象类型。

目前Redis支持两种相似度算法:

HNSW分层导航小世界算法,使用小世界网络构建索引,具有快速查询速度和小内存占用,时间复杂度为O(logn),适用于大规模索引。

FLAT暴力算法,它对所有的键值对进行扫描,然后根据键值对的距离计算出最短路径,时间复杂度为O(n),其中n是键值对的数量。这种算法时间复杂度非常高,只适用于小规模的索引。

3、添加向量到索引库

索引创建后,我们将数据添加到索引中。

public async Task SetAsync(string docId, string prefix, string tag, string content, float[] vector)
{
    await db.HashSetAsync($"{prefix}{docId}", new HashEntry[] {
        new HashEntry ("tag", tag),
        new HashEntry ("content", content),
        new HashEntry ("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
    });
}

SetAsync方法用于将一个具有指定文档ID、前缀、标签、内容及内容的向量存储到索引库中。并使用SelectMany()方法和BitConverter.GetBytes()方法将向量转换为一个字节数组

4、向量搜索

Redis 支持两种类型的向量查询:KNN查询和Range查询,也可以将两种查询混合使用。

KNN 查询

KNN 查询用于在给定查询向量的情况下查找前 N 个最相似的向量。

public async IAsyncEnumerable<(string Content, double Score)> SearchAsync(float[] vector, int limit)
{
    var query = new Query($"*=>[KNN {limit} @vector $vector AS score]")
                .AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
                .SetSortBy("score")
                .ReturnFields("content", "score")
                .Limit(0, limit)
                .Dialect(2);
    var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
    foreach (var document in result.Documents)
    {
        yield return (document["content"],Convert.ToDouble(document["score"]));
    }
}

这段代码的意思是:

创建一个查询对象 query,并设置查询条件。查询条件包括:

  • "*=>[KNN {limit} @vector $vector AS score]":使用KNN算法进行向量相似度搜索,限制结果数量为limit,使用给定的向量vector作为查询向量,将查询结果按照相似度得分进行排序
  • AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray()):将浮点数数组转换为字节数组,并将其作为查询参数传递给查询;
  • SetSortBy("score"):按照相似度得分对结果进行排序;
  • ReturnFields("content", "score"):将content和score两个字段从结果集中返回;
  • Limit(0, limit):限制结果集的起始位置为0,结果数量为limit;
  • Dialect(2):设置查询方言为2,即Redis默认的查询语言Redis Protocol;

调用异步搜索方法 ft.SearchAsync(indexName, query),并等待搜索结果;

遍历搜索结果集 result.Documents,将每个文档转换为 (string Content, double Score) 元组,并通过 yield 语句进行迭代返回。

Range 查询

Range查询提供了一种根据 Redis 中的向量字段与基于某些预定义阈值(半径)的查询向量之间的距离来过滤结果的方法。类似于 NUMERIC 和 GEO 子句,可以在查询中多次出现,特别是可以和 KNN 进行混合搜索。

public static async IAsyncEnumerable<(string Tag, string Content, double Score)> SearchAsync(string tag, float[] vector, int limit)
{
    var query = new Query($"(@tag:{tag})=>[KNN {limit} @vector $vector AS score]")
                .AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
                .SetSortBy("score")
                .ReturnFields("tag", "content", "score")
                .Limit(0, limit)
                .Dialect(2);
    var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
    foreach (var document in result.Documents)
    {
        yield return (document["tag"], document["content"], Convert.ToDouble(document["score"]));
    }
}

这段代码使用了KNN和Range混合查询,与上一段代码相比,新增了@tag参数,将限制结果仅包含给定标签的内容。这样做可以增加查询的准确性,提高查询效率。

5、从索引库中删除向量

public async Task DeleteAsync(string docId, string prefix)
{
    await db.KeyDeleteAsync($"{prefix}{docId}");
}

这个方法通过删除与指定向量相关联的哈希缓存键,来实现从索引库中删除指定向量数据。

6、删除向量索引库

public async Task DropIndexAsync()
{
    await ft.DropIndexAsync(indexName, true);
}

这个方法 await ft.DropIndexAsync接受两个参数: indexName 和 true 。indexName 表示索引库的名称, true 表示在删除索引时是否删除索引文件。

7、查询索引库信息

public async Task<InfoResult> InfoAsync()
{
    return await ft.InfoAsync(indexName);
}

通过 await ft.InfoAsync(indexName) 方法,我们可以获取到指定索引库的大小,文档数量等相关索引库信息。

完整 Demo 如下:

using NRedisStack;
using NRedisStack.Search;
using NRedisStack.Search.DataTypes;
using NRedisStack.Search.Literals.Enums;
using StackExchange.Redis;
using static NRedisStack.Search.Schema;
namespace RedisVectorExample
{
    class Program
    {
        //创建一个Redis连接
        static ConnectionMultiplexer mux = ConnectionMultiplexer.Connect("localhost");
        //获取一个Redis数据库
        static IDatabase db = mux.GetDatabase();
        //创建一个RediSearch客户端
        static SearchCommands ft = new SearchCommands(db, null);
        //索引名称
        static string indexName = "test:index";
        //索引前缀
        static string prefix = "test:data";
        static async Task Main(string[] args)
        {  
            //创建一个向量的索引
            await CreateIndexAsync();
            //添加一些向量到索引中
            await SetAsync("1", "A", "测试数据A1", new float[] { 0.1f, 0.2f });
            await SetAsync("2", "A", "测试数据A2", new float[] { 0.3f, 0.4f });
            await SetAsync("3", "B", "测试数据B1", new float[] { 0.5f, 0.6f });
            await SetAsync("4", "C", "测试数据C1", new float[] { 0.7f, 0.8f });
            //删除一个向量
            await DeleteAsync("4");
            //KUN搜索 
            await foreach (var (Content, Score) in SearchAsync(new float[] { 0.1f, 0.2f }, 2))
            {
                Console.WriteLine($"内容:{Content},相似度得分:{Score}");
            }
            //混合
            await foreach (var (Tag, Content, Score) in SearchAsync("A", new float[] { 0.1f, 0.2f }, 2))
            {
                Console.WriteLine($"标签:{Tag},内容:{Content},相似度得分:{Score}");
            }
            //检查索引是否存在
            var info = await InfoAsync();
            if (info != null)
                await DropIndexAsync(); //存在则删除索引
        }
        public static async Task CreateIndexAsync()
        {
            await ft.CreateAsync(indexName,
                new FTCreateParams()
                            .On(IndexDataType.HASH)
                            .Prefix(prefix),
                new Schema()
                            .AddTagField("tag")
                            .AddTextField("content")
                            .AddVectorField("vector",
                                VectorField.VectorAlgo.HNSW,
                                new Dictionary<string, object>()
                                {
                                    ["TYPE"] = "FLOAT32",
                                    ["DIM"] = 2,
                                    ["DISTANCE_METRIC"] = "COSINE"
                                }));
        }
        public static async Task SetAsync(string docId, string tag, string content, float[] vector)
        {
            await db.HashSetAsync($"{prefix}{docId}", new HashEntry[] {
                new HashEntry ("tag", tag),
                new HashEntry ("content", content),
                new HashEntry ("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
            });
        }
        public static async Task DeleteAsync(string docId)
        {
            await db.KeyDeleteAsync($"{prefix}{docId}");
        }
        public static async Task DropIndexAsync()
        {
            await ft.DropIndexAsync(indexName, true);
        }
        public static async Task<InfoResult> InfoAsync()
        {
            return await ft.InfoAsync(indexName);
        }
        public static async IAsyncEnumerable<(string Content, double Score)> SearchAsync(float[] vector, int limit)
        {
            var query = new Query($"*=>[KNN {limit} @vector $vector AS score]")
                        .AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
                        .SetSortBy("score")
                        .ReturnFields("content", "score")
                        .Limit(0, limit)
                        .Dialect(2);
            var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
            foreach (var document in result.Documents)
            {
                yield return (document["content"], Convert.ToDouble(document["score"]));
            }
        }
        public static async IAsyncEnumerable<(string Tag, string Content, double Score)> SearchAsync(string tag, float[] vector, int limit)
        {
            var query = new Query($"(@tag:{tag})=>[KNN {limit} @vector $vector AS score]")
                        .AddParam("vector", vector.SelectMany(BitConverter.GetBytes).ToArray())
                        .SetSortBy("score")
                        .ReturnFields("tag", "content", "score")
                        .Limit(0, limit)
                        .Dialect(2);
            var result = await ft.SearchAsync(indexName, query).ConfigureAwait(false);
            foreach (var document in result.Documents)
            {
                yield return (document["tag"], document["content"], Convert.ToDouble(document["score"]));
            }
        }
    }
}

到此这篇关于使用Redis实现向量相似度搜索的文章就介绍到这了,更多相关Redis向量相似度内容请搜索编程网(www.cppcns.com)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网(www.cppcns.com)!

您可能感兴趣的文档:

--结束END--

本文标题: 使用Redis实现向量相似度搜索

本文链接: https://www.lsjlt.com/news/366456.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 使用Redis实现向量相似度搜索
    目录什么是向量向量相似度搜索的基本原理Redis实现向量相似度搜索1、Redis Search安装2、创建向量索引库3、添加向量到索引库4、向量搜索5、从索引库中删除向量6、删除向量索引库7、查询索引库信息在自...
    99+
    2023-08-07
    Redis向量相似度搜索 Redis向量相似度 Redis相似度
  • php如何实现类似百度搜索功能
    这篇“php如何实现类似百度搜索功能”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“php如何实现类似百度搜索功能”文章吧。p...
    99+
    2023-07-05
  • AJax如何实现类似百度搜索栏的功能
    小编给大家分享一下AJax如何实现类似百度搜索栏的功能,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!实习过程中需要用到异步提交功能,于是试着去了解了一下ajax,...
    99+
    2023-06-08
  • 怎么用Redis实现搜索接口
    这篇文章主要为大家分析了怎么用Redis实现搜索接口的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随小编一起来看看,下面跟着小编一起深入学习“怎么用Redis实现搜索接口”的知识吧。对于后端开发人员来...
    99+
    2023-06-28
  • RiSearch PHP 与 Redis 的配合使用实现高速搜索
    摘要:在日常的开发中,搜索功能是非常常见的一个需求。传统的数据库搜索效率较低,不能满足高速搜索的要求。本文介绍了如何使用 RiSearch PHP 和 Redis 配合实现高速搜索功能,并提供了相关的代码示例。简介RiSearch PHP ...
    99+
    2023-10-21
    PHP redis RiSearch
  • 基于ChatGPT+词向量/词嵌入实现相似商品推荐系统
    最近一个项目有个业务场景是相似商品推荐,给一个商品描述(比如 'WIENER A/B 7IN 5/LB FZN' ),系统给出商品库中最相似的TOP 5种商品,这种单纯的推荐系统用词向量就可以实现,不过,这个项目特点是商品库巨大,有19万余...
    99+
    2023-10-12
    人工智能 推荐算法 chatgpt embedding
  • Python利用模糊哈希实现对比文件相似度
    对比两个文件相似度,python中可通过difflib.SequenceMatcher/ssdeep/python_mmdt/tlsh实现,在大量需要对比,且文件较大时,需要更高的效...
    99+
    2023-01-28
    Python对比文件相似度 Python对比相似度 Python 相似度
  • 如何使用批处理实现百度关键字搜索
    这篇文章将为大家详细讲解有关如何使用批处理实现百度关键字搜索,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。@echo off set a= set/p a...
    99+
    2023-06-09
  • VuePress使用Algolia实现全文搜索
    目录引言确认眼神申请授权实施部署调试爬取总结回顾引言 Algolia 为构建者提供构建世界级体验所需的搜索和推荐服务。Algolia 是一个数据库实时搜索服务,能够提供毫秒级的数据库...
    99+
    2024-04-02
  • 如何在Android中使用EditText实现批量搜索关键词
    如何在Android中使用EditText实现批量搜索关键词?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。当用户在EditText中输入内容,点击搜索按钮的时候,输入的内容能够...
    99+
    2023-05-31
    android edittext roi
  • 怎么使用Python实现搜索功能
    在Python中实现搜索功能通常使用内置的数据结构和算法来实现,以下是一个简单的例子: def search(arr, target...
    99+
    2024-03-02
    Python
  • 使用PyTorch实现随机搜索策略
    目录1. 随机搜索策略2. 使用 PyTorch 实现随机搜索算法1. 随机搜索策略 在本节中,我们将学习一种比随机选择动作更复杂的策略来解决 CartPole ...
    99+
    2024-04-02
  • 如何使用 PHP 实现搜索功能
    通过以下步骤实现 php 搜索功能:建立数据库连接定义搜索查询(使用 like 运算符)执行查询并获取结果显示搜索结果(按用户输入的搜索词筛选) 如何使用 PHP 实现搜索功能 搜索功...
    99+
    2024-05-02
    搜索 php mysql
  • Java利用广度优先搜索实现抓牛问题
    目录一、原问题链接二、输入和输出三、输入和输出样例四、代码五、测试一、原问题链接 http://poj.org/problemid=3278 二、输入和输出 1.输入 两个数,第1...
    99+
    2024-04-02
  • 如何使用html5实现语音搜索框
    这篇文章将为大家详细讲解有关如何使用html5实现语音搜索框,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 代码如下: <input type="te...
    99+
    2024-04-02
  • 如何在PHP中使用ElasticSearch实现搜索
    这篇“如何在PHP中使用ElasticSearch实现搜索”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“如何在PHP中使用E...
    99+
    2023-06-05
  • 如何使用批处理打开网页实现百度关键字搜索
    这篇文章给大家分享的是有关如何使用批处理打开网页实现百度关键字搜索的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。代码如下:@echo off set a= set/p&nb...
    99+
    2023-06-09
  • python中使用numpy包的向量矩阵相乘np.dot和np.matmul实现
    目录1.向量和矩阵2.向量和向量乘法1.* 对应对应位置相乘2.广播机制3.向量点乘np.dot3.矩阵和向量乘法1.对应位置相乘2.矩阵乘法4.矩阵矩阵乘法 1.直接相乘...
    99+
    2023-02-15
    numpy np.dot np.matmul numpy向量矩阵相乘
  • 使用JQuery模仿实现淘宝搜索效果
    最终实现效果如下 1、获取用户输入的搜索关键词 需要监听输入框的keyup事件 2、封装getSuggestList函数 发JSONP请求,获取内容 3、渲染建立列表的UI结构(...
    99+
    2024-04-02
  • 怎么使用PyTorch实现随机搜索策略
    本篇内容主要讲解“怎么使用PyTorch实现随机搜索策略”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么使用PyTorch实现随机搜索策略”吧!1. 随机搜索策略一种简单但有效的方法是将智能体...
    99+
    2023-07-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作