首页 > 资讯 > 后端开发 > Python >分布式之全面了解Kafka的使用与特性

137

分享到

分布式之全面了解Kafka的使用与特性

2024-04-02 19:04:59 137人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录引言1、面试官：可以简述下kafka架构中比较重要的关键字吗？那我们为什么要选择 Kafka 呢？ 2、面试官：那为什么Kafka的吞吐量远高于其他同类中间件？深入分析Kafka

引言

2020年，Kafka 依旧炙手可热，一线大公司即使不用Kafka，但是自研产品也都是基于Kafka，或者完全借鉴Kafka设计思想，理论上来说，如果你还没熟练掌握一个MQ 框架，Kafka绝对是不错的选择。

关于历史，如果你感兴趣了解一下，至少知道是哪个公司开源的，Kafka最初于2011年在 LinkedIn 开发，自那时起经历了很多改进，后来捐献给Apache基金，如今发展成为一个完整的平台，采用Scala和Java开发的开源流处理软件。

Kafka 是我工作多年使用最多的消息中间件，特点是拥有巨大吞吐量（数百万/秒），作为当下最流行的分布式，可水平扩展，可容错的“消息系统”。

1、面试官：可以简述下Kafka架构中比较重要的关键字吗？

比如Partition，Broker，你都是怎么理解的？

问题分析：Kafka基础知识考察，因为Kafka出色的性能，在集群结构上也有所不同，一些新的概念设计名字初学者可能搞不懂，构建一个 Kafka cluster 首先需要理解 topics, producers, consumers, and brokers 的概念。

答：关于Kafka我做了一些深入了解，它的设计思路还是很值得借鉴的，这其中有6个比较关键的名字概念，弄懂这几个概念才能更好地了解Kafka的工作机制。

Producer
消息的生产方，如支付系统确认用户已经支付，支付系统要通知订单系统和物流系统，支付系统就是生产者。

Consumer
消费的接收方，Producer 的案例中，物流系统就是消费方，前两个都比较简单，我就不多说了。

Topic
每条发布到MQ集群的消息都有一个类别，这个类别被称为topic，可以理解成一类消息的名字。所有的消息都已topic作为单位进行归类。

Partition
Kafka 物理上分区的概念，每个 Topic 会分散在一个或多个 Partition。一个 Topic 的数据太大了，就分成小片，Kafka 为分区引入多副本模型，副本之间采用“一个leader多follower”的设计，通过多副本实现故障自动转移，保证可用性。

Broker：
可以理解成一个服务器的节点，集群包含一个或多个服务器，这种服务器被称为 broker。对应用来说，生产者把消费发出去了，就不管了。消费者慢条斯理地按照自己的速率来消费。这段时间可能有大量消息产生，消费者压力还是在一定范围内。做生产者和消费者之间解耦的就是一个缓存服务broker。

Kafka Cluster

集群就是 Broker 的集合，多个 Broker 组成一个高可用集群。

Producer 与 Consumer的关系

图片描述

topic 和 Partition 的关系

一个 topic 可以分别存储到多个 Partition，每个 Partition 有序的。

图片描述

到这里面试官并没有打断我… 我就继续了。

那我们为什么要选择 Kafka 呢？

1.这里不再列举同类产品都具有的功能，直接总结干货，Kafka 特有的功能：

2.相比同类中间件 RabbitMQ or ActiveMQ，Kafka 支持批量拉取消息，大大增加了Kafka的消息吞吐量。

支持多种发送场景：

1.发送并忘记。

2.同步发送。

3.异步发送+回调函数。

3种方式虽然在时间上有所差别，但并不是说时间越快的越好，具体使用哪种方式要看具体的业务场景，比如业务要求消息必须是按顺序发送，可以使用第2种同步发送，并且只能在一个partation上。如果业务只关心消息的吞吐量，容许少量消息发送失败，也不关注消息的发送顺序，那么可以使用发送并忘记的方式。如果业务需要知道消息发送是否成功，并且对消息的顺序不关心，那么可以用异步+回调的方式来发送消息

3.分布式可高可扩展。Kafka 集群可以透明的扩展，增加新的服务器进集群。

只说了 Kafka 的优势，那别的同类产品就不好了吗？当然不是，存在即真理，每个产品能生存下来，一定有它自己的优势，比如 RabbitMQ，在吞吐量方面稍逊于 Kafka ，但是他们的出发点不一样，RabbitMQ 支持对消息的可靠的传递，支持事务，不支持批量的操作，技术选型中，选择最适合你的，你最了解熟悉的。

分布式	高性能	持久性和扩展性
支持多分区	高吞吐量	数据可持久化
支持多副本	低延迟	容错性高
支持多订阅者	高并发	支持水平在线扩展
基于ZooKeeper调度	时间复杂度为O(1)	消息分发自动平衡

言多必失，说了一堆 Kafka 相比其他产品有多好多快，终于成功给自己挖了一个坑。（?），顺着我的思路展开了问

2、面试官：那为什么Kafka的吞吐量远高于其他同类中间件？

问题分析：多年经验总结，面试中最吃亏的就是你把你不熟悉的东西写在简历上，还有就是你知道结果，不知其原理，源码没看过，好歹也要知道用了巧妙的设计。

答：Kafka 是一个高吞吐量分布式消息系统，并且提供了持久化。其高性能的有两个重要特点：

1.利用了磁盘连续读写性能远远高于随机读写的特点，内部采用消息的批量处理，zero-copy机制，数据的存储和获取是本地磁盘顺序批量操作，具有O(1)的复杂度，消息处理的效率很高。

2.并发，将一个topic拆分多个partition， kafka读写的单位是partition，因此，将一个topic拆分为多个partition可以提高吞吐量。但是，这里有个前提，就是不同partition需要位于不同的磁盘（可以在同一个机器）。如果多个partition位于同一个磁盘，那么意味着有多个进程同时对一个磁盘的多个文件进行读写，使得操作系统会对磁盘读写进行频繁调度，也就是破坏了磁盘读写的连续性。
在linkedlin的测试中，每台机器就加载了6个磁盘，并且不做ra，就是为了充分利用多磁盘并发读写，又保证每个磁盘连续读写的特性。

图片描述

同一个topic会被分散到多个分片上，并行处理。

深入分析

Kafka 消息的生产与消费模型Demo

伪代码：使用KafKa客户端发送一条消息


public class MqProducer {
    private final Logger LOG = LoggerFactory.getLogger(MqProducer.class);
 
    @Resource
    private Producer payProducer;
 
    public void sendPayMsg(String msg) {
        try {
            LOG.debug("send msg:{}", msg);
            payProducer.send(msg);//发送出去一条消息。
        } catch (MQException e) {
            LOG.error("mq消息异常 message:{}", msg, e);
        }
    }
}

长什么样子？

即payProducer.send(msg)里的msg的值：


{"businessType":1,"cityId":10,"ctime":1567426767077,"dataKey":20190902,"logType":1,"phone":"13212341234","uid":12345678,"userType":1,"uuid":"32EA02C86D78863"}

无论消息长短，都可以看作一个JSON串，用 key-value的形式传递信息。

伪代码：接收一条消息


public class DemoConsumer {
 
    
    private static IConsumerProcessor consumer;
 
    public static void main(String[] args) throws Exception {
        Properties properties = new Properties();
            properties.setProperty(ConsumerConstants.SubscribeGroup, "dache.risk.log.queue.v2");
 
        // 创建topic对应的consumer对象（注意每次build调用会产生一个新的实例）
        consumer = KafkaClient.buildConsumerFactory(properties, "topic.xxx.xxx");
 
        // 调用recvMessageWithParallel设置listener
        consumer.recvMessageWithParallel(String.class, new IMessageListener() {
            @Override
            public ConsumeStatus recvMessage(Message message, MessagetContext context) {
                //TODO:业务侧的消费逻辑代码
                try {
                    System.out.println("message=[" + message.getBody() + "]  partition=" + message.getParttion());
                } catch (Exception e) {
                    e.printStackTrace();
                }
              
                return ConsumeStatus.CONSUME_SUCCESS;
            }
        });
       
    }
}

附录：消息管理工具

如果你们刚刚搭建起Kafka集群，还没有完备的页面管理系统，你不妨了解一下这几款开源工具，给领导展示一下解决问题的能力。

为了简化开发者和服务工程师维护 Kafka 集群的工作，基于页面的管理工具必不可少。

常用 Kafka 开源管理工具：

Kafka Manager ：由 yahoo 团队开发。使用可参考：https://GitHub.com/yahoo/kafka-manager

图片描述

Kafka Lens：开源项目，允许开发人员在通过代理传递消息时查看消息，也可以按分区过滤消息。

参考：Https://github.com/kafka-lens/kafka-lens

图片来源：Kafka Lens

Kafka Monitor ：测试和监视Kafka集群，而不需要对应用程序进行任何更改。
使用参考：https://github.com/linkedin/kafka-monitor

总结

Kafka架构关键字：

Producer
Consumer
Topic
Partition
Broker
Kafka Cluster

每一个关键词都值得你深入研究，让面试官看到你的亮点吧。

Kafka的性能为何如此优秀：一句话总结：得益于架构采用分布式并行处理，利用磁盘顺序IO批处理。

参考资料

Kafka官网

Thorough Introduction to Apache Kafka

如果你想系统了解下Kafka，可以推荐一本书《深入理解Kafka：核心设计与实践原理》，微信读书就可以免费阅读。

到此这篇关于分布式之全面了解Kafka的使用与特性的文章就介绍到这了,更多相关Kafka的使用内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 分布式之全面了解Kafka的使用与特性

本文链接: https://www.lsjlt.com/news/158555.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

分布式之全面了解Kafka的使用与特性

目录引言1、面试官：可以简述下Kafka架构中比较重要的关键字吗？那我们为什么要选择 Kafka 呢？ 2、面试官：那为什么Kafka的吞吐量远高于其他同类中间件？深入分析Kafka...

99+

2024-04-02
Kafka的使用与特性怎么理解

这篇文章主要讲解了“Kafka的使用与特性怎么理解”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Kafka的使用与特性怎么理解”吧！1、面试官：可以简述下Kafka架构中比较重要的关键字吗？...

99+

2023-06-21
JavaScript 的分布式特性：如何与 Python 配合使用？

JavaScript 是一门广泛应用于前端开发的编程语言，但是，它也具备着分布式系统的特性。在实践中，我们经常需要使用多种编程语言来构建分布式系统，其中 Python 作为一门流行的后端语言，可以与 JavaScript 配合使用，来实现更...

99+

2023-08-21

分布式 javascript windows
Go1.18新特性之泛型的全面讲解

目录序1. 一切从函数的形参和实参说起2. Go的泛型3. 类型形参、类型实参、类型约束和泛型类型3.1 其他的泛型类型3.2 类型形参的互相套用3.3 几种语法错误3.4 特殊的泛...

99+

2023-03-09

Golang 泛型使用 Golang 泛型 Go 泛型
java分布式面试降级组件Hystrix的功能特性

目录引言1、面试官：能简单介绍下Hystrix有哪些功能吗？1.1、fail-fast（快速失败）1.2、Fallback优雅降级机制1.3、线程/信号量隔离机制线程隔离：信号量隔离...

99+

2024-04-02
分布式事务seata详解与使用

往期文章用最简单的话讲最明白的红黑树条件注解@ConditionalOnClass原理数据结构 - 堆与堆排序文章目录往期文章一、介绍1、整体机制2、原理3、写隔离4、读隔离5、AT模式...

99+

2023-10-20

分布式数据库 mysql
Java8新特性之Lambda表达式的使用

目录1. lambda表达式介绍2. lambda表达式的重要特征3. lambda表达式对域外变量的限制4. lambda表达式的优缺点5. lambda表达式的使用场景1. la...

99+

2024-04-02
分布式系统中的 Python 与 Windows：如何实现安全性与可靠性？

随着分布式系统的不断普及，Python和Windows在这个领域中扮演着重要的角色。然而，如何在分布式系统中实现安全性与可靠性，是一个需要解决的重要问题。本文将介绍如何使用Python和Windows来实现分布式系统的安全性和可靠性。一、...

99+

2023-08-21

分布式 javascript windows
C#特性AttributeUsage的理解与使用

AttributeUsage是一个特性类，用于定义自定义特性在代码中的使用方式。它具有以下属性：- AllowMultiple：指...

99+

2023-09-01

C#
熟练掌握Java8新特性之Stream API的全面应用

1.写在前面关于Stream API的内容，已经基本上说完了。大家可以参考我的这两篇文章：深入理解Java8新特性之Stream API的创建方式和中间操作步骤、深入理解Java...

99+

2024-04-02
Java全方位讲解面向对象特点与使用

目录面向过程和面向对象的区别类和对象的关系类和对象的创建类的创建对象的创建构造器构造器重载this的使用static修饰代码块包（import）面向过程和面向对象的区别面向过程：当...

99+

2024-04-02
特定用例下的Combine全面使用详解

目录引言网络URLSession ExtensionCodable向多个 Subscriber 发布网络数据调试打印事件执行副作用使用 Debugger OperatorTimer使...

99+

2022-12-26

Combine 特定用例 Combine 用例
C语言编译器全面解析：五个你应该了解的关键特性

C语言编译器全面解析：五个你应该了解的关键特性引言：C语言是一种常用的高级编程语言，而编译器是将C语言源代码转换为计算机目标代码的关键工具。了解C语言编译器的特性对于程序员来说非常重...

99+

2024-02-23

全面解析 c语言编译器关键特性
全面分析Java方法的使用与递归

目录java中方法的使用什么是方法方法的定义与使用方法如何进行调用及其方法调用过程方法的形参和实参方法重载方法签名递归java中方法的使用什么是方法举一个日常生活中的例子，比如我...

99+

2024-04-02
Python函数参数分类使用与新特性详细分析讲解

目录参数分类一，定义与使用角度二，传参方式角度1，位置参数2，默认参数3，可变参数4，关键字参数三，参数新特性1，仅位置参数2，仅关键字参数（命名关键字参数）函数参数看似很平常，在深...

99+

2023-01-28

Python函数参数分类 Python函数参数特性
详解redis分布式锁(优化redis分布式锁的过程及Redisson使用)

目录1. redis在实际的应用中2.如何使用redis的功能进行实现分布式锁2.1 redis分布式锁思想2.1.1设计思想：2.1.2 根据上面的设计思想进行代码实现2.2 使用...

99+

2024-04-02
分布式系统中的应用与挑战：Golang的角色与局限性

Golang在分布式系统中的应用与挑战，需要具体代码示例随着互联网技术的发展，分布式系统已经成为了构建高可用、高性能、高容错的系统的重要途径。而Golang作为一种支持并发、高性能、内存安全的编程语言，也被...

99+

2024-01-16

Golang 分布式系统应用与挑战
阿里云服务器服务费全面了解与合理使用

随着互联网技术的不断发展，服务器服务已经成为众多企业和个人的重要工具。其中，阿里云服务器因其稳定、高效、安全等特点，受到了广大用户的一致好评。然而，关于阿里云服务器的服务费，很多人还不是很了解。本文将对阿里云服务器服务费进行全面的介绍，帮助...

99+

2023-11-06

阿里服务费服务器
分布式系统中的GO语言应用，你了解吗？

随着互联网技术的不断发展，分布式系统已经成为了当今互联网领域发展的趋势，而GO语言作为一种新兴的编程语言，也在分布式系统中逐渐成为了热门选择。 GO语言是一种并发编程语言，它具有轻量级线程，能够实现高并发，同时还具有自动垃圾回收等优点。这...

99+

2023-06-29

分布式面试教程
Java在分布式系统中的应用，你了解多少？

随着互联网技术的不断发展，分布式系统已经成为了现代计算机领域的一个重要研究方向。而在分布式系统中，Java作为一种高性能、跨平台的编程语言，也得到了广泛的应用。本文将介绍Java在分布式系统中的应用，帮助读者更好地理解Java在分布式系统...

99+

2023-08-31

分布式 linux path