登录 |  注册
首页 >  面试合集 >  Java面试宝典(第三部分·高级) >  kafka 可以脱离 zookeeper 单独使用吗?为什么?

kafka 可以脱离 zookeeper 单独使用吗?为什么?

kafka 可以脱离 zookeeper 单独使用吗?为什么?

不可以,kafka必须要依赖一个zookeeper集群才能运行。kafka系群里面各个broker都是通过zookeeper来同步zhuantopic列表以及其shu它broker列表的,一旦连不上zookeeper,kafka也就无法工作。


1. Zookeeper和Kafka各自的基本功能

Zookeeper在分布式环境中的管理和协调方面可以充当杠杆,以管理更大的主机集。在大型集群中这是非常棘手且复杂的问题,因为连接了更多数量的节点,并且需要按需水平扩展。例如,一个Hadoop集群一旦数据量增加,新的DataNodes插件就会插入,需要在数据块上进行更多的复制的等等。

除了Hadoop,它还用于其他Apache项目中,例如HBase,Solr,CXF DOSGi等。Zookeeper在分布式协调服务中起着关键作用,并被用于存储共享配置、选举主节点等用例中。为了实现同步、序列化和协调,Zookeeper将分布式系统作为一个单元保持在一起以简化操作。Zookeeper负责解决竞赛情况、死锁、分布式应用程序中的部分故障问题。Zookeeper的序列化使用同步属性消除了集群中的争用条件,随后便消除了死锁问题。

Kafka是一个企业信息系统,具有构建用于实时流传输的数据管道功能。Apache Kafka起源于LinkedIn,后来在2011年成为开源Apache项目。此外,Kafka以容错的方式存储记录数据流。一般来说,没有Kafka任何与大数据相关的项目都无法完成,因为Kafka通过分布式发布订阅模型来处理HDFS中的数据摄取。

Kafka在一个或多个服务器上作为群集运行,并将数据流存储在主题中,然后最终通过Flume或其他自定义应用程序被HDFS使用。通过结合Kafka的三个主要功能,即消息系统、存储系统和流处理,将其指定为分布式流平台。

2.为什么Kafka目前没有Zookeeper不能独立工作?

经纪人是Kafka集群的骨干,并负责从生产者到消费者的接收,存储和发送消息。它是Kafka集群中的一个实例。简而言之,经纪人组通过直接或间接共享信息来创建Kafka集群。但是如果没有Zookeeper,群集中的每个代理都无法执行此操作。此外,生产者还利用Zookeeper来查找经纪人的信息,并将其发布到各处。

同样,消费者也需要经纪人的消费信息。实际上,位于代理内部的主题接受生产者和消费者从中读取的消息。Kafka将基本元数据存储在Zookeeper中,例如主题、Kafka集群实例列表、消息使用者等。

kafka.jpg

Zookeeper成为Kafka更新集群中拓扑更改的领导者。根据Zookeeper提供的通知,生产者和消费者发现整个Kafka群集中是否存在任何新代理或代理失败。随后,生产者和消费者决定与哪些经纪人进行通信以开始他们的任务。因此,如果我们在没有Zookeeper的情况下安装和配置Kafka,Kafka的任何功能都不会激活。因此,最终我们可以说Kafka是Zookeeper的寄生虫。

3.Kafka与Zookeeper的陷阱

Zookeeper完全是一个独立的系统,具有自己的配置文件语法、管理工具和部署模式。要管理和部署两个独立的分布式系统,并最终启动和运行Kafka集群,必须具有丰富的经验。同时管理两个系统的人员应具有足够的故障排除信息,以找出两个系统中的问题。

可能会使Zookeeper的配置文件出错,从而导致Kafka群集崩溃。因此,在没有Zookeeper的情况下拥有Kafka管理专业知识将无法帮助你摆脱危机,尤其是在Zookeeper在完全隔离的环境(云)上运行的生产环境中。即使设置和配置用于学习和研发的单节点Kafka集群,我们也离不开Zookeeper。

4.没有Zookeeper的Kafka拟议高级架构

在Kafka群集中引入控制器仲裁将取代Zookeeper的依赖关系。目前,Kafka集群中的一个代理通过担负管理分区、副本、管理任务(如重新分配分区)的职责而充当控制器。在提出的体系结构中,运行控制器的节点将承担管理元数据日志的额外责任。

kafka.jpg

Kafka与Zookeeper解体

kafka.jpg

Kafka与Zookeeper解体

这些日志将包含有关群集元数据中每个更改的信息。当前,Zookeeper存储从主题、分区、ISR、配置开始的所有内容。通过利用Raft算法并且不依赖任何外部系统,控制器节点将在他们之间选择一个领导者。元数据日志的领导者将被表示为活动控制器。

上一篇: RabbitMQ 对集群节点停止顺序有要求吗?
下一篇: kafka 有几种数据保留的策略?(清除消息策略)
推荐文章
  • 雪花算法(Snowflake)是由Twitter开发的一种分布式ID生成算法,旨在为分布式系统提供一种简单而有效的方式,以生成全局唯一、有序且可排序的64位整数ID。这种ID通常用作数据库记录的主键或其他需要唯一标识符的场景。雪花算法生成的64位ID结构如下:最高位(第64位):固定为0,因为64位
  • 在HTML中,如果你想让一个输入框(input元素)不可编辑,你可以通过设置其readonly属性来实现。示例如下:input type="text" value="此处内容不可编辑" readonly在上述代码中,readonly属性使得用户无法修改输入框中的内容。另外,如果你希望输入框完全不可交
  • ASP.NET教程ASP.NET又称为ASP+,基于.NETFramework的Web开发平台,是微软公司推出的新一代脚本语言。ASP.NET是一个使用HTML、CSS、JavaScript和服务器脚本创建网页和网站的开发框架。ASP.NET支持三种不一样的开发模式:WebPages(Web页面)、
  • C# 判断判断结构要求程序员指定一个或多个要评估或测试的条件,以及条件为真时要执行的语句(必需的)和条件为假时要执行的语句(可选的)。下面是大多数编程语言中典型的判断结构的通常形式:判断语句C#提供了以下类型的判断语句。点击链接查看每个语句的细节。语句描述if语句一个 if语句 由一个布尔表达式后跟
  • C#循环有的时候,可能需要多次执行同一块代码。通常情况下,语句是顺序执行的:函数中的第一个语句先执行,接着是第二个语句,依此类推。编程语言提供了允许更为复杂的执行路径的多种控制结构。循环语句允许我们多次执行一个语句或语句组,下面是大多数编程语言中循环语句的通常形式:循环类型C#提供了以下几种循环类型
  • C#数组(Array)数组是一个存储相同类型元素的固定大小的顺序集合。数组是用来存储数据的集合,一般认为数组是一个同一类型变量的集合。声明数组变量并不是声明number0、number1、...、number99一个个单独的变量,而是声明一个就像numbers这样的变量,然后使用numbers[0]
学习大纲