2021年大数据Spark(四十九):Structured Streaming 整合 Kafka

【摘要】 目录
整合 Kafka
说明
Kafka特定配置
​​​​​​​KafkaSoure
1.消费一个Topic数据
2.消费多个Topic数据
3.消费通配符匹配Topic数据
​​​​​​​KafkaSink

​​​​​​​整合 Kafka
说明
http://spark.apache.org/docs/2.4.5/structured-streami…

目录

整合Kafka

说明

Kafka特定配置

​​​​​​​KafkaSoure

1.消费一个Topic数据

2.消费多个Topic数据

3.消费通配符匹配Topic数据

​​​​​​​KafkaSink


​​​​​​​整合 Kafka

说明

http://spark.apache.org/docs/2.4.5/structured-streaming-kafka-integration.html

Apache Kafka 是目前最流行的一个分布式的实时流消息系统,给下游订阅消费系统提供了并行处理和可靠容错机制,现在大公司在流式数据的处理场景,Kafka基本是标配。

Structured Streaming很好的集成Kafka,可以从Kafka拉取消息,然后就可以把流数据看做一个DataFrame, 一张无限增长的大表,在这个大表上做查询,Structured Streaming保证了端到端的 exactly-once,用户只需要关心业务即可,不用费心去关心底层是怎么做的StructuredStreaming既可以从Kafka读取数据,又可以向Kafka 写入数据

添加Maven依赖:


dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql-kafka-0-10_2.11</artifactId>
<version>${spark.version}</version>
</dependency>

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享