【摘要】目录
整合 Kafka
说明
Kafka特定配置
KafkaSoure
1.消费一个Topic数据
2.消费多个Topic数据
3.消费通配符匹配Topic数据
KafkaSink

整合 Kafka
说明
http://spark.apache.org/docs/2.4.5/structured-streami…

整合 Kafka

说明

http://spark.apache.org/docs/2.4.5/structured-streaming-kafka-integration.html

Apache Kafka 是目前最流行的一个分布式的实时流消息系统，给下游订阅消费系统提供了并行处理和可靠容错机制，现在大公司在流式数据的处理场景，Kafka基本是标配。

Structured Streaming很好的集成Kafka，可以从Kafka拉取消息，然后就可以把流数据看做一个DataFrame，一张无限增长的大表，在这个大表上做查询，Structured Streaming保证了端到端的 exactly-once，用户只需要关心业务即可，不用费心去关心底层是怎么做的StructuredStreaming既可以从Kafka读取数据，又可以向Kafka 写入数据

添加Maven依赖：



      dependency>

                  <groupId>org.apache.spark</groupId>

                  <artifactId>spark-sql-kafka-0-10_2.11</artifactId>

                  <version>${spark.version}</version>

      </dependency>

  

                    
        
© 版权声明
文章版权归作者所有，未经允许请勿转载。
THE END
人工智能