KSQLDB 개요

SQL 만으로 쉽게 streaming 데이터의 가공/ 변환/ 분석 수행

streams 라이브러리를 통해 제공하는 단 한번의 데이터 처리, 장애 허용 시스템 등의 특징들은 컨슈머와 프로듀서 조합만으로 완벽하게 구현 어려움
source topic, sink topic이 다른 카프카 클러스터인 경우 streams 지원하지 않으므로 producer, consumer 사용

스트림즈 DSL과 프로세서 API 2가지 방법으로 개발 가능
스트림즈 DSL은 KTable, KStream 활용
프로세서 API는 스트림즈 DSL에서 제공하지 않는 기능, 로직을 Processor 차원의 투박한 코드로 구현 가능
- 스트림즈 DSL의 KTable, KStream 등 개념이 없음

kafka의 분산 처리 핵심은 topic의 partition임
rocksDB는 분산 DB가 아니기 때문에 여러 개의 partition 들이 있을 경우 rocksDB는 개별 partition 별로 구동됨
streams / ksqlDB 작업 시 partition 별로 rocksDB instance가 생성되어 구동되며 개별 rocksDB는 서로 관여하지 않음

단일 ksqlDB는 하나의 process로 구성됨
CLI 등으로 SQL이 ksqlDB에서 수행될 떄 해당 SQL이 topology로 재구성됨
topology는 ksqlDB가 수행해야 할 task로 부여되어 thread가 할당되어 수행됨
topology는 입력 topic의 partition 수에 따라 sub-topology로 만들어지고 이들이 개별 task로 할당됨
- partition의 개수가 3개인 경우 task도 3개
ksqlDB에서 일반적으로 task별로 stream thread가 할당되어 작업되나 task 개수가 최대 thread 개수를 초과 시 1개의 stream thread가 여러 개의 task를 수행할 수 있음
개별 stream task를 수행하는 개별 stream thread들은 서로 데이터를 주고 받지 않음
ksql.streams.num.stream.threads로 SQL 수행 시 할당되는 threads의 최대 개수를 지정

1) zookeeper 기동
2) kafka 기동
3) schema registry
4) ksqlDB 기동

bootstrap.servers = localhost:9092
ksql.schema.registry.url = http://localhost:8081