실시간으로 하둡에 연동하는 흥미로운 오픈소스 소개합니다.
PostgreSQL의 Logical Replication을 응용하여 변경된 데이터를 Apache Kafka로 전송하고
Kafka를 통해 Hadoop에 sink하는 구조입니다.
PostgreSQL 9.4부터 적용된 Logical decoding 기능을 이용해서 xlog를 JSON String Type으로 변환한 후
스트리밍 데이터로 활용하고 있습니다.
extension을 이용한 SQL 함수로 전송데이터 테이블을 선택할 수도 있네요
https://github.com/experdb/bwcontrol
https://github.com/experdb/bottledwater-pg