Oi Abelardo, tudo bem?
Bom, acho que posso passar alguns detalhes sim. Por enquanto estamos usando o ArangoDB tanto para data lake quanto para serving layer. Ele nos ajudou com a prova de conceito do negócio pois oferece persistência em grafos e documentos ao mesmo tempo, assim nosso "data lake" esta armazenado em documentos não estruturados e a serving layer esta usando os grafos. Futuramente vamos migrar pelo menos o data lake para uma ferramenta mais apropriada, como um Kafka.
O objetivo da ferramenta de ETL neste caso é organizar e orquestrar as tarefas de consumo e processamento de dados, tanto para a ingestão dos dados no data lake (dados brutos não processados) quanto na criação/atualização da serving layer (dados processados e enriquecidos).
Chegamos ao Luigi e AirFlow pois preferimos ferramentas em Python que possam ser programadas e não apenas configuradas. Temos pessoal de Java na equipe, que poderiam cuidar do PDI ou outra solução Java, mas são minoria e por isso a preferencia por uma solução Python.
Um abraço!