2021年9月2日

关于深网，就是不能从搜索引擎搜索到的公开内容
深网里大部分数据都是从数据库里面查询出来的结构化数据

实时数据(比如log)采集流程

采集log-》flume(装载工具)->kafka->spark/storm/flink(计算引擎)->存储rdbms(Relational Database Management System)/nosql-》处理-》展示

系统日志的采集工具

facebook的scribe
hadoop平台的chukwa
cloudera公司的flume
处理效率，每秒上百兆

标签的前端管理

离线数据的可视化等功能依赖Springboot+Vue.js搭建的前后端分离系统进行展示
而Hive和Druid的可视化查询功能，我们可以用Superset这个BI工具，
superset的搭建和使用参考：https://www.jianshu.com/p/b02fcea7eb5b