hdfs和mysql有什么区别?大数据离线数据存储在mysql还是hdfs比较好?
1、这区别可大了,不是一个概念。mysql是传统的关系型数据库。hdfs是nosql hadoop的存储方式。hdfs是分布式的自带高可用存储,文件格式跟mysql的存储引擎不一样。
2、hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中;数据格式不同:hive数据格式可以用户自定义,mysql有自己的系统定义格式;数据更新不同:hive不支持数据更新,只可以读,不可以写,而sql支持数据更新。
3、设计目标不同:Hive是Apache基金会的开源项目,主要用于大数据的查询与分析,它提供的是一种类SQL的查询语言——HiveQL,使得熟悉SQL的用户可以快速上手;而MySQL则是一种关系型数据库管理系统,主要用于存储、处理以及检索数据。
4、HDFS与关系型数据库在设计和用途上存在显著差异。HDFS主要用于存储和处理非结构化或半结构化的大数据,如日志文件、社交媒体数据等,这些数据不适合直接存储在关系型数据库中。而关系型数据库则更侧重于结构化数据的存储和查询,支持复杂的数据关系、事务处理和索引功能。
5、日志数据,包括用户所有线上行为数据,浏览,搜索,点击等,存储在HDFS上 这类数据,相比订单和支付数据,规模要成10倍-1000倍增长。比如,我浏览10个店铺宝贝才转化一个订单数据。但该类数据,不会要求太多性能和苛刻的准确性,甚至可以容忍丢小部分日志数据。这部分数据,会放到HDFS上来存储。
6、HDFS(Hadoop Distributed File System)不是关系型数据库。它是一个分布式文件系统,设计用于在大型分布式环境中存储和管理大量数据。HDFS被Hadoop生态系统广泛使用,用于处理大数据任务,如数据分析和机器学习。