

大数据量下的数据修复与回写Spark on Hive 的大数据量主键冲突排查:COUNT(DISTINCT) 的陷阱
本文总结了大表数据(日均五六千万)处理中的去重优化和资源调优经验。Hive入库阶段通过distinct()、dropDuplicates()、开窗函数等多重去重策略确保数据唯一性。Hive到Oracle迁移时发现NULL值导致主键冲突和资源不足问题,通过NULL值预处理和调整Executor配置(最终采用45G内存)解决。关键经验包括:早期处理NULL值、渐进式资源调优、多维度监控指标及详细文档记录。作者强调大数据问题需综合考虑数据特性、处理逻辑和集群资源,并建议建立系统的参数调优知识库以提高处理效率。
