hadoop fs -put 做增量上传

最新推荐文章于 2026-06-25 15:38:31 发布

原创最新推荐文章于 2026-06-25 15:38:31 发布 · 1.1w 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

大数据

当前文章被收录于：

大数据

8 篇文章 0 人学习

订阅专栏查看详情

hadoop

当前文章被收录于：

hadoop

1 篇文章 0 人学习

订阅专栏查看详情

当前文章被以下社区和专栏收录：

本文介绍了一种跨区域数据迁移的策略，通过先将数据从A地区AmazonS3同步到B地区AmazonS3，再上传至B地区HDFS集群的方法，有效解决了因公网连接不稳定导致的数据传输问题。文章详细描述了利用hadoopfs-put命令实现数据搬运的过程，并指出了如何避免重复文件的覆盖上传。

最近遇到一个case，对按照每个小时对数据从A地区的s3数据区搬运到B地区的集群上，整个流程如下：

A地区Amazon S3数据区->B地区Amazon S3数据区->B地区服务器缓存区->B地区HDFS集群。

由于A地区的公网连接不稳定，所以先同步到B地区的Amazon S3数据区在上传到HDFS中。
将B地区服务器缓存区的数据全部hadoop fs -put就可以了，当文件路径和文件名完全相同的时候，不会进行覆盖，而文件路径和文件名不相同的时候才会上传。

当然，如果要强制覆盖也是可以的，使用如下命令就可以了
hadoop fs -put -f 本地文件 hdfs文件

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

coding如逆水行舟

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hadoop的shell常用命令

weixin_41267342的博客

04-05

2757

hadoop脚本命令开始位置有两种写法：hadoop fs 和hdfs dfs,其中hdfs dfs为hadoop1中命令，在hadoop2和hadoop3中也可以用，hadoop fs为hadoop2和hadoop3中命令。以下文章中的中括号（[]）表示为可选项，可加可不带，中括号中字母或单词有特殊功能和含义。 1、-ls: （1）hadoop fs -ls<arg...

Hadoop常见命令完整版

行走的数据智能

09-11

2440

1、列出根目录下所有的目录或文件 hadoop fs -ls / 2、列出/user目录下的所有目录和文件 Hadoop dfs -ls /user 3、列出/user目录及其子目录下的所有文件（谨慎使用） hadoop dfs -ls -R /user 4、创建/soft目录 hadoop dfs -mkdir /soft 5、创建多级目录 had...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop的基础操作_hadoop常用操作

2401_84181704的博客

04-11

1349

83581)][外链图片转存中…(img-rSdchnZV-1712839283582)]

Hadoop shell

royesir的专栏

07-19

1381

<br /><br />1 Hadoop shell<br />1.1 引言<br />调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/pa

Hadoop集群报错解决及hadoop fs 的常用操作

无求道贾的博客

03-23

8917

Hadoop集群通用报错解决及hadoop fs 的常用操作，hdfs下的增删改查。

shell编程

一颗奶球的博客

05-20

129

读了别人的脚本后遇见不懂的点笔记总结 curl 常见用法 hadoop fs -put 做增量上传 shell 里 awk print 用法 hadoop shell 命令

hadoop-hdfs写数据详细流程

xiaoxi_hahaha的博客

11-13

342

客户端写数据的流程（重点）（1）客户端向namenode发送上传文件的请求（hadoop fs -put xxx xxx）,namenode对要上传的目录（是否存在）和文件（是否存在）和权限进行检查，如果检查通过，则响应客户端可以上传，否则，拒绝客户端上传。（2）客户端得到上传文件的允许后读取客户端配置（配置文件，比如hdfs-site.xml可修改replication，也可以修改块大小（hadoop-2.7.2默认128M）,副本数是由客户端决定的）。客户端...

Hadoop实战手册：从本地伪分布到3节点集群的踩坑指南

最新发布

weixin_30402343的博客

06-25

394

Hadoop作为大数据基础设施的核心，其本质是围绕HDFS分布式存储、MapReduce计算模型和YARN资源调度构建的协同系统。理解HDFS的块复制机制与NameNode元数据管理，是避免磁盘空间误判和safemode陷阱的关键；掌握MapReduce的Shuffle阶段磁盘缓冲原理，能精准定位90%的性能卡顿；而YARN的DominantResourceCalculator配置，则直接决定CPU与内存资源的真实隔离效果。这些技术细节共同支撑起日志分析、数仓底座、Spark on YARN等典型应用场景。

Elasticsearch备份与恢复机制详解

weixin_42603332的博客

01-17

182

深入探讨elasticsearch的备份与恢复策略，涵盖快照原理、仓库配置及实际操作步骤，确保数据安全可靠。通过elasticsearch的自动化机制，提升系统容灾能力。

分布式计算系统课堂笔记

YESSS__的博客

03-02

212

（2）多样化（来源多（搜索引擎、社交网络、通话记录、传感器...）、格式多（结构化的数据、非结构化的数据）半结构化数据：具有一定的层次结构，介于结构化数据与非结构化数据之间（json文件、xml文件、电子邮件）TB 太字节 1TB=1024GB 数据库（25张高清图片）B(Byte) 字节 1B=8b 汉字占2个字节。hadoop 分布式计算系统+分布式数据库+Spark。非结构化数据：无固定格式（文本文件、图片、音乐）（1）大量化（存储量大、增量大）

2026年分布式计算系统课堂笔记

Sunny20th的博客

03-03

558

TB PB EB结构化数据：固定格式关系型数据库，excel半结构化数据：具有一定的层次结构，介于结构化数据与非结构化数据之间 json文件，xml文件，电子邮件非结构化数据：无固定格式文本文件，图片，音乐快速化价值密度低大数据技术要面对的基本问题，也是最核心的问题：就是海量数据如何可靠存储和高效计算。leetcode（1）Hadoop是一个由Apache基金会所开发的分布式计算基础框架。（2）主要解决，海量数据的存储和海量数据的分析计算问题。

Elasticsearch容灾备份机制：运维操作指南（完整示例）

weixin_33363025的博客

12-25

1161

深入解析Elasticsearch的容灾与备份机制，涵盖快照策略、仓库配置及恢复操作，结合es面试题常见考点，帮助运维与开发人员掌握核心技能，提升系统可靠性与应对突发故障的能力。

Apache Ozone 介绍与部署使用(最新版2.0.0)

super_mochi1

08-22

2219

Apache Ozone 是一个高度可扩展的分布式存储系统，支持对象存储和文件系统功能，适用于大数据和云原生应用。其架构由 OzoneManager（OM）管理命名空间，StorageContainerManager（SCM）管理块空间，通过容器（Containers）和数据节点（Datanodes）实现高效存储。安装部署需配置 Java 环境，修改相关参数文件（如 ozone-site.xml 和 ozone-env.sh），并依次初始化 SCM、OM 和 DataNode。启动后可通过 Web 界面访问

对象存储跑大数据的四大断点与实战解法

weixin_34356310的博客

06-17

417

对象存储作为现代数据湖底座，正逐步替代HDFS成为PB级大数据平台的主流选择。其核心价值源于扁平命名空间带来的无限扩展性与云原生成本优势，但底层最终一致性、元数据操作瓶颈、小文件性能衰减及计算生态适配等原理性限制，常导致Spark作业卡死、分区数据丢失、List延迟飙升等典型故障。技术价值不仅在于存储成本降低40%+，更在于支撑实时分析、IoT直传、多云协同等新型数据范式。典型应用场景涵盖新能源车电池遥测、气象历史归档、电商实时数仓等日增10TB+的高吞吐环境。本文聚焦对象存储在真实生产中与Spark/Fl

Databricks+AWS构建GenAI数据工程闭环实战

weixin_34007020的博客

06-23

1015

向量检索（Vector Search）和RAG系统是当前GenAI落地的核心技术路径，其性能瓶颈往往不在大模型本身，而在于底层数据工程能力——包括非结构化数据切片、增量向量化、低延迟索引与可复用的数据管道。Databricks Lakehouse架构通过Delta表实现ACID事务、Schema演化与自动版本管理，结合AWS S3的高吞吐存储、EventBridge事件驱动及IRSA安全机制，为GenAI提供稳定、可观测、可治理的数据底座。本文聚焦Databricks与AWS协同下的端到端实操，覆盖Auto

数据库Checkpoint机制原理与生产调优实战

weixin_30455023的博客

06-21

382

Checkpoint是数据库保障数据持久性（Durability）与一致性（Consistency）的核心机制，本质是通过定期固化内存脏页状态并记录WAL起始位点，构建可验证、可重建的恢复基线。其原理依赖WAL日志与状态快照的协同——WAL记录变更动作，Checkpoint定义状态起点，二者共同实现崩溃后‘按图索骥’式快速恢复。该机制在PostgreSQL、MySQL等关系型数据库及Flink等流处理系统中广泛应用，技术价值在于显著压缩恢复时间、规避IO风暴、支撑高可用架构。典型应用场景包括主库宕机秒级重启

Flink词频统计实战[Java版]

howard2005的专栏

06-19

521

本实战基于 Flink 2.2.0 构建批流一体词频统计系统。涵盖环境配置、Maven 依赖管理及 HDFS 数据准备，核心实现 BATCH 离线处理、File Source 流式处理及 NC 模拟 Socket 实时流三种模式。通过对比不同模式的数据处理逻辑与结果输出，深入掌握 Flink DataStream API 的批流统一编程模型。

PySpark连接Snowflake生产级读写配置与性能调优指南

weixin_30522095的博客

06-08

922

PySpark与Snowflake集成是现代数据湖仓架构中的关键链路，其本质是通过Spark分布式计算引擎与Snowflake云原生数据仓库的协同，实现TB级数据的高效、可靠流转。核心原理在于解耦元数据控制与物理数据搬运——Spark负责逻辑计划生成与分区调度，Snowflake则利用COPY INTO等原生引擎完成高性能数据加载。该技术组合显著提升吞吐（实测10GB写入从47分钟降至6.2分钟）、保障类型安全（避免BIGINT精度丢失）并支持细粒度权限审计。典型应用场景包括数仓迁移、实时特征落库及统一数据

数据科学家的云原生能力三维模型：管道、训练、服务实战

weixin_30352645的博客

06-25

398

云原生已成为数据科学落地的核心基础设施，其本质是将算法能力与分布式系统工程深度耦合。理解S3数据湖分层、EMR/YARN资源调度、Kubernetes模型服务等底层原理，才能突破本地开发到生产部署的断层。本文聚焦数据科学家必须掌握的三大云场景：云原生数据管道构建（含权限、缓存、熔断）、弹性模型训练编排（含内存墙、网络墙、存储墙应对）、灰度模型服务契约（含版本管理、流量路由、健康探针）。所有方案均源自12个脱敏企业级项目，强调可验证、可拆解、可复现，拒绝课程推荐话术，直击从Scikit-learn到SageM