Linux重定向和管道符注意事项

简而言之,输入重定向就是把文件导入到命令中, 输出重定向就是把原本要输出到屏幕的数据信息写入到指定文件中。在日常的使用中,我们使用输出重定向频率更高,所以又将输出重定向分为了标准输出重定向和错误输出重定向两种不同的技术,以及清空写入与追加的写入的两种模式。

本文就分享一下我在实践中使用重定向和管道符遇到的一些坑,搞明白一些底层原理,写脚本的效率能提升不少。

> 和 >> 重定向符的坑

先说第一个问题,执行如下命令会发生什么?

$ cat file.txt > file.txt

读取再写入同一个文件,感觉什么也不会发生对吧?

实际上,上述命令运行的结果是清空file.txt文件中的内容。

PS:有的 Linux 发行版可能会直接报错,可以执行cat file.txt绕开这个检测。

前文 Linux 进程和文件描述符 说过,程序本身没有必要关心自己的标准输入/输出指向哪里,是 shell 通过管道符和重定向符号修改了程序的标准输入/输出的位置。

所以执行cat file.txt > file.txt这个命令时,shell 会先打开file.txt,由于重定向符号是>,所以文件中的内容会被清空,然后 shell 将cat命令的标准输出设置为file.txt,这时候cat命令才开始执行。

也就是如下过程:

1、shell 打开file.txt并清空其内容。 2、shell 将cat命令的标准输出指向file.txt文件。 3、shell 执行cat命令,读了一个空文件。 4、cat命令将空字符串写入标准输出(file.txt文件)。

所以,最后的结果就是file.txt变成了空文件。

我们知道,>会清空目标文件,>>会在目标文件尾部追加内容,那么如果将重定向符>改成>>会怎样呢?

echo hello world > file.txt # 文件中只有一行内容
$ cat file.txt >> file.txt # 这个命令会死循环

file.txt中首先被写入一行内容,执行cat file.txt >> file.txt后预期的结果应该是两行内容。

但是很遗憾,运行结果并不符合预期,而是会死循环不断向file.txt中写入 hello world,文件很快就会变得很大,只能用 Control+C 停止命令。

这就有意思了,为什么会死循环呢?其实稍加分析就可以想到原因:

首先要回忆cat命令的行为,如果只执行cat命令,就会从命令行读取键盘输入的内容,每次按下回车,cat命令就会回显输入,也就是说,cat命令是逐行读取数据然后输出数据的。

那么,cat file.txt >> file.txt命令的执行过程如下:

1、打开file.txt,准备在文件尾部追加内容。 2、将cat命令的标准输出指向file.txt文件。 3、cat命令读取file.txt中的一行内容并写入标准输出(追加到file.txt文件中)。 4、由于刚写入了一行数据,cat命令发现file.txt中还有可以读取的内容,就会重复步骤 3。

以上过程,就好比一边遍历列表,一遍往列表里追加元素一样,永远遍历不完,所以导致我们的命令死循环。

> 重定向符和 | 管道符配合

我们经常会遇到这样的需求:截取文件的前 XX 行,其余的都删除。

在 Linux 中,head命令可以完成截取文件前几行的功能:

$ cat file.txt # file.txt 中有五行内容
1
2
3
4
5
$ head -n 2 file.txt # head 命令读取前两行
1
2
$ cat file.txt | head -n 2 # head 也可以读取标准输入
1
2

如果我们想保留文件的前 2 行,其他的都删除,可能会用如下命令:

$ head -n 2 file.txt > file.txt

但是这就犯了前文说的错误,最后file.txt会被清空,不能实现我们的需求。

那我们是这样写命令是否可以避坑呢:

$ cat file.txt | head -n 2 > file.txt

结论是不行,文件内容依然会被清空。

What?是不是管道漏了,把数据全漏掉了?

前文 Linux 进程和文件描述符 也说过管道符的实现原理,本质上就是将两个命令的标准输入和输出连接起来,让前一个命令的标准输出作为下一个命令的标准输入。

但是,如果你认为这样写命令可以得到预期的结果,那可能是因为你认为管道符连接的命令是串行执行的,这是一个常见的错误,实际上管道符连接的多个命令是并行执行的。

你可能以为,shell 会先执行cat file.txt命令,正常读取file.txt中的所有内容,然后把这些内容通过管道传递给head -n 2 > file.txt命令。

虽然这时候file.txt中的内容会被清空,但是head并没有从文件中读取数据,而是从管道读取数据,所以应该可以向file.txt正确写入两行数据。

但实际上,上述理解是错误的,shell 会并行执行管道符连接的命令,比如说执行如下命令:

$ sleep 5 | sleep 5

shell 会同时启动两个sleep进程,所以执行结果是睡眠 5 秒,而不是 10 秒。

这是有点违背直觉的,比如这种常见的命令:

$ cat filename | grep 'pattern'

直觉好像是先执行cat命令一次性读取了filename中所有的内容,然后传递给grep命令进行搜索。

但实际上是cat和grep命令是同时执行的,之所以能得到预期的结果,是因为grep ‘pattern’会阻塞等待标准输入,而cat通过 Linux 管道向grep的标准输入写入数据。

执行下面这个命令能直观感受到cat和grep是在同时执行的,grep在实时处理我们用键盘输入的数据:

$ cat | grep 'pattern'

说了这么多,再回顾一开始的问题:

$ cat file.txt | head -n 2 > file.txt

cat命令和head会并行执行,谁先谁后不确定,执行结果也就不确定。

如果head命令先于cat执行,那么file.txt就会被先清空,cat也就读取不到任何内容;反之,如果cat先把文件的内容读取出来,那么可以得到预期的结果。

不过,通过我的实验(将这种并发情况重复 1w 次)发现,file.txt被清空这种错误情况出现的概率远大于预期结果出现的概率,这个暂时还不清楚是为什么,应该和 Linux 内核实现进程和管道的逻辑有关。

解决方案

说了这么多管道符和重定向符的特点,如何才能避免这个文件被清空的坑呢?

最靠谱的办法就是不要同时对同一个文件进行读写,而是通过临时文件的方式做一个中转。

比如说只保留file.txt文件中的头两行,可以这样写代码:

# 先把数据写入临时文件,然后覆盖原始文件

$ cat file.txt | head -n 2 > temp.txt && mv temp.txt file.txt

这是最简单,最可靠,万无一失的方法。

你如果嫌这段命令太长,也可以通过apt/brew/yum等包管理工具安装moreutils包,就会多出一个sponge命令,像这样使用:

# 先把数据传给 sponge,然后由 sponge 写入原始文件
$ cat file.txt | head -n 2 | sponge file.txt

sponge这个单词的意思是海绵,挺形象的,它会先把输入的数据「吸收」起来,最后再写入file.txt,核心思路和我们使用临时文件时类似的,这个「海绵」就好比一个临时文件,就可以避免同时打开同一个文件进行读写的问题。

以上就是重定向和管道符的一些坑,希望能帮到你。

原创文章,作者:晴川运维,如若转载,请注明出处:https://baike.qcidc.com/10308.html

(0)
晴川运维晴川运维
上一篇 2025年6月24日
下一篇 2025年6月24日

相关推荐

  • 详解观察者模式

    在现实世界中,许多对象并不是独立存在的,其中一个对象的行为发生改变可能会导致一个或者多个其他对象的行为也发生改变。例如,某种商品的物价上涨时会导致部分商家高兴,而消费者伤心;还有,…

    Linux系统 2025年6月8日
  • C++中常量与指针讲解

    在C++学习使用过程中,每个人都不可避免地使用指针,而且都或多或少的接触过常量指针或指针常量,但是对这两个的概念还是很容易搞糊涂的,所以这篇文章主要给大家介绍了关于C++中常量与指…

    Linux系统 2025年10月19日
  • C++中double类型保留三位小数点

    我们知道C语言中,如果要求输出结果保留三位小数,我们可以使用pritf()函数轻松的解决。但是的输出运算符 我以一个例子作为讲解: 已知线段的两个端点坐标是A(xa,ya),B(x…

    Linux系统 2025年6月8日
  • Linux中通过命令行卸载安装包

    严格地说,Linux是内核。Linux发行版由Linux内核、安装脚本、shell、编译器、桌面和其他组件组成。因此,卸载包或软件的Linux命令取决于Linux发行版的名称和类型…

    Linux系统 2025年6月12日
  • 对你的Linux进行冻结或锁定

    冻结终端窗口并锁定屏幕意味着什么 – 以及如何在 Linux 系统上管理这些活动。 如何在 Linux 系统上冻结和“解冻”屏幕,很大程度上取决于这些术语的含义。有时“冻结屏幕”可…

    Linux系统 2025年6月28日
  • 通过sestatus命令查看SELinux的当前状态

    sestatus命令用于查看系统上正在运行的SELinux的当前状态。本文讲述sestatus命令输出详细说明,在sestatus中显示所选对象的安全上下文,显示所有的布尔值 1.…

    Linux系统 2025年6月4日
  • SELinux Targeted、MLS和Minimum策略

    对于 SELinux 来说,所选择的策略类型直接决定了使用哪种策略规则来执行主体(进程)可以访问的目标(文件或目录资源)。不仅如此,策略类型还决定需要哪些特定的安全上下文属性。通过…

    Linux系统 2025年10月22日
  • 详解Mariadb聚合函数及分组查询

    MariaDB Server 是最流行的开源关系型数据库之一。它由 MySQL 的原始开发者制作,并保证保持开源。它是大多数云产品的一部分,也是大多数Linux发行版的默认配置。M…

    Linux系统 2025年6月8日
  • Linux下生成高强度密码具体方法

    现在信息泄露越来越严重,而强大的密码是防止个人敏感信息泄露的第一步,本篇文章重点为大家讲解一下Linux下生成高强度密码具体方法。 1. 在 Linux 中使用 OpenSSL 来…

    Linux系统 2025年10月20日
  • Ansible基本架构与工作机制

    ansible是一种自动化运维工具,基于paramiko开发的,并且基于模块化工作,Ansible是一种集成IT系统的配置管理、应用部署、执行特定任务的开源平台。 一、Ansibl…

    Linux系统 2025年6月8日

发表回复

登录后才能评论