使用CPU加速Linux命令执行速度

在处理大数据的时候我们总会想着一些并行的操作来加速我们的操作,我们的cpu是多核多线程的,但是我们的有些命令却是单线程的命令,不能够进行并行的运算,如: grep、bzip2、wc、awk、sed等等,只能使用一个CPU内核。要想让Linux命令使用所有的CPU内核,我们需要用到GNU Parallel命令,下面我们技术下加速的方法吧

我们都知道 grep, bzip2, wc, awk, sed等等,都是单线程的,只能使用一个CPU内核。那么如何才能使用这些内核?

要想让Linux命令使用所有的CPU内核,我们需要用到GNU Parallel命令,它让我们所有的CPU内核在单机内做神奇的map-reduce操作,当然,这还要借助很少用到的–pipes 参数(也叫做–spreadstdin)。这样,你的负载就会平均分配到各CPU上,真的。

BZIP2

bzip2是比gzip更好的压缩工具,但它很慢!别折腾了,我们有办法解决这问题。

以前的做法:

cat bigfile.bin | bzip2 --best > compressedfile.bz2

现在这样:

cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > compressedfile.bz2

尤其是针对bzip2,GNU parallel在多核CPU上是超级的快。你一不留神,它就执行完成了。

GREP

如果你有一个非常大的文本文件,以前你可能会这样:

grep pattern bigfile.txt

现在你可以这样:

cat bigfile.txt | parallel --pipe grep 'pattern'

或者这样:

cat bigfile.txt | parallel --block 10M --pipe grep 'pattern'

这第二种用法使用了 –block 10M参数,这是说每个内核处理1千万行——你可以用这个参数来调整每个CUP内核处理多少行数据。

AWK

下面是一个用awk命令计算一个非常大的数据文件的例子。

常规用法:

cat rands20M.txt | awk '{s+=$1} END {print s}'

现在这样:

cat rands20M.txt | parallel --pipe awk \'{s+=\$1} END {print s}\' | awk '{s+=$1} END {print s}'

这个有点复杂:parallel命令中的–pipe参数将cat输出分成多个块分派给awk调用,形成了很多子计算操作。这些子计算经过第二个管道进入了同一个awk命令,从而输出最终结果。第一个awk有三个反斜杠,这是GNU parallel调用awk的需要。

WC

想要最快的速度计算一个文件的行数吗?

传统做法:

wc -l bigfile.txt

现在你应该这样:

cat bigfile.txt | parallel --pipe wc -l | awk '{s+=$1} END {print s}'

非常的巧妙,先使用parallel命令‘mapping’出大量的wc -l调用,形成子计算,最后通过管道发送给awk进行汇总。

SED

想在一个巨大的文件里使用sed命令做大量的替换操作吗?

常规做法:

sed s^old^new^g bigfile.txt

现在你可以:

cat bigfile.txt | parallel --pipe sed s^old^new^g

…然后你可以使用管道把输出存储到指定的文件里。

原创文章,作者:晴川运维,如若转载,请注明出处:https://baike.qcidc.com/10999.html

(0)
晴川运维晴川运维
上一篇 2025年6月29日
下一篇 2025年6月29日

相关推荐

  • 在Django中使用ElasticSearch

    Elasticsearch可以使我们快速,近乎实时地存储,搜索和分析大量数据,并在几毫秒内给出答复。之所以能够获得快速的搜索响应,是因为它可以直接搜索索引,而不是直接搜索文本。 什…

    Linux系统 2025年6月8日
  • Ansible基本架构与工作机制

    ansible是一种自动化运维工具,基于paramiko开发的,并且基于模块化工作,Ansible是一种集成IT系统的配置管理、应用部署、执行特定任务的开源平台。 一、Ansibl…

    Linux系统 2025年6月8日
  • 详解oracle运算符

    oracle数据库中的数据,在查询的时候,通常不是一个条件就能过滤出想要的结果,那么,当需要指定多个复杂的过滤条件时and、or连接运算符就派上用场了,本篇文章重点为大家讲解一下o…

    Linux系统 2025年6月10日
  • Linux终端中使用Nmcli命令连接WiFi具体方法

    nmcli命令是redhat7或者centos7之后的命令,该命令可以完成网卡上所有的配置工作,并且可以写入配置文件,永久生效,本篇文章重点为大家讲解一下在Linux终端中使用Nm…

    Linux系统 2025年6月13日
  • 简单介绍一下存储虚拟化技术

    存储虚拟化技术其实不是一个新东西,在很早以前就有了存储虚拟化技术。技术发展到今天,在存储虚拟化技术之上又诞生了其他很多新的概念和技术。 数据在整个计算机系统是最重要的一部分,也是最…

    Linux系统 2025年9月24日
  • Linux下安装并使用NMState网络管理器

    NMState 是一个网络管理器,允许你按照声明式方法配置主机。这意味着你通过一个北向的声明式 API 定义所需的配置状态,这个工具通过南向的提供者provider应用配置。 目前…

    Linux系统 2025年6月16日
  • Linux内核模块参数具体方法

    内核模块是Linux操作系统中一个比较独特的机制,采用模块化技术可以使得系统内核保持最小化,同时确保了内核的可扩展性和可维护性,模块化设计允许我们在需要时才将模块加载至内核,实现动…

    Linux系统 2025年10月5日
  • FreeBSD中安装VMware Tools

    VMware Tools 中包含一系列服务和组件,可在各种 VMware 产品中实现多种功能,从而使用户能够更好地管理客户机操作系统,以及与客户机操作系统进行无缝交互,下面为大家讲…

    Linux系统 2025年10月24日
  • 简单讲解一下SSH的工作原理

    SSH(Secure Shell)是一套协议标准,可以用来实现两台机器之间的安全登录以及安全的数据传送,其保证数据安全的原理是非对称加密,本篇文章简单讲解一下SSH的工作原理。 S…

    Linux系统 2025年10月26日
  • Github中开源安全工具大全

    本仓库收集的初衷是为向各类企业安全从业人员提供在企业信息安全防护体系建设过程中可以参考的开源安全扫描工具,以期望企业能够利用这些扫描器对自身业务进行自检,从而提高自身业务安全性。 …

    Linux系统 2025年6月8日

发表回复

登录后才能评论