博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
linux sort/uniq 使用
阅读量:5792 次
发布时间:2019-06-18

本文共 892 字,大约阅读时间需要 2 分钟。

来自:http://www.linuxde.net/2013/06/13941.html

通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用来处理磁盘上文件的合并,需要用多少行代码。

cat a b | sort | uniq > c   # c 是a和b的合集cat a b | sort | uniq -d > c   # c 是a和b的交集cat a b b | sort | uniq -u > c   # c 是a和b的不同

汇总一个文本内容里第三列数字的和(这个方法要比用来做快3倍并只需1/3的代码量):

awk ‘{ x += $3 } END { print x }’ myfile

如果你想查看一个目录树里的文件的体积和修改日期,用下面的方法,相当于你挨个目录做”ls -l”,而且输出的形式比你用”ls -lR”更可读:

find . -type f -ls

使用xargs命令。这个命令非常的强大。注意每行上你可以控制多少个东西的执行。如果你不确定它是正确的执行,先使用xargs echo。同样,-I{} 也非常有用。例子:

find . -name \*.py | xargs grep some_functioncat hosts | xargs -I{} ssh root@{} hostname

假设你有一个文本文件,比如一个web日志,在某些行上有一些值,比如URL中的acct_id参数。如果你想统计每个acct_id的所有请求记录:

cat access.log | egrep -o ‘acct_id=[0-9]+’ | cut -d= -f2 | sort | uniq -c | sort -rn
本文转自    拖鞋崽      51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1218649

转载地址:http://hyzfx.baihongyu.com/

你可能感兴趣的文章
使用GitHub的十个最佳实践
查看>>
脱离“体验”和“安全”谈盈利的游戏运营 都是耍流氓
查看>>
慎用!BLEU评价NLP文本输出质量存在严重问题
查看>>
JAVA的优势就是劣势啊!
查看>>
ELK实战之logstash部署及基本语法
查看>>
帧中继环境下ospf的使用(点到点模式)
查看>>
BeanShell变量和方法的作用域
查看>>
LINUX下防恶意扫描软件PortSentry
查看>>
由数据库对sql的执行说JDBC的Statement和PreparedStatement
查看>>
springmvc+swagger2
查看>>
我的友情链接
查看>>
Java Web Application 自架构 一 注解化配置
查看>>
如何 debug Proxy.pac文件
查看>>
Python 学习笔记 - 面向对象(特殊成员)
查看>>
Puppet 配置管理工具安装
查看>>
Bug多,也别乱来,别被Bug主导了开发
查看>>
sed 替换基础使用
查看>>
高性能的MySQL(5)创建高性能的索引一B-Tree索引
查看>>
图片变形的抗锯齿处理方法
查看>>
Effective C++ Item 32 确保你的 public 继承模子里出来 is-a 关联
查看>>