前言
记录LeetCode刷题中遇到的shell编程相关题目 有关下面题目中使用到的Linux命令以及其它常用命令可以查看博主的一篇关于Linux命令学习的文章
192.统计词频(每日一题)
写一个bash脚本以统计一个文本文件words.txt 中每个单词出现的频率。words.txt只包括小写字母和’ ',每个单词只由小写字母组成,单词间由一个或多个空格字符分隔,每个单词出现的频率都是唯一的
#!/bin/bash
cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -r | awk '{ print $2, $1 }'
原题解 cat:得到文件内容 tr -s ’ ’ ‘\n’:将内容中的空格替换为换行符 sort:将内容中的每一行,按照第一列的ASCII码的次序排列,从大到小 uniq -c:去除重复的行,只保留一行,-c选项会在每一行的前面多加一列数字表明该行在去除前重复出现了几次 sort -r:将每一行按照第一列的ASCII码的次序排列,-r表示逆序排列。此时第一列就是上一次uniq -c执行完出现的数字,所以会根据这个数字,即每一行出现次数来排。从小到大,这时候得到的文本内容已经是题目要求的了,最后就是打印 awk ‘{ print $2, $1 }’:将每一行按照空格或TAB划分成多个参数,每一行按顺序输出第二个以及第一个参数;如果是awk '{print}'就会打印出每行所有内容 命令的详细用法可查看命令大全
193. 有效电话号码(每日一题)
有关Linux中正则的写法在开头提到的文章中有简单讲述 带括号的形式匹配格式为\([0-9][0-9][0-9]\)\ [0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9] ,不带括号的形式的匹配形式为[0-9][0-9][0-9]\-[0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9] ,单纯匹配这两种格式的话可能会出现前面或者后面多出一些其它字符 如(001) 345-00001,(001) 345-0000符合带括号的格式,但后面多了个1 所以既要以这两种匹配式其中一种为开头,也要以它们为结尾,可以用 ‘^’ 搭配 ‘$’ 达到该效果:
#!/bin/bash
cat file.txt | egrep "^\([0-9][0-9][0-9]\)\ [0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9]$|^[0-9][0-9][0-9]\-[0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9]$" | awk '{ print }'
也可以用两个grep达到且的效果
#!/bin/bash
cat file.txt | egrep "^\([0-9][0-9][0-9]\)\ [0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9]|^[0-9][0-9][0-9]\-[0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9]" | egrep "^\([0-9][0-9][0-9]\)\ [0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9]$|[0-9][0-9][0-9]\-[0-9][0-9][0-9]\-[0-9][0-9][0-9][0-9]$" | awk '{ print }'
|