更换列
列数从1开始统计
-t 为源文件的列数
似乎只能更换顺序
|
|
取列
|
|
字典去重
|
|
查看行数
|
|
其他小技巧
|
|
查看文件的中间若干行12345678【一】从第3000行开始,显示1000行。即显示3000~3999行cat filename | tail -n +3000 | head -n 1000 【二】显示1000行到3000行cat filename| head -n 3000 | tail -n +1000
分解:
tail -n 1000:显示最后1000行
tail -n +1000:从1000行开始显示,显示1000行以后的
head -n 1000:显示前面1000行
查看文件前10行
|
|
编码检测与编码转换
提供两个编码检测工具
- enca
- uchardet
编码转换则使用 iconv
参考资料
[1] Python 通用数据格式转换工具
[2] 在linux下使用enca命令来查看文本文件的编码
[3] 编码自动识别工具 uchardet
[4] 35行代码实现千万级别字典的快速去重