hdfs命令行流式处理

发表于 2021-12-20 分类于 hdfs
本文字数： 791 阅读时长 ≈ 1 分钟

文件流式处理

在处理hdfs数据时，可能会遇到本地磁盘空间不足以存放数据的问题，这时我们可以使用linux的stdio对数据进行流式处理，以替换每行内容为例

1
2
3

hadoop -cat hdfs://your_path/your_file |\
sed  "s/some_thing/some_other/g" |\
hadoop -put - hdfs://your_path/your_processed_file

这样利用pipe完成了对数据的处理，同时避免了数据在本地落盘。

遍历文件夹处理

此外还可以搭配xargs遍历整个目录

hadoop -ls -h hdfs://your_path 列出整个目录
awk -F' ' '{print $NF}' 取出最后一列，也就是文件地址列
awk -F'/' '{print $NF}' 将地址中的文件名取出
xargs -I {} bash -c ... 将每个文件名依次作为参数处理
"hadoop -cat ..." 按照之前流式处理的方式处理每一个文件

hadoop -ls -h hdfs://your_path | awk -F' ' '{print $NF}' | awk -F'/' '{print $NF}' | xargs -I {} bash -c "hadoop -cat hdfs://your_path/{} | sed 's/some_thing/some_other/g' | hadoop -put - hdfs://your_other_path/{}"

记一次libc损坏的惊险经历

发表于 2021-12-19 分类于 linux
本文字数： 816 阅读时长 ≈ 1 分钟

最近看到知乎上，关于最让自己印象深刻的一次bug的经历，的讨论，不禁让我回想起了研一时，那一次libc依赖损坏的事故。

阅读全文 »

模型转换时打包归一化预处理操作

发表于 2021-12-09 分类于深度学习
本文字数： 754 阅读时长 ≈ 1 分钟

在部署模型时，对于输入数据的预处理是一个非常耗时的操作，其实可以将预处理一同打包到模型中，在转换为ONNX或者Tensorrt模型后这些操作就可以随着模型一起被加速执行。

以最简单的归一化操作为例

归一化Module如下：

class Normalize(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.register_buffer('mean', torch.tensor([0.485, 0.456, 0.406], dtype=torch.float64).view(1, -1, 1, 1))
        self.register_buffer('std', torch.tensor([0.229, 0.224, 0.225], dtype=torch.float64).view(1, -1, 1, 1))
        self.register_buffer('norm', torch.tensor([255.0], dtype=torch.float64).view(1, 1, 1, 1))

    def forward(self, images):
        return (images / self.norm - self.mean) / self.std

之后修改模型的inti和forward函数即可

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        # ... other code
        self.normalize = Normalize()

    def forward(self, x):
        x = self.normalize(x)
        # ... other code