PyTorchでのマルチモーダルデータの処理方法は何ですか？

2年 ago

光, 明

1 minute

PyTorchで複数のモードデータを処理する際には、通常2つの方法があります。

torch.nn.Sequential は、PyTorch のモジュールであり、連続的に適用されるニューラルネットワークのコンテナです。

import torch
import torch.nn as nn

class MultiModalModel(nn.Module):
    def __init__(self, input_size1, input_size2, hidden_size):
        super(MultiModalModel, self).__init__()
        self.fc1 = nn.Linear(input_size1, hidden_size)
        self.fc2 = nn.Linear(input_size2, hidden_size)
        self.fc3 = nn.Linear(hidden_size * 2, 1)  # 合并后特征维度

    def forward(self, x1, x2):
        out1 = self.fc1(x1)
        out2 = self.fc2(x2)
        out = torch.cat((out1, out2), dim=1)
        out = self.fc3(out)
        return out

# 使用示例
model = MultiModalModel(input_size1=10, input_size2=20, hidden_size=16)
x1 = torch.randn(32, 10)
x2 = torch.randn(32, 20)
output = model(x1, x2)

torchvision.models

import torch
import torch.nn as nn
import torchvision.models as models

class MultiChannelModel(nn.Module):
    def __init__(self):
        super(MultiChannelModel, self).__init__()
        self.resnet = models.resnet18(pretrained=True)
        in_features = self.resnet.fc.in_features
        self.resnet.fc = nn.Linear(in_features * 2, 1)  # 合并后特征维度

    def forward(self, x):
        out = self.resnet(x)
        return out

# 使用示例
model = MultiChannelModel()
x1 = torch.randn(32, 3, 224, 224)  # 图像数据
x2 = torch.randn(32, 300)          # 文本数据
x = torch.cat((x1, x2), dim=1)     # 拼接成多通道输入
output = model(x)

実際の応用では、複数モードデータを処理するための2つの一般的な方法があります。具体的な状況に応じて、適切な方法を選択することができます。

#プログラミング #技術記事