语音合成(Speech Synthesis) […]
图像生成是指利用人工智能技术,特别是深度学习 […]
图像识别是指计算机系统通过算法自动分析和理解 […]
视频理解(Video Understandi […]
视频生成(Video Generation) […]
跨模态检索(Cross-Modal Retr […]
视觉问答(Visual Question A […]
图像字幕生成(Image Captionin […]
零样本图像生成(Zero-Shot Imag […]
多模态融合(Multimodal Fusio […]