基于膳食多媒体数据的食品计算研究进展

发布时间： 2023-05-31 点击数量：1,537

编者按：2023年3月，《中国图象图形学学会通讯》第2卷第1期发表了由多媒体专委会选送的多篇专题文章。CSIG-MM公众号将逐一整理并推送这些文章。本期推送由中国科学院计算技术研究所闵巍庆副研究员和蒋树强研究员合作撰写的《基于膳食多媒体数据的食品计算研究进展》一文。阅读完整论文请点击文末的“阅读全文”。

背景介绍

食物对人类生存、生活与健康的基础性作用和关键性影响使得面向膳食领域的多媒体内容分析有着重要的研究、应用和社会价值。人类饮食记录的影像化数字化普及和人工智能的快速崛起，为该领域的智能化发展带来新的机遇，并逐渐催生出了 “食品计算”这一新兴研究方向。Harper 等人首次提出了面向农业生产的食品计算平台OpenAG。Min等人从更为广义的食品范畴，系统阐述食品计算的定义、基本任务、研究现状、主要挑战和发展方向。面向膳食领域的食品计算则主要通过对食品图像、菜谱文本和多样化的膳食属性等膳食多媒体数据进行分析处理，促进膳食领域的自动化、智能化和精准化转型升级，满足人们日益增长的膳食分析和营养健康管理等各种需求。

膳食领域的食品计算主要包括食品图像分析、食品营养评估、多模态食品学习和食品推荐四个方面，相关工作最早可以追溯至1964年。不过20世纪的工作主要面向食品工业，21世纪初随着信息技术的发展，面向膳食领域的食品计算逐渐得到学者们的关注。2014年以来，由于深度学习技术的迅速发展，在食品图像分析、食品多模态学习、营养评估和膳食推荐方面均有了更多突破性成果。各时间节点代表性的膳食领域食品计算工作如图1所示。表1中列出了一些常用的食品数据集。

图1 膳食领域食品计算的发展历程(主要包括食品图像分析、食品营养评估、多模态食品学习和食品推荐四个方面)

表1 食品数据集对比

食品图像分析

食品图像分析主要包括食品图像识别、检测和分割三个任务，目前主要以食品图像识别任务为主。

食品图像识别

食品图像识别包括但不限于对图像中的果蔬、菜品和食材等进行识别，能够进一步支撑食品营养评估、膳食推荐和菜谱生成等任务。从技术角度来看，食品图像识别主要包括手工特征设计和深度学习两种方法。由于食品、食材和烹饪方式等之间存在着密切联系，食品分类、食材识别等任务能够起到相互促进的作用。因此融入各种膳食属性的食品图像识别方法得到了越来越多关注。此外，在现实世界场景中，食品图像识别存在实例动态增加、样本不均衡等特点，相应的，面向食品图像的增量学习和小样本学习等任务应运而生。表2从识别对象、特征类型和学习方法三个维度对代表性的食品图像识别方法给予了总结。

表2 食品图像识别方法总结

食品图像检测

当一张食品图像中包含多个菜品，就需要食品图像检测，以得到该图像中包含的所有菜品信息。目前的食品图像检测主要分为两类：(1) 借助目标检测框架直接实现食品目标检测在有足够训练数据的情况下，可以借助当前目标检测方法进行食品检测。(2) 通过其他方法间接实现食品目标检测训练检测网络依赖较大规模的数据集，但食品检测领域大规模高质量的检测数据集较少。因此，一部分研究者尝试利用其他方法间接实现食品目标检测。也有一些研究者尝试利用食品图像分割数据集与分割方法先实现食品图像分割，之后将结果转化为食品检测的形式。由于食品图像检测的重要应用价值，如基于团餐检测的智能结算服务，因此也出现了一些食品图像检测数据集，如UECFood-100、UECFood-256、UNIMIB2015、 UNIMIB2016和Mixed Dish Dataset等。表3对食品图像检测的模型方法等角度进行了总结。

表3 食品图像检测方法总结

食品图像分割

食物图像分割是食品计算领域的主要任务，是将食物图像按照一定的特征划分为多个互不相交的子区域。在任务上，食物图像分割是对每个像素分类加标签的过程。当分割结果给出后，三维重建和体积估计等后续操作可以直接进行。根据方法设计的不同，食物图像分割算法可以分为传统方法和基于深度学习的方法历程。较早期的工作主要采用传统方法，通过人工确定的特征的假设完成分割，这些方法往往基于食物图像的一些假设，例如特定的形状和颜色、连续的区域，可扩展性较差。近年来，随着深度学习的快速发展，产生了端到端的基于深度学习的食物图像分割架构。表4对食品图像分割的代表性工作进行了总结。

表4 食品图像分割方法总结

食品营养评估

考虑传统的基于调查问卷营养评估的局限性，当前基于视觉的营养评估方法得到越来越广泛的关注。该方法将膳食图像作为输入，然后使用视觉方法对输入图像进行分析处理，输出相关膳食营养信息。较早期的工作多采用多阶段的营养评估架构，这种方法使用前一阶段的输出作为后一阶段的输入，因此对于每个阶段预测的准确性要求较高。基于多阶段的食品营养评估方法一般包括食品图像分析、份量估计和营养推断三个阶段。食品图像分析的目的是利用食品识别、检测、分割为后续阶段提供图像中食品的种类、视觉范围等信息。份量估计的目的是得到食品的体积或重量信息。食品在图像中占据的面积不能与现实中的体积对应，早期工作通过引入额外的参照物来解决该问题。由于参照物的设置不标准，体积估计方法简单等原因，这种方法的误差较大。因此食品份量估计往往采用基于三维重建的体积估计方法。营养推断是指从食品图像分析和份量估计得到的结果推断出图像中食品的营养成分，这个过程通常依赖于数据集中的营养标注或外部的大型营养数据库。随着深度学习技术的快速发展使得端到端的深度学习食品营养评估方法发展起来，在该方法中，食品图像数据输入到该网络，直接获取营养信息。端到端方法侧重于使用单一模型来取代多阶段方法的流水线式设计，特点是食品图像被输入到主干网络进行特征提取，再通过后续网络实现营养评估。食品营养评估除了主流的基于计算机视觉的方法，近年来，也有一些工作利用其他模态，如文本信息、声音、微波信号等进行食品营养评估。表5对代表性的食品营养评估方法从特征类型、模型方法、评估阶段三个维度进行了总结。

表5 食品营养评估方法总结

多模态食品学习

多模态食品学习旨在让机器学习食品不同模态信息之间的交互，从而模拟人脑对食品所传达的多感官信号处理模式。多模态食品学习通常涉及视觉、嗅觉、味觉、触觉和文本这五种模态，一些具体的应用场景还包括听觉、光谱/色谱/质谱等模态数据。多模态食品学习的重点在于如何融合食品在不同模态下表现出的异质信息，通过机器学习方法建立多模态多任务的食品信息理解模型。其中跨模态菜谱-菜品图像检索是目前膳食领域多模态食品学习最常见的任务。该任务根据用户指定的食品图像，在大量菜谱样本中检索出对应的菜谱；或根据用户指定的菜谱信息检索出对应的食品图像。其核心是学习食品图像与菜谱文本的特征表示并进行关联和对齐。跨模态菜谱生成是另一个广泛关注的多模态食品学习任务，根据给定的食品图像生成相应的菜谱信息，或根据给定的烹饪过程文本生成可能的菜品图像。数据集方面，目前膳食领域发布的数据集主要为多模态菜谱数据集，包括Yummly-28K、Yummly-66K、Recipe1M、Recipe1M和Food2K等。表6从模态、融合方法、学习任务三个维度对多模态食品学习方法进行了总结。

表6 多模态食品学习方法总结

食品推荐

食品推荐主要是从用户偏好和健康两个方面综合考虑，为其提供一系列食品列表以满足个性化需求。与其他类型的推荐相比，食品推荐不仅需要考虑用户饮食偏好，还需要考虑用户健康需求和其他上下文信息。因此如何平衡用户偏好和健康需求是食品推荐需要解决的一个关键问题。目前主流方法依然是面向用户偏好的食品推荐，近来部分工作通过融入额外营养健康信息实现食品推荐，但目前还处于初步发展阶段。表7对代表性的食品推荐方法进行了总结。影响食品推荐的因素丰富多样，包括不同食品数据模态和属性，例如食品颜色和纹理等视觉表观信息、食材类别与成分、消耗量与卡路里摄入量等。相应的涵盖这些信息的食品推荐的数据集也越来越多，如TASTEset、Comparable Recipes、MealRec等。这些数据集的发布对推动食品推荐发展产生积极的影响。

表7 食品推荐方法总结