Research Datasets

Eye Disease Recognition

JBHI’22 MMC-AMD: A multi-modal fundus image set for AMD categorization
Weisen Wang, Xirong Li, Zhiyan Xu, Weihong Yu, Jianchun Zhao, Dayong Ding, Youxin Chen: Learning Two-Stream CNN for Multi-Modal Age-related Macular Degeneration Categorization. In: IEEE Journal of Biomedical and Health Informatics (J-BHI), 2022.
ICPR’20 Retinal-Lesions: A color fundus image dataset for evaluating retinal lesion segmentation, classification and diabetic retinopathy (DR) grading
Qijie Wei, Xirong Li, Weihong Yu, xiao Zhang, Yongpeng Zhang, Bojie Hu, Bin Mo, Di Gong, Ning Chen, Dayong Ding, Youxin Chen: Learn to Segment Retinal Lesions and Beyond . In: 25th International Conference on Pattern Recognition (ICPR2020), 2020.
ACCV’18 Fundus10K: A large-scale collection of 10,861 expert-labeled color fundus images for training and evaluating laser scar detection algorithms
Qijie Wei, Xirong Li, Hao Wang, Dayong Ding, Weihong Yu, Youxin Chen: Laser Scar Detection in Fundus Images using Convolutional Neural Networks. Asian Conference on Computer Vision (ACCV), 2018.

TMM’19 COCO-CN: A bilingual image description dataset enriching MS-COCO with manually written Chinese sentences and tags
Xirong Li, Chaoxi Xu, Xiaoxu Wang, Weiyu Lan, Zhengxiong Jia, Gang Yang, Jieping Xu: COCO-CN for Cross-Lingual Image Tagging, Captioning and Retrieval. In: IEEE Transactions on Multimedia, vol. 21, no. 9, pp. 2347-2360, 2019.
ACMMM’17 Flickr30k-CN: A bilingual extension of the popular Flickr30k dataset, used for evaluating image captioning in a cross-lingual setting
Weiyu Lan, Xirong Li, Jianfeng Dong: Fluency-Guided Cross-Lingual Image Captioning. In: ACM Multimedia, 2017.
ICMR’16 Flickr8k-CN: A bilingual extension of the popular Flickr8k dataset, used for evaluating image captioning in a cross-lingual setting
Xirong Li, Weiyu Lan, Jianfeng Dong, Hailong Liu: Adding Chinese Captions to Images. In: Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval (ICMR), pp. 271–275, 2016.

CSUR’16 tagsurvey: Datasets for evaluating image tagging and retrieval
Xirong Li, Tiberio Uricchio, Lamberto Ballan, Marco Bertini, Cees G. M. Snoek, Alberto Del Bimbo: Socializing the Semantic Gap: A Comparative Survey on Image Tag Assignment, Refinement, and Retrieval. In: ACM Computing Surveys (CSUR), vol. 49, no. 1, pp. 14:1-14:39, 2016.
TMM’15 geoflickr: Geo-tagged Flickr image data used to evaluate methods for geo-aware image classification
Shuai Liao, Xirong Li, Heng Tao Shen, Yang Yang, Xiaoyong Du: Tag Features for Geo-Aware Image Classification. In: IEEE Transactions on Multimedia (TMM), vol. 17, no. 7, pp. 1058-1067, 2015.
ACMMM’15 mm2015cmrf: Datasets for evaluating web image retrieval with realistic user queries
Jianfeng Dong, Xirong Li, Shuai Liao, Jieping Xu, Duanqing Xu, Xiaoyong Du: Image Retrieval by Cross-Media Relevance Fusion. In: ACM Multimedia, pp. 173–176, 2015.

ACMMM’23 ChinaOpen: A video dataset for open-world multimodal learning
Aozhu Chen, Ziyuan Wang, Chengbo Dong, Kaibin Tian, Ruixiang Zhao, Xun Liang, Zhanhui Kang, Xirong Li: ChinaOpen: A Dataset for Open-world Multimodal Learning. In: ACM Multimedia, 2023.
ACMMM’16 mm2016vsd: Datasets for video violence detection using subclasses and multi-modal features
Xirong Li, Yujia Huo, Qin Jin, Jieping Xu: Detecting Violence in Video using Subclasses. In: ACM Multimedia, 2016.