可获取社交媒体数据对旅游研究共同体工作的贡献:基于 Flickr 数据研究的文献计量网络分析

时间:2026年5月30日
来源:Information Technology & Tourism

编辑推荐:

本文探讨了 Flickr 的地理标记照片如何促进旅游研究中新研究主题的发展,尤其是通过使用大规模、可自由获取的数据集。研究人员采用系统性文献综述与文献计量网络分析,对 333 篇被 Scopus 收录、且摘要或关键词中包含“tourism”和“Flickr”的

广告
   X   

本文探讨了 Flickr 的地理标记照片如何促进旅游研究中新研究主题的发展,尤其是通过使用大规模、可自由获取的数据集。研究人员采用系统性文献综述与文献计量网络分析,对 333 篇被 Scopus 收录、且摘要或关键词中包含“tourism”和“Flickr”的论文进行了分析;同时进一步识别出引用该核心文献集合的 519 篇论文。研究人员利用 Gephi,结合引力模型与聚类算法,识别基于引文关系形成的研究共同体。对高被引论文进行内容分析后,界定出主要研究主题。最终识别出 7 个研究聚类,分别聚焦于自然旅游(nature-based tourism)、基于时空行为(space-time behaviour)的游客活动、目的地吸引力、形象建构、旅行路线检测与推荐,以及用于内容分析的机器学习(ML,机器学习)。这些研究共同体反映出 Flickr 开放应用程序接口(API)所促成的全球学术兴趣,使跨目的地的可重复研究与比较分析成为可能。研究表明,统一的开放获取社交媒体数据集催化了旅游领域全球研究共同体的形成。与访问受限的较新平台不同,Flickr 的开放性促进了方法创新,并深化了旅游研究领域的专门知识。研究还对现有成果进行了批判性分析,指出了被忽视的领域,并综合相关认识以提出未来研究方向。
该文发表于《Information Technology》,核心任务是评估开放获取社交媒体数据,尤其是 Flickr 地理标记照片数据,对旅游研究知识生产和研究共同体形成所产生的结构性影响。论文首先从研究背景切入,指出旅游地理学及其他定量旅游研究长期依赖游客流动、停留与活动数据,但传统官方统计数据虽然具有全球可得性,却在空间分辨率与情境解释力方面存在明显不足,难以刻画游客细粒度的时空行为。与之相比,21 世纪第二个十年社交媒体的普及,尤其是带有坐标、时间与图像内容的用户生成内容(UGC,用户生成内容),为旅游研究提供了前所未有的高分辨率数据来源。研究人员认为,这一“数据黄金时代”曾显著推动旅游研究方法进步,但随着 Cambridge Analytica 事件之后平台 API 的普遍收紧,学术界获取可复制、可比较的大规模用户数据的能力显著下降,因此有必要回顾 Flickr 开放数据对旅游研究所作出的不可替代贡献。

在问题意识方面,论文明确指出,旅游研究中最关键的难题之一是高质量游客行为数据长期被企业垄断。支付卡公司、移动通信运营商和大型互联网平台拥有丰富的出行与消费数据,却通常出于商业原因不向独立研究者开放。传统问卷、数据记录器、定制 App 等方式虽然能够获取局部数据,但成本高、规模有限、难以复现,也不利于不同研究团队之间形成方法继承与累积知识。Flickr、Panoramio、Instagram 等平台一度凭借开放 API 提供了全球统一格式的旅行照片数据,使研究人员能够围绕共同的数据结构开展跨区域、跨案例研究。该文正是在这一背景下提出中心论点:统一、开放、全球化的社交媒体数据集不仅带来了新的研究材料,更促进了旅游研究内部一系列相互关联的研究主题、方法路径与国际研究共同体的形成。

在研究设计上,研究人员以 Scopus 数据库中截至 2023 年 9 月 15 日的相关文献为样本来源,采用系统检索、文献筛选、引文网络构建、社区发现和内容分析相结合的路径,力图从知识网络而非单篇论文层面揭示 Flickr 数据如何塑造旅游研究领域。研究最终保留 333 篇英文期刊论文作为核心样本,并分析其参考文献,形成由 897 篇论文节点和 4284 条引文边组成的网络。论文发表在《Information Technology》,其意义并不限于对某一平台文献的整理,而在于通过知识图谱式分析,说明开放数据如何成为方法创新、理论扩展和全球学术协作的基础设施。

方法上,研究人员主要使用了 3 类关键技术:其一,基于 Scopus 的系统性文献筛选与引文数据清洗,构建 333 篇核心论文与 564 篇被共同引用论文组成的研究网络;其二,在 Gephi 0.10.1 中采用 ForceAtlas 2 可视化、引力模型及 Blondel 等人的社区发现算法,对 897 个节点和 4284 条引文关系进行聚类识别;其三,对高入度与高出度论文开展人工内容分析,并辅以 SciSummary 对 897 篇文献主题进行初步核验,以界定各聚类所代表的研究主题与方法谱系。样本队列来源为 Scopus 收录的旅游与 Flickr 相关英文论文。

研究结果部分首先通过“4.1 Bibliometric analysis to define tourism research communities”展示整体知识网络结构。研究人员发现,该引文网络具有显著聚集性,在分辨率 0.8、模块度 0.512 的条件下识别出 7 个规模均超过 50 节点的研究共同体。这些共同体并非随机聚合,而是围绕共享的方法、问题意识和代表性高影响论文形成相对稳定的知识子领域。C1 位于网络中心,与其他聚类联系最紧密;C7 则最为独立,显示出自然旅游研究在主题与验证路径上的相对封闭性。整体上,研究结果支持作者的核心假设,即大量基于 Flickr 的旅游研究并非分散孤立的案例,而是通过引用、继承与方法扩散形成了相互支撑的全球研究共同体。

在“5.1 C1 the community measuring tourist activities by spatiotemporal analysis”中,研究人员指出,C1 是全网络的核心共同体,共含 197 篇论文,代表文献包括 Girardin et al.、Vu et al.、García-Palomares et al. 和 Kádár 等。该聚类主要利用 Flickr 地理标记照片提取游客足迹,识别游客与本地居民,分析不同地点的旅游表现和游客活动模式。研究结论表明,时空分析是整个 Flickr 旅游研究领域的方法学支柱,许多后续主题,如目的地形象或路线推荐,均建立在对原始游客时空行为的识别之上。

在“5.2 C2 The travel route detection and clustering community”中,研究人员识别出 195 篇论文构成的聚类,重点在于通过聚类算法识别旅游热点、兴趣点(POIs,兴趣点)及旅行路线。该共同体大量借助 DBSCAN、mean-shift 等算法对带标签照片进行空间聚类,并据此生成旅游路径与推荐系统。研究表明,该共同体是 Flickr 数据应用于实践性旅游计算的重要起点,其核心并不只是路线推荐本身,而是围绕图像、文本标签和地理标签的聚类方法创新。

在“5.3 C3 The travel route recommendation and orienteering community”中,研究人员发现 113 篇论文集中于旅行路线推荐与定向越野问题(Orienteering Problem)。这一聚类延续了 C2 的问题脉络,但更强调优化模型、游客时间预算和个性化路径生成。代表性研究将旅游活动建模为由兴趣点流行度和点间通行时间构成的图结构,尝试在限定时间内提供最优游览方案。论文总结认为,这一共同体标志着旅游研究从描述游客行为转向工程化管理与“智慧旅游”路径优化。

在“5.4 C4 The community measuring the attractivity of places”中,50 篇论文围绕地点吸引力测度展开。该聚类多将 Flickr 数据与其他更具解释性的资料结合,以分析城市或区域何以对游客形成“磁吸效应”。研究表明,照片分布与活动密度可以作为地点吸引力的代理指标,从而为旅游地表现差异及其空间机制提供量化证据。

在“5.5 C5 The destination image research community”中,95 篇论文形成相对独立的目的地形象研究共同体。研究人员指出,这一聚类既承接了传统旅游摄影、视觉凝视与目的地形象形成理论,也广泛使用 Flickr 图像内容分析方法,比较目的地营销机构(DMO,目的地管理组织)投射的官方形象与游客真实感知形象之间的差异。代表性成果显示,Flickr 为研究“投射形象—感知形象”之间的偏差提供了前所未有的可量化图像证据,也推动了视觉内容分析在旅游研究中的扩展。

在“5.6 C6 The community using deep learning methods”中,63 篇论文构成方法驱动型聚类。该共同体不是围绕单一旅游主题,而是围绕深度学习(Deep Learning)与机器学习方法展开,研究内容横跨路线推荐、图像分类、内容识别等多个方向。研究人员认为,该聚类的分散性恰恰说明机器学习已成为横贯多个旅游研究议题的通用方法,而 Flickr 提供的大规模开放图像数据为训练与验证相关模型提供了必要基础。

在“5.7 C7 The nature-based tourism research community”中,184 篇论文构成最清晰、最独立的研究共同体,核心代表是 Wood et al. 关于利用社交媒体量化自然旅游与游憩的研究。该聚类主要将 Flickr 图像活动作为游客访问量的代理变量,用于国家公园、海岸、保护区及大型自然区域的游客测度。研究结果显示,在自然旅游场景中,Flickr 数据不仅可用于替代难以获得的现场统计,还形成了相对成熟的方法体系,因此该聚类虽与城市旅游、目的地形象等主题联系较弱,却在应用价值和方法稳健性上具有鲜明特征。

讨论部分围绕 Flickr 开放 API 的制度意义展开。研究人员认为,Flickr 的真正贡献不仅是提供了一个数据源,更在于提供了一个全球统一、格式一致、可重复获取的研究基础设施。正因为这种开放性,来自不同国家和地区的研究团队才能围绕类似数据建立可继承的方法体系,推进跨目的地比较研究,逐步形成时空行为分析、路线推荐、目的地形象、地点吸引力、自然旅游监测和机器学习应用等多个研究分支。论文同时指出,随着新一代平台转向封闭生态系统,旅游研究正在失去这种全球可比、可复现的数据环境,未来可能重新碎片化为平台特定、小规模、低透明度的研究格局。作者也承认本研究存在数据库覆盖范围上的限制,即分析对象主要来自 Scopus 检索结果及其直接引文网络,但这并不改变 7 个主要共同体的识别结论。

研究结论部分可译为:最早利用 Flickr 地理标记照片理解游客动态的被引研究发表于 2008 年。该研究勾勒了一个独特方法范式的生命周期,即一个持续 15 年的“开放数据”时代,在这一时期,Flickr 作为全球统一的游客行为与目的地形象度量基础。研究分析表明,Flickr 不仅提供了新的数据采集方法,而且从根本上改变了旅游研究的认识论格局,促进了协作性方法的发展、增强了研究可重复性,并推动了全球比较研究。开放 API 社交媒体平台使多个大型且相互独立的全球研究共同体得以在旅游研究中迅速发展;如果没有这类开放用户生成内容平台,上述 7 个具体研究主题或方法都不可能取得同等程度的进展,其中部分领域甚至难以形成。Flickr 时代的遗产在于,它证明了开放获取社交媒体数据能够推动旅游研究的理论演进;而在研究转向新平台之际,学术界必须正视算法“黑箱”和精确地理定位缺失所带来的限制,并继续倡导面向研究目的的伦理性开放数据共享框架。

生物通微信公众号
微信
新浪微博


生物通 版权所有