利用移动互联网追踪人类迁移特征

台湾中研院人社中心的詹大千团队与远传电信合作,利用资料探勘技术,分析电信公司所统计的行动装置网路讯号,借以建立更准确的人群流动预测模型,有助了解人口流动与社会经济活动的关系。

「人口学」观察与调查区域人口的变化趋势,来帮助我们理解一个区域的特征,例如是否适宜居住、适宜生活、或是适宜工作? 图片来源│iStock
人口学」观察与调查区域人口的变化趋势,来帮助我们理解一个区域的特征,例如是否适宜居住、适宜生活、或是适宜工作?
图片来源│iStock

人是会流动

你有没有想过,一个地区、一个城市,甚至是一整个国家内部,「人」在哪里、在哪里工作、在哪里居住?「长时间」的迁徙趋势是往城市、还是往乡村移动?「短时间」的通勤人口是来自外县市还是不同行政区?

或者你会否好奇,不同的年龄层、性别有没有不一样的生活范围、移动特征?对于某一个商圈、公共设施的选址,是不是建立在一个适宜行人路过的良好地点?

这种探讨与人类迁徙、移动、人口增减等现象的学科,就是「人口学」。

人的流动可能是大尺度的迁移消长,也可能是小尺度的通勤或消费行为。人口学探讨国家或大城市之间的人口消长、人口迁徙时,往往以「数个月」至「数年」作为时间尺度,并利用人口普查、抽查、电话问卷、民调访谈等方式,来了解指定地区的人数和习性。

但是,像这样子的调查方法,长期以来会有取样代表性的疑虑,例如户口抽查时,可能只会调查到刚好在家的族群。而藉由访谈或问卷来了解民众生活型态,也会受到回忆偏差的影响。或是传染病传染区域、或传染路径的预测,运用许多假设与模型来猜测人移动的方式,而降低了预测的准确度。

「动态人口学」的概念被提出来,更精准地了解人口的分布与流动的特征,更细致地分析人们的日常生活与消费行为。

动态人口学

2005年起,「动态人口学」的概念被提出来,在人口学的基础上,透过研究概念与研究方法的改进,更精准地了解人口的分布与流动的特征,更细致地分析人们的日常生活与休闲消费行为,或是有脉络地拆解出不同年龄层、性别、族群等的行为差异。

因此,研究者需要有比既有普查、抽查等方式,还能获得更多资料的研究方法,例如,所取得的资料能精细到越短的时间尺度、越小的空间尺度,才有机会探讨人口,如何处在动态中不断变化,如何受到各种不同环境变数影响。

日常生活中,刚好有一种资料,能表现出「小尺度」的时间与空间下人口分布的特征──就是行动装置的上网资料。

特别是今日的台湾社会,平均一个人拥有两个以上的手机门号,并且多用于持续性的行动上网。因此,透过电信公司于每个基地台所记录到的行动装置网路讯号,我们就可以借此推估各个区域中的实际人口。

例如google利用手机定位纪录来了解交通流量;国内电信业者,也曾纪录正在行动上网的门号数量,来分析中元普渡时,人潮在基隆祭典园区内的流动趋势。 图片来源│Google地图
例如google利用手机定位纪录来了解交通流量;国内电信业者,也曾纪录正在行动上网的门号数量,来分析中元普渡时,人潮在基隆祭典园区内的流动趋势。
图片来源│Google地图

2017年起,在「中央研究院资料科学种子研究计画」支持下,中研院人社中心詹大千副研究员及其团队,与远传电信合作。利用资料探勘技术分析电信公司所统计的行动装置网路讯号,建立更为准确的人口调查方法、人群流动的演算法模型,以此了解人群的流动趋势,来探索动态人口与社会经济活动的关系。

为了确保个资隐私,研究运用的行动装置网路讯号,并非追踪每个人手机的定位,而是加总在不同时段、不同区域中的行动上网门号数。

在空间解析度上,研究团队锁定了「台北市」与「新北市」为研究范围,以每250 公尺x 250 公尺作为一个网格。时间解析度上,则是以每10 分钟作为区间。

如果某一个手机门号的网路讯号,在同一网格中停留超过10 分钟则列入一次计数,这样子的计数意义是将这个手机门号的使用者,视为停留在这个网格中、或是正在步行经过,而并非在交通通勤的路上匆匆擦身而过。因此,我们就可以假定这个使用者,有可能跟这个网格中的设施有所互动。

区分「居住」与「通勤」人口

将手机网路讯号统计资料应用于人口学,就能突破传统研究的许多限制,例如过去对于居住人口、通勤人口、日间人口的估算,均需仰赖户口普查抽查、或是民调访谈等。

詹大千团队锁定资料登记为15 至64 岁的远传电信用户,并设定晚上10 点至凌晨3 点有行动上网讯号的纪录为「手机夜间人口」,早上10 点至下午3 点则为「手机日间人口」,同时比对户籍资料数作为「户籍夜间人口」,就能分辨哪些人住在哪区(因为手机晚上在此有长期的网路讯号纪录),而到了早上这些人又移动到哪区上班(因为手机白天在此有长期的网路讯号纪录)。

从团队推估结果,我们可以轻易地看出日间与夜间、住宅区和商业区的人口差异。也能发现不同性别的日夜分布区域也略有差别,比起传统户口调查的方式更为即时且准确。

行动网路讯号不仅可看出日夜人口分布的差异,还能看出男女也有细微的分布差异。 资料来源│詹大千提供图说重制│廖英凯、张语辰
行动网路讯号不仅可看出日夜人口分布的差异,还能看出男女也有细微的分布差异。
资料来源│詹大千提供图说重制│廖英凯、张语辰

除了找出什么类型的人,会在什么地方工作或居住,上下班时刻看到的庞大人潮,也可以透过行动装置的网路讯号,建构演算法来分析人口流动规律。只要计算随时间推移,相邻网格的人数变化差异,我们就可以掌握人群的移动方向与移动速度。

例如,詹大千团队发现上午8:50 、 9:40 和下午5:00,是人口流速最大的三个时段,而且人潮热区也不同,这就可供交通部门规划合适的通勤疏运方案。

以40-49岁男性为例。早上8:50通勤时,人潮主要往车站、捷运站移动,到了9:40上班时间,人潮主要位于市中心、内湖。下班时间5:00,人潮往通勤区域回巢。 资料来源│詹大千图说重制│廖英凯、张语辰
以40-49岁男性为例。早上8:50通勤时,人潮主要往车站、捷运站移动,到了9:40上班时间,人潮主要位于市中心、内湖。下班时间5:00,人潮往通勤区域回巢。
资料来源│詹大千图说重制│廖英凯、张语辰

统计同一天中40-49 岁人口的流动状况,也可以发现在信义计画区一带,女性的人潮明显多于男性。这样的发现有助于研究者了解性别在不同产业或地区的差异,有机会更进一步找出社会结构的问题、与政策制度的改善方向。

在信义计画区,可看到女性人潮明显多于男性。 资料来源│詹大千图说重制│廖英凯、张语辰
在信义计画区,可看到女性人潮明显多于男性。
资料来源│詹大千图说重制│廖英凯、张语辰

而不同年龄层的流动区域也有差异,甚至透露着生活型态。以2017/1/10 (二) 为例,这天是学期末, 18-24 岁男性多分布于各学区。这天也是工作日,40-49 岁男性多位于市中心与捷运沿线人口稠密区。而65-84 岁男性,则与前述两个年龄层有较不一样的分布,例如集中在北投、万华一带活动。

结合政府开放资料:电子发票、土地利用

有了人口随时间与空间流动的趋势,进一步再结合内政部的「国土利用调查资料」与财政部的「电子发票开放资料」,詹大千团队就能更入微地分类行动用户的族群,并推测其生活特征、消费行为、经济能力。

例如从「时间」来分群,可以观察到有两种群体:一种是在白天出没、离开居住地;另外一种则是早晚出没、离开居住地。比较两群体的消费能力,会发现白天出没的族群消费力较高,早晚出没的族群消费力则较低。

从「出没地点」来看,白天出没的族群分布于服务业、商业住宅、小学与大专校院;而日夜出没的族群则主要集中于住宅区。

因此,从上述资料中,我们就可以推测出:白天出没的族群,可能就是上班族、服务业等大部分通勤族群;而早晚出没的族群,则可能是家管与退休人员。

因此,研究者就可以借此了解一个地区中通勤族与家管、退休待业族群的人口差异。地方政府主管机关,也可以利用这样的推估成果,设计符合该地区的社区营造、或是足以负荷人流的交通规划。

整体人口的移动,其实是由许多种不同的人流所组成。若能细致地分群、找出每一种分群的移动规律,也能将过往的人流资料当作机器学习的训练资料,提升电脑预测未来人流路径的准确度。

资料开放vs. 隐私机密的拉锯

利用手机网路资料,可以更即时、更准确地掌握人口流动的趋势。一切的关键,也在于有没有办法取得这些资料,以及取得资料后会不会损害个人隐私。因此,资料必须去除个资、去识别化后才能被使用。

依目前政府规定,这些手机门号、网路讯号资料被归为电信业者的财产,电信业者可在不涉及个资隐私的状况下运用,但也需肩负监管责任。研究中大量应用到在单一网格中的行动网路讯号数量,对于电信业者来说,其实是一个不方便公诸于世的商业机密。

詹大千团队有赖远传电信指派数位协同人员,协助将资料整理成符合法规、并合适电脑分析的格式,才得以进行这系列动态人口研究。团队研究中遇到的另一个难题,是政府管理的电子发票开放资料时空解析度不足,且开放效率也不够积极,导致无法更细微地分割各区域的商业活动、与人口流动的关系。

其实,运用资料科学来解决问题,已然是近年来相当热门的潮流,各公私部门也多纷纷积极地开办各种黑客松竞赛,希望透过网路社群、技术社群的活力,运用政府资料来发现问题、解决问题。因此,若政府能提升资料品质,并为研究社群建立取得资料的合适管道,就有机会让更多研究者透过资料科学,找到隐藏于巨量资料中的关键线索,一窥社会的真实面貌。

延伸阅读

  • 詹大千的个人网页
  • 林柏丞、郭巧玲、叶耀鲜、杨毓仁、魏敬玲、江丽香、詹大千*,2017,〈运用开放式地理资讯架构于登革热防疫机制之研究〉,《医疗资讯杂志》,26(3), 1-14。
  • Jia-Hong Tang,Yen-Hui Chiu,Po-Huang Chiang,Ming-Daw Su,Ta-Chien Chan*, 2017, “A Flow-based Statistical Model Integrating Spatial and Nonspatial Dimensions to Measure Healthcare Access”, HEALTH & PLACE, 47C, 126-138.
  • 章可藍、蔡煜书、詹大千、束連文、陈娟瑜、颜正芳、 余沛蓁、徐睿、蔡文瑛、陈为坚*,2016,〈地理资讯系统应用于毒品查获空间分布:县市毒品查获地点的分析〉,《台湾公共卫生杂志》,35(6), 671-684。
  • 邓咏竹、郭巧玲、陈建州、叶耀鲜、高瑞鸿、林柏丞、范毅军、詹大千*,2016,〈利用政府开放性资料建构台湾线上互动式疾病死因地图〉,《台湾公共卫生杂志》,第35卷第5期,页553-566。
  • Simini, F., González, MC, Maritan, A., & Barabási, AL (2012). A universal model for mobility and migration patterns. Nature, 484(7392), 96-100.

本文来自研之有物,本文观点不代表沙鸥科报立场,转载请联系原作者。