开启辅助访问
 找回密码
 立即注册

突破次元壁,从二次元到元宇宙的空间地理数据分析

回答数0 浏览数81
今天,想用三组概念和三个故事来和大家来分享一下空间数据分析的简要的过程。首先,无论大家来学习什么东西,高效的学习至少要有三个要点。

  • 要明确学习的一个目的,为什么要学这门课;
  • 要有一个正确的学习方法,这样的话就是通过后面 10 次课的学习,可以掌握空间数据分析的一个能力;
  • 数据分析是一个实践性很强的一个学科,是需要一个有效的练习。 我们尽量的带领大家避开一些无用功的一个输出,把所有的练习时间都花在一个有效输出的学习目标。至于学习方法和如何练习,会在课程来体现,先跟大家分享三个概念。
第一个,学习空间分析的目的。

首先这门课的目标是要使大家来学会使用 Python 进行空间数据处理。Python 作为一个开源的脚本语言,考虑到学员里可能有很多这个文科背景的同学对于理科或者编程是有一些陌生的,所以会由浅入深地来分享给大家。分享两个问题,开始之前第一个问题,空间数据处理的能力,为什么在这样一个时间节点上变得越来越重要了。
第二个问题,为什么我们要做数据分析?数据分析本身它的价值是什么?因为知道数据分析行业或者说整个数据行业,现在有一个惊人的利润率。为什么这样的一个行业可以产生巨大的价值,这两个问题跟大家穿插着来分享。

什么是数据?

简单来说,数据是一种信息的载体,是一种符号,可以看到我们的史记,是一种文本的数据。那卡农是一种音频的数据,像韩系载页面图是一种图片的数据,用通俗的话来讲,数据就是一种信息的载体,完成的是一个信息保存,第二个是信息传递的作用。数据就是手机或者电脑里存的这些数字化的一些东西。但是从古往今来看,具备信息承载功能都可以成为数据。所以说广义的数据就是从人类的文明知识开始,人类创造了符号开始,在山顶洞人在山洞里刻下的第一幅壁画来记录第一个故事开始,数据已经产生了。
数据为什么重要呢?

数据从人类的文明开始,就记载人类文明和历史的载体。在出现数据之前有过什么,是未知的。数据是始终伴随着人类文明和历史的进程之中,这就是数据为什么是重要的。

第二个,空间数据是什么?

它跟传统的数据或者一般的数据有什么区别?空间数据主要体现表示物体的位置、形态、大小、分布,四个维度是不同的。这四个维度可以来描述一个物体的现象或者定量。空间数据主要分为两类,一个是图形数据,另一个是图像数据,这两类数据各有各自的性质和优缺点,也是重点来处理的对象,我们会在后面展开分析。举个例子,就是右边的梅花卫星云图,看到了台风正在我国东南沿海正在登陆的过程。如何来描述台风的空间数据?它的位置是用台风眼来表达的,它的大小就是用一个台风的直径。台风的位置和分布就可以从地图上来看出来。黄色的线是海岸线,绿色框是大概框出来,台风影响的范围就是整个波及到东南沿海,以及像浙江、江苏南部、江西、福建、等实务一大片区域都是受它的影响。这是梅花台风的空间数据可以告诉的一些故事。
第二个,这个图形数据,现在看到微信云图,其实就是一个图像的数据,后边会来讲它的图形数据到底是什么。到这里,简单的来思考一下,空间数据为什么是重要的?相比于传统的数据,多了这些描述物体特性的维度,就能使它变得重要吗?

其实每个人的背景不一样,尤其是咱们课程,不同的同学有不同的背景,答案是不同的。那么从我来看,空间数据是可以在与其他类别的数据结合,帮助提炼出来未知的一些信息。空间数据分析就能够定量的来回答之前提到的一些问题,以及今后将要遇到的空间相关的问题。我很崇拜的一个哲学家迪卡尔来借用他的一些理论来跟大家分享。为什么认为空间数据是很重要的。首先,笛卡尔在第一哲学里提出了物质的广言这样的概念。什么意思?广言是说所有的物质就是作为一个人类生活在一个三维空间里。所有的人、物质都必然会有一个长宽高的空间属性。这种属性决定了任何的物质或者个体在三维世界里都是必然存在一个空间信息的,会产生一个空间数据,决定了在这样一个世界里,任何的两种物质不可能同时出现在同一个空间之中。对于人类社会来说,空间是唯一的且稀缺的一种资源,具有排它性的。
理解了空间的特性,可以知道为什么北京的房子总永远是不够的,为什么靠拓宽马路,永远无法解决交通拥堵,或者为什么人类永远无法两次踏入同一条河流。空间数据分析就是基于空间的特性来回答这些问题。

接下来就用三个故事或者说三个三类比较常见的空间分析案例,向大家来分享空间分析的具体过程。
第一个故事,是疫情地图的案例



一个非常经典的疫情地图。如果是公共卫生学科、公共管理、城市规划学科的专业,应该见过这个地图。在 19 世纪的欧洲,尤其是在英国,是处在工业革命和城市化的进程里。那时候的城市,不像现在有丰富的地下管道或者是城市上层空间的建筑。当时的城市是生活污水和垃圾是随处的倾倒。整个街上就弥漫着各种臭味,由于工业化带来的空气污染也是很严重的。伦敦在 19 世纪是出现过很严重的雾霾,由此导致的很多人患肺癌或者呼吸道的疾病并因此丧生。在 19 世纪的伦敦,如果不幸的染上了霍乱,就会出现严重上吐下泻的症状,会因为过度的脱水引发休克或者其他的并发症,最终导致死亡。当时除了英国,整个欧洲都是霍乱频发的一个状态,每次霍乱的爆发都会使得上万人损失生命。
当时关于霍乱的病因的流行是什么?很多人推测是因为瘴气导致的,因为整个伦敦就是空气质量特别差,认为是污秽的气体扩散导致的。当时一旦出现了霍乱,人们采取的措施就是出门的时候就掩盖了口鼻或者像今天戴上口罩一样。在 1854 年 9 月份的时候,伦敦又爆发了一次霍乱。
当时政府按照呼吸道传染疾病的方式来,采取的防控措施,让大家来进行掩盖口鼻,没有对城市垃圾和排泄物做一个处理,把所有患霍乱病人的排泄物就连同其他的生活垃圾一起倒入了泰武士河。后来就出现了救世主就是中snow ,他是一名麻醉医生,他在他的助理的协助下,就对看到的这张地图,对于当时这个死亡病例特别多的地方,看到黑色的柱状,其实是一条一条的短黑线来叠起来的。就像其他的地方,每一条黑线就代表一个死亡病例。这个地方死亡病例是最多的,因为都是这种叠起来好高,聚集在一起。他跟他的助理就是围绕着苏河区进行了一个死亡居民与城市设施之间关联关系的一个调查,绘制了这样一个疫情地图。
从标记的地图可以看到,在宽街周围附近是有一个唯一的水泵,围绕着水泵出现了大量的死亡案例,就是 pump 这个黑点就是那个水泵。但是一街之隔的北侧,上边这个是北侧的话,就是死亡病例会明显的减少很多。
相比于路南,为什么?因为北方北边是一个啤酒厂,路北边的居民大多数是啤酒厂的工人,这些工人大多数是可以免费饮用啤酒厂的啤酒。所以患霍乱的病例就会少很多。通过一个疫情地图, join snow 就推断出,可能霍乱的传染最终是跟水源有关的,其实是一种消化道的传染疾病。最终发现推动了整个城市的供水和排水系统的发展。就像我们今天城市里都是饮用水跟排生活废水的排水是分离的。
这张图也被视为是整个流行病学的地图来进行疾病研究的一个开端。使用这种地图的方法探寻到了传染病的传播与空间之间的关系,并且进一步的推动了后来干预霍乱的一种公共疾病的措施,起到了很重要的作用。这个案例一直到今天一直是公共卫生、地理学、城市规划学科的一个经典的案例。像我们正在面对的这个新冠疫情,大家从 2020 年开始,像高德地图,百度地图都出了很多的疫情,相关的地图大家也都会在地图的应用里来用。所以对于今天的疫情地图来说,应该是不陌生了,这是一个最经典的案例开始。
为什么标题叫突破二次元,就要从二维的空间数据的分析来走向三维数据和四维数据。接下来看一个思维案例。在美国麻省理工大学的一个城市感知实验室做的一个斯德格尔摩,在新冠疫情中,城市居民的行为数据发生变化的一个案例。这个案例是一个动态的。

首先,课题组是在新冠之后,对格尔摩,整个城市的居民采了两种数据,一种是推数据,第二种是她做了一个问卷。在发推特的时候是可以标记你的位置信息的,这就为空间分析提供了一个空间数据的属性。然后可以看到提供了两种视觉的角度,一种是从上往下的这样一个俯视的视角,直接直观的来看到我们数据在空间二维的角度,在一个分布它的聚集过程。从一个三维的视角就可以看出来在这个点的数据强度。在这个界面,数据强度就是调查对象的活跃程度。这幅展示的就是在新冠病毒里,柱子越高,说明这个位置发推特的人就越多。蓝色表示在疫情期间同样的一组数据,说发推特的数据是什么样的?刚才红色是疫情之前的数据,这样就可以比较出来疫情对于同一个时空范围内,人的行为模式发生了一个变化。

接下来看地理数据,最常见的用法把空间数据和其他的某一个维度的数据来结合起来。现在展示在底下的这一个折线,横坐标是日期,纵坐标是在这一天新增的新冠病例的确诊数。通过空间数据和新冠确诊病例数据的联合分析,课题组发现了就不同的群体,受新冠影响程度的不一样体现在哪些地方?上边的部分,通过数据的空间聚类得到了一个热点图,做法就是可以通过很多的点数据来做合密度分析,通过差分的算法来生成一种相对平滑的热区域和冷区域,刚才的就是热点区域来衡量城市居民到周边生活服务设施的访问频次。比如说居住小区周边的便利店或者超市必备的生活提供生活用品的场所。蓝色的图展示居民到周边的公园,它的频次。红色介绍过了,是疫情之前大家经常聚集的地方,蓝色就是疫情开始之后的一个维度数据。在下边可以看到有四个关键点。第一个点是 risk increased ,是斯德厄尔摩出现了第二个确诊病例之后,在历史的节点,来比较了在疫情发生之前两种数据的差异,可以看到疫情开始之前大家常去的地方,疫情开始之后几乎就不去了,开始之后大家活动的半径明显的就是缩小了。

在第二个关键节点就是随着新冠疫情的发展,斯特格尔摩出台了一个居家政策,所有工作场所也关掉了,大家都开始居家办公,但是保留了公共图书馆开放,这样一个数据反映出来 96% 的图书馆还是开放的。疫情前后的行为数据是比较明显,而且强度也可以看出来是有一个差距的。像在下边数据的右下角,大家也可以看到不同的指标,像这个是百分之二百二十九,然后图书馆开放了。第四个关键点是 gathering size restriction 就是政府出台了政策,禁止大家聚集。然后可以看到右下角维度是夜生活减少了89%的强度,像这个餐馆减少了百分之四十三的强度。这是一个比较明显的在疫情分析里常用的一种数据分析的模式。
第二个故事,数字孪生



可能大家听得比较多,数字孪生是什么?其实是相对于我们刚才看到数据的可视化,是把现实世界通过各种的手段采集到现实世界来虚拟出来一个世界。数字孪生体是一对一的建立物理世界对应的数字实体。比如对于北京长安街沿线,要建天安门、故宫、大剧院,然后沿着长安街往东走,建王府井所有的建筑,这是物理世界到数字世界的映射。孪生的意义在于可以从数字世界反向的向物理世界来映射。同时物理世界是存在大量的传感器和响应,可以具备响应动作的机械或者电子器件。

数字孪生现在用的最广的场景就是城市和城市中的智慧园区。数字孪生城市是目前城市化过程中包括城市建设最主要的最热的一个赛道。一个比较成熟的数字园区做得比较好的。因为在数字园区里,尤其是工厂,机械化程度比较高。对数字实体进行一个操作的话,可以直接映射到物理机械实体。比如中控关掉一个关掉或者打开某一个发动机,那么对应的物理实体的发动机就会产生相应的动作,去关闭或者打开,像在北京京东和美团会有很发达的比较先进的配送机器人。在数字空间来操作机器人,来让实体世界的机器人做出一些动作,就是一个数字孪生体的一个双向映射。数字孪生体其实给数字或者空间数据分析带来的一个契机,对于数据分析师来说,最头疼的一个事儿被解决了,就是数据来源的一个问题。整个数字孪生体一旦建立起来,可以实时不断地从物理世界获取源源不断的数据,尤其是空间数据,可以帮助分析师尤其是空间数据的分析师来做出想要的这个结果。
第三个故事,基于空间信息的 Python 空间地理数据分析



其实空间数据和地理数据是有一些不同的,也可以理解成是一个空间的数据。是说空间数据的范畴是更大的地理数据,因为现在是空间数据中体量最大的一类空间数据,所以会把地理数据作为一个主要分析的对象,来作为操作的一个实体。通过对地理数据的分析过程的练习,掌握了对地理数据分析之后,面对其他类别的空间数据,思路方法是一样的。

大家知道 Apache 开发了很多项目,包括我们的 Java 或者做大数据分析,可以知道 MA mapreduce 或者 hadoop 都是他们来做的。
为什么说人体图也是一种空间数据?其实空间数据只要分析的对象实体有空间的属性,就可以用空间分析的方法来进行分析。在案例里,当我们来把鼠标放上来,会来高亮鼠标所在的一个器官。右侧的数据,可以在左侧的代码里去来决定我这个数据右侧的柱状图代表的是什么。现在让它代表的不同脏器的体积,可以看到肝的体积,两个肺的体积是最大的。然后是肾,它只画出了一个肾,这个是胰腺的体积,是整个脏体里最小的,这是小肠、大肠,这是心脏,这样一个空间分析的过程。

其实有没有过学中医的,如果说中医里是讲究阴阳五行平衡,也是讲究不同的脏器之间的相互作用。从西医的角度来看,有的时候心脏的疾病会影响到两肺或者肝脏。在 2016 年参加过互联网医疗项目。当时整个互联网医疗行业,都是尝试使用大数据的方法来建模,把我们的西医或者中医做成一个模型,再进一步的用机器学习来修正我的模型,最后完成一个人工智能来诊断的系统。可以看到就是一个空间数据的分析,也是一个可以帮助诊断不同疾病或者脏器之间相互影响的方法。

第二个例子,就是很有意思的图,就是可以常吃牛排或者有福建的同学喜欢吃牛肉火锅,牛的不同部位的肉,味道和质感是不一样的,肉的价格也是不一样。这张图展示不同位置牛肉的价格。在鼠标放在不同的位置上,会悬浮窗显示的是顶值是100,小的是 5 ,做了一个相对的比较, 85 的位置。就是知道的费力牛排的位置,标深红色的就是特别贵的,黄色的就是相对便宜的地方。同时,这个图还有一个功能,就是可以筛选出来,比如想吃到 50 到 70 块钱的牛肉,应该取哪一个位置?可以拖动底下位置的轴,把然后上限设为 70 如果是一个开牛肉馆,那客人要吃价位的牛肉,就知道要去选这几款牛肉来提供给客人。

我们怎么来理解?在课上学了地理空间数据分析的方法,在面对宇宙的空间分析如何来用?地球其实是一个抽掉海水之后是左边的一个形状,十分不规则的,像一个土豆凹凸不平。现在看到的包括百度地图、谷歌地图,是用了一个椭圆的模型,来把地球给理想化成了一个规则的椭圆。椭圆的过程是把不是说在地球的最外围放一个椭圆把它给包住了,其实是削平了一些高山,比如喜马拉雅山肯定是削掉的,然后填平了很多沟壑,像马里亚里海沟,红海附近的沟壑都是填掉的,得出了一个椭球体,世界上有多个的椭球体,为什么会有多个呢?因为基于椭球体,下一步的要建立我们的坐标系。大家现在熟知的北纬 35 度,我们的温度,我们的温带的区域东经 80 度,应该是国内的区域,区域 80 度带到 125 度的一个带时是北京时间。那么以经纬度来标志的这样一个坐标,叫大地坐标系。就是一个坐标系,可以看到就是原点是地球的中心,它的原点从这儿发射出来一个 xyz 3轴,也就是熟知的笛卡尔坐标系。为什么之前说要感谢迪卡尔,发明了广言的概念,又发明了笛卡尔坐标系,来让我们今天可以来做空间和地理数据的分析。
通过北纬和经度的这个方式,来度量在球体上一个物体空间的位置。当然在具体的分析过程中还会加入海拔高度,所以经度、纬度加海拔,就几乎可以确认你在地球上的位置。无论是 GPS 还是北斗,都是使用大地坐标系来进行定位的。那么到右边可以看到就是使用所有所谓投影的过程,把三维的球体展开到二维的平面上,这是最常见的一个方式。
像谷歌地图如果你不断地缩小,会从平面的地图变成三维的地球。它使用的是叫地理坐标系或者是大地坐标系。那像百度地图和高德地图,你缩到最小的话,它是一个在屏幕屏展开的一个二维的地图。像它用的就是我们叫投影坐标系,就是用地理坐标系经过投影的算法,展开到平面。这是获得地理和空间数据的过程。

如果要走出地球面向宇宙中的做一个分析的话,大家知道,像广义相对论提出了一个观点是重型天体周围的空间是被扭曲的,像地球和太阳周围的空间,不是平直的,会有一个形象化的向左边这个图来展示的,是有一凹陷的,这种平面就是一个非欧几何。笛卡尔坐标系平值的坐标系是建立在欧式几何的一个框架内。在非欧几何一个框架下,欧式几何就用不了。但是可以发现它之间的相似性。就是说其实大 地坐标系也是的非欧式几何的一个模型。可以通过一个投影的算法,把它投影到一个平面的过程。对于任何的从三维向二维的转化的过程,只要它是空间的数据,都可以认为是一个投影的过程。只不过投影是需要使用一些数学的算法来进行计算。像这个图里来,可以看到上边这个椭圆体,通过一些角的方法几何的方法,然后有一些累加累成公式其实特别长,这就没放通过一些方法是可以转化过来的。那么一旦转化过来之后,就可以使用丰富的一种地理数据分析的方法来进行操作。

有没有人这样干的,是有的在这个元宇宙之前,来展示一个有人这样干的一个案例。这个案例是什么?背景是现在都面对这个全球变暖。除了改变能源使用方式之外,有没有一种方法就是来减少太阳辐射到地球的热量。这个团队就想出了一种办法,能不能在地球和太阳之间来放一些用这种气泡组成的一个屏障来吸收一部分热量,被称为这个 go engineering 就是这个地理工程的一种方法。

经过这种理论的测算,其实用这个理论推导的话,这样一个气泡的阵列可以减少太阳到地球 1.8% 的一个热量的辐射。怎么来做呢?首先它来构建了是做出了一个可以在外太空来存在的稳定存在的这样一种气泡。其实在实验室已经研制出来了。随后使用空间数据的一个反向推导的方法,这个点就选在了地球和太阳之间第一拉格朗日平衡点的位置。在这个位置,气泡的阵列受到地球和太阳的引力是相等的,它可以稳定地停在这。当把它放大之后,就可以看到构想出了这样一个圆形的阵列,正好把地球挡在它的背后。就是这样一个很简单的创意,但是这个创意就完全跳出了地球,如何来从宇宙的角度,如何来改变我们的气候变暖的问题。
最后元宇宙的概念。其实元宇宙现在无论是学界还是业界,其实是没有一个取得大多数人共识的一个定义。我在取了中信证券研究部的一个比较便于理解的定义。就可以理解为元宇宙就是在数字孪生的基础之上,把我们每一个人作为一个个体也做了一个数字孪生。每一个人在数字的虚拟空间里都有对应的实体。如果看过头号玩家的电影,会非常容易的来理解概念。
把人本身来数字孪生化了之后,如何面对元宇宙的数据体和现实世界的本身?那么畅想就是元宇宙的部分,也就是我们所说的这个数字世界的部分。由于在树的世界里,我们没有在现实世界里的这个物体的光炎,也就是没有长宽高这样一个必须的空间体。所以我目前是看不到在元宇宙空间中,数字的建筑,或者是人的孪生体,是不存在像物理世界里的一个尸体的唯一性或者排他性的问题。

元宇宙里的空间数据分析会是什么样?这个现在也想不出来,希望大家可以在学习的过程中,能够发现发散自己的思维。即使是在一个元宇宙的时代,无论是分析元宇宙中的数据还是现实世界的数据,最终都是为了来反推每个人他的行为或者进一步的去影响现实世界中人的行为。现实世界只要人类还是以一个三维实体物种的形式存在,那么就必然会产生空间数据以及与之相关的问题。

最后简单地提一下课程。用一分钟补充一下,就是希望课程可以带给大家的一个改变。第一个就是左下角的可以更深入地来理解空间,学完之后大家不会再觉得说空间是一个很虚无缥缈的,或者就看到看周围是所谓的空的东西,可以更深的来理解空间的机理。第二点可能就是如果说在 10 次课的过程中能够紧跟案例同时完成 10 次作业,使用 Python 如果从小白从 0 开始的话,使用 passing 来基本的编程能力是 OK 的。那么第三个就是基于这两种能力来进行分析,可以获得一个通过空间数据来洞察信息的能力,希望能够带给大家的一些改变。回到最开始留下来的两个问题。

第二个问题是比较重要的,希望仔细思考的这样一个问题,就是学课程的目的是什么以及数据分析对于我们每一个人,你自己的价值它到底是什么?所以对于数据行业,尤其是数据分析行业,附加值特别高的这样一个工种,说分析师和数据可视化设计师,现在的报酬都是挺高的,还是一个处于人才严重紧缺的形式下,排除各种人为的原因,我认为是像一种行业,能产生如此高的这个价值,一定有着某些不为人的意愿而改变的一些价值点。
最后就期待大家到时候可以,带着这个问题的答案,我们一起来探索数据之乐。
使用道具 举报