【GeoScience Café】卢宾宾:展现空间“别”样之美2016年7月19
卢宾宾:首先在回归结果中,会有一个拟合优度统计量,即R方。一般认为R方越大,模型拟合越充分,即自变量对因变量的解释越充分。但实际上,R方会随自变量数目的增多而增大,所以后来人们又构造了调整后R方(AdjustedR-square)。自变量数目增加还会对模型带来多重共线性风险,使得OLS估计式β=(XWX)-1XTWy中的逆矩阵不唯一,给系数估计带来不良影响。所以要通过赤池信息准则等判别方法选择最优模型。
卢宾宾,遥感信息工程学院教师,毕业于国家地理计算中心(国立大学梅努斯分校),师从MartinCharlton教授、StewartFotheringham教授和PaulHarris博士,在IJGIS、JournalofStatisticalSoftware等国际期刊发表论文6篇,R函数包GWmodel开发者。研究兴趣为地理加权建模、空间异质性、空间统计。
卢老师是R语言GWmodel函数包的开发者。当前,GWmodel函数包已被广泛地运用于地理加权计算领域。对于全局模型不能很好拟合的数据,GWmodel函数包展现了较强大的分析能力。其功能涵盖了地理加权分析的各大类别。且卢老师已用C++更新了函数包,极大地提高了运行效率。函数包的安装也十分便捷。打开R软件后,单击菜单栏的Packages选项,在下拉框中选择Installpackages,在系统提示下选择以“China”开头的镜像地址,后在Packages列表框中点击GWmodel,系统便会自动安装。小伙伴们快来体验一下吧!
经典的统计学中有许多分析指标,如平均数、标准差等。将其赋予地理权重后,便成为关系的函数,进而将样本的地理信息纳入研究范围,这一修正是对现实世界更加“客观的抽象”。比如用地理加权相关性分析可以更好地展现区域水体污染情况。再者,主成分分析能够有效地降低变量维度,选出作用更为显著的变量。而实际上,不同变量对各区域的影响程度往往并不一致。纳入地理权重的主成分分析可以更好地显示对于某一地区影响更为显著的变量,从而“因地制宜”地进行研究。地理加权判别分析利用以往的数据估计判别函数中的待定系数,从而预测样本未来的发展情况,如属于何种类别,一个有趣的实验是利用地理加权判别预测美国各州选情。
风景优美,独具特色的黑啤也广受推宠。国家地理计算中心(国立大学梅努斯分校)云集了MartinCharlton、StewartFotheringham这样的地理学大咖,宜人,是一个非常适合学术研究的地方。然而,学术之免不了孤独与阻碍,但正是在这样的过程中,个人的能力才得以提升,才能够培养自主的思考能力和开拓进取的探索。
在导师选择方面,卢老师认为如果能有明确的研究方向和心仪的导师,常好的,但若没有明确的导师选择意向也不妨去一个综合排名或专业排名较好的大学。然而导师的选择只是一个方面,还要学会同导师沟通,形成良好的互动氛围,这样才能向导师学到真本领。最后,也是最重要的,便是推动。读博,尤其是在异国他乡读博,都并非易事,要学会享受孤独并不懈地努力。
随着地理信息科学的不断发展,空间数据关系异质性研究已经成为了空间定量分析领域研究的热点。1996年,Fotheringham等人提出地理加权回归分析(GWR)技术,迅速成为主要的区域分析方法之一。作为Fotheringham团队的核心之一,卢宾宾为大家生带来了GWR、GWSS、GWPCA、GWDA等地理加权模型的前沿理论,并通过案例展示了R函数包GWmodel在相关领域的实际应用,最后分享了异国求学的点滴体会。卢老师的报告幽默风趣、引人入胜,让同学们受益匪浅。
空间异质性的成因有很多,首先研究数据来源于不同的地理区域,使其本身存在空间差异;再者研究者获得的只是总体中的一部分样本,存在抽样差异;此外,研究模型的差异及其他背景信息的不同也会造成空间异质性。地理加权总体上是基于空间距离进行权重设置,这一加权方法已被越来越多地用于各种空间分析技术,如空间插值算法、聚类分析、空间自相关分析等。
核心提示:随着地理信息科学的不断发展,空间数据关系异质性研究已经成为空间定量分析领域研究的热点。在本期GeoScienceCafé中,卢宾宾老师不仅从数学统计的视角阐述了地理加权模型的内在理论,还介绍了这一模型在R函数包GWmodel中的实际应用。报告最后他还分享了海外留学体会。
GeoScienceCafé以“谈笑间成就梦想”为口号,采取最的交流方式,每期邀请1-4位报告人,针对自己正在进行的研究展开报告。每周五晚7:30,在武汉大学测绘遥感信息工程国家重点实验室四楼休闲厅举行当期活动。报告内容不仅涉及一切与测绘有关的学科内容及学术方法,如测绘基础学科、地理信息系统、摄影测量与遥感、全球定位系统、激光雷达技术、信号处理,还包括地理信息科学以外的话题,如法律和艺术等。让任何感兴趣的人——不仅是地理信息相关专业的师生,还包括其他专业的师生,甚至是文科生——都可以听取报告,并当场向主讲嘉宾提问或者会后与其交流。
地理加权模型通过权重函数对空间变化所带来的变量关系空间异质性和多相性的建模过程,所有的统计量均是关于的函数。这其中的关键便是权重设置。依据地理学第一定律,Everythingisrelatedtoeverythingelse,butnearthingsaremorerelatedthandistantthings,在权重设置时,距离每个解算点越近的数据点会拥有更高的权重。
具体而言,每个数据点的权重可由权重核函数确立。常用的权重核函数包括高斯核函数、均值核函数、二次核函数等。带宽是核函数中的关键参数,它衡量了对解算点具有显著影响的数据范围。带宽有固定型与可变型之分。前者取距解算点固定距离的阈值为带宽,但可能造成解算点密度不一致时,模型解算在某些回归分析点的模型解算出现过采样或采样点不足的情况;后者每个解算点均有相同数量的数据点,带宽值是随着回归分析点的不同而不同。
在进行地理加权回归分析时,可采用StepAIC的方法进行模型选择,对比不同模型估计系数的显著性及AIC值。单个AIC值并没有太大意义,应当比较不同模型的AIC值,当AIC值波动小于3时,可以说明各模型之间没有“统计学意义上的显著差异”,再从这些模型中按实际需要综合选择。地理加权回归的优点之一是其结果可以很便捷地进行空间可视化。就每个自变量而言,各个空间(解算点)上都能生成自己的回归系数,若将这些回归系数呈现在地图上,则可以清晰地看到同一自变量对因变量在不同区域的影响情况。比如用房屋售价作因变量对自变量房屋面积回归,回归系数即为单位面积房价,呈现在地图上则可以清晰地看到高房价与低房价地区的分布情况。
不同的带宽会给计算结果带来显著差别。相同情况下,带宽越小,较远点获得的权重也较小,换言之,小带宽只取用距离解算点更近的数据来进行估计,这使得估计偏差较小,但由于用的数据点少,方差会增大,函数估计值起伏较大;反之,带宽越大,估计偏差会增大,但方差减小,估计值在研究区域内会趋于稳定平滑。综上,带宽选择要经历“偏差与方差权衡”(Bias-VarianceTradeoff),应取偏差与方差“同时”达到最小时的带宽值。十字交叉验证与赤池信息准则(AkaikeInformationCriterion,AIC)提供了定量层面的带宽选择依据,其中赤池信息准则兼具简洁性和精确性,应用较为广泛。一般情况下,对于具有不同带宽的模型,应优先选择AIC值最小的那一个。