设为首页 | 加入收藏 |
新闻速递

课程建设 | 校企联合共建《城市大数据应用与分析》课程

2023.12.12      绿小居      浏览量:


(图一)步骤

(图二)步骤

(图三)步骤


《城市大数据应用与分析》是面向人居环境学院开设的一门专业核心课程。是一门结合城市规划、大数据等学科交叉而成的专业课程,是一门系统性、综合性的学科课程。内容主要包括:城市规划的相关知识、城市规划的类型、城市规划大数据基本理论与方法、大数据的获取与分析、城市大数据的可视化分析、城市总体规划中的大数据应用、城市设计中的大数据应用等内容组成。2023年对原有课程标准进行了修订,并与西安解构空间设计事务所达成合作,邀请西安解构空间设计事务所所长郝栋对人居环境学院大三学生开展了关于“基于大数据的城市信息抓取”的讲座。通过本次企业案例的讲座,让人居环境学院学生了解到目前大数据在城市规划背景下的应用情况以及八爪鱼采集器软件的发展前景与应用。让我们一起来回顾一下吧!

一、采集数据前期准备:步骤一、打开网页,采集场景58同城的民宿短租版块发布民宿短租的房源信息教程将详细讲解如何采集这些房源信息,并支持切换城市采集。采集字段城市、标题、出租人、位置、价格、标题链接、坐标等。在首页(输入框]中输入目标网址,点击[开始采集],八爪鱼自动打开网页同时可以看到,流程中已自动创建[循环-打开网页]步骤。这里输入的网址是:https://bh.58.com/minsuduanzu在首页[输入框]中输入目标网址,点击[开始采集],八爪鱼自动打开网页同时可以看到,流程中已自动创建[循环-打开网页]步骤。这里输入的网址是:https://bh.58.com/minsuduanzu特别说明:a.打开网页后,如果开始开始[自动识别],请等待自动识别完成。八爪鱼支持自动识别网页上的列表,滚动和翻页,识别成功后直接启动采集并获取数据。如果(自动识别]的结果不是我们需要的,可点击[取消关闭智能识别,自行配置采集流程。示例中输入的是北海(https://bh.58.com/minsuduanzu/)的网址如需采集其他城市的短租房源数据,请点击网页中相应位置,获取目标城市的对应网址后,再进行后续采集操作。二、城市数据提取提取字段[城市]:在网页中选中城市的位置,再在操作提示框中点击[采集该元素的文本]。如果不需要此字段,可跳过此步骤。通过以下连续4步,采集所有房源列表中的标题和链接选中页面上列表的一个标题,选择标签A(我们需要采集详情页的链接,一般链接都是在A标签里边)选中[选择全部]在操作提示框中,选择[采集以下链接文本+链接]提取数担。特别说明a.经过以上步骤,就建起了一个循环列表,列表中的项,对应页面中的所有房源列表,同时列表中所有的标题和链接字段被采集下来。房源列表中的标题和链接已经采集到,下一步就是点击链接进入详情页,采集详情页数据了。在操作提示框中,选择[采选择集下一级网页数据],可以字段[字段1_链接],看到八爪鱼自动点击进入详情页,并在流程中生成-步骤[点击列表链接]1、采集页面上可见的字段包括价格、设施等字段,采集方式为:在网页中选中字段所在位置然后在操作提示框中选择[采集该元素的文本]即可。2、采集源码中的字段此网站部分字段没有在页面中直接显示出来,但藏在网站的源码里,比如[房源位置]和[坐标字段。这种情况下,通过在八爪鱼中进行特殊设置可将字段采集下来[房源位置]采集方法:先将鼠标移动到[房源位置]整块区域,然后在操作提示框中,选择[采集该元素的文本],可以看到这样采集到的是空白,还需进行一些设置:点击字段后的选择[修改元素定位],修改XPath为//div[@class="detail-page-location-map"]然后修改元素抓取方式为[元素属性]-[dataaddress],这样就抓取到了[房源位置]的文本,(坐标]采集方法:同样的先采集一个空白字段然后修改XPath为://div[@class="detail-page-location-map"] ,然后修改元素抓取方式为[元素属性]-[data-latlng],这样就抓取到了[坐标]的文本。三、数据清洗。字段采集完成后,可对字段进行自定义编辑。八爪鱼可以修改字段名称、删除多余字段、调整字段顺序等采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。


学校地址:陕西省西安市雁塔区东仪路8号    


Copyright 2017 Xi'an Eurasia University , All Rights Reserved , 陕ICP备13005465-1