2021年10月22日,为顺应数字经济发展,强化同学们的数据挖掘与处理能力,产业经济系组织了学习分享会,由2021级博士生张文英同学为“商业大数据分析专业”的同学们带来了一场精彩报告,李景华教授、葛建华教授等出席。
张文英开篇明义,首先简要介绍了大数据技术发展的三个动力源:计算、存储、智能。云计算提供了云存储中心和分布式处理,一方面降低了存储成本,一方面提供了强大的计算能力。云计算对于大数据具有很强的支撑作用,从某种观点来说,没有云计算技术,就不会有大数据的被分析和利用。随后,张文英形象的讲到,云计算是互联网大脑的中枢神经系统,大数据是互联网智慧和意识产生的基础,人工智能使得机器拥有理解数据的能力。
紧接着,张文英给大家讲解了数据采集方法,如代码现实爬虫抓取数据、商业爬虫工具、数据平台公开API接口和网络爬虫技术及步骤。现场为大家示范了用pathon爬虫代码,如何抓取天气预报页面的数据进行分析,还举例讲解了商业爬虫工具,如八爪鱼等。
接下来,张文英讲解了数据分析。有监督学习的代表工具有决策树与随机森林等。张文英特别举例说明了决策树最主要的问题点是“这棵树怎么长”,即如何计算有效的信息熵,介绍了ID3算法,C4.5算法,CART算法。随后张文英介绍了无监督学习,主要是聚类分析与关联规则,聚类分析中介绍了基于神经元网络的SOM算法,并以自己的一篇论文为例,为了大家展示了文本挖掘的应用。
最后,李景华、葛建华老师对大数据与经济学研究方法的变革做了归纳,鼓励同学们相互学习、奋发向上,努力提高运用大数据及其工具进行学术研究的能力。
这次学习分享会,使同学们对大数据分析有了更多感性认识,收获颇丰。
文、图/商业大数据分析专业2020级硕士研究生:赵豪