下载解压以后,上传文件到对应任务即可
下方为题目演示,上方支付后即可获取答案下载链接
网页爬取与内容可视化
一、实训内容
爬取网页数据,提取网页中的中文内容,分词后绘制词云图,以分析网页内容主题和风格特点。
可选扩展内容:基于BeautifulSoup的网页内容解析、基于宽度优先搜索与网址提取的多网页内容爬取、基于多网页内容爬取和词云图可视化的网站主题分析。
二、实训要求
1.了解网页数据的基本格式与网页中文本内容的组织方式。
2.理解python中中文字符编码范围,能够利用给定公式筛选字符串中的中文内容。
3.掌握基于requests包的网页内容爬取方法;基于jieba工具的中文词切分方法;基于collections.Counter的词频统计方法;基于wordcloud的词云图绘制方法。
三、实训步骤及实训作业提交要求
本实训包含4个主要步骤,每个步骤的内容如下:
步骤1:基于requests获取指定网页的网页源代码,网页链接地址为:http://www.ouchn.edu.cn,提交数据获取的代码及获取的网页源代码。
步骤2:网页数据中的中文文本全部筛选,提交数据获取的代码及获取的中文文本。
步骤3:基于jieba的中文分词与词频统计,提交分词代码及打印词频前十的词汇。
步骤4 基于wordcloud的词云图可视化,提交词云图的代码及绘制的词云图图片。
请将上述4步的操作代码及截图放在一个word文件中提交,提交时请按实训步骤标注清楚。
综合实训
一、实训内容
综合利用实训1-2所学内容,学生自选网站(类型不限),开展数据获取、分析、可视化等内容。
二、实训要求
通过该综合实训,理解大数据处理、分析、可视化的相关技术与流程。使学生将所学知识融会贯通,提高学生分析问题和解决问题的能力。
三、提交要求
请撰写实训报告,清楚的描述数据获取、数据分析和数据可视化的全部过程,并根据整个分析过程提出可行性意见。
评论0