分享好友 最新动态首页 最新动态分类 切换频道
大数据应用导论 Chapter1 | 大数据技术与应用概述
2024-11-07 23:14

下面是一些机构的定义: 维基百科: 传统数据处理应用软件不足以处理的大型而复杂的数据集; 包含的数据大小超过了传统软件在可接受时间内处理的能力。 互联网数据中心(IDC): 为了能够更经济地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术。

大数据应用导论 Chapter1 | 大数据技术与应用概述

1、数据量巨大(海量) 2、数据类型众多 数据类型多样,包括各种形式的数据。按分类可分为: ①、结构化数据: Excel文件、csv文件等。 结构化数据为表格形式的数据:每列数据类型相同,切不可再细分。 ②、半结构化数据: 邮件、网页、JSON文件、日志文件等。 这些数据的结构和内容混在一起,没有明显的区分。 ③、非结构化数据: 图片、视频等 3、处理速度快 ①、数据产生非常快,要求处理的速度快; ②、强调实时分析,输入后立即处理; ③、处理速度越快,越有利于创造价值 4、数据来源真实 数据的准确性和可信赖度高 5、潜在价值大 ①、有价值的信息分散于海量数据中 ②、庞大的数据量隐藏了巨大财富 ③、通过数据分析与数据挖掘可豁达价值

1、物联网(Internet of things)

2、云计算(Cloud computing)

3、云平台(Cloud Platform)

4、云计算的关键技术

①、虚拟化: 将一台计算机虚拟为多台逻辑计算机,每个逻辑计算机可运行不同的操作系统,且应用程序互相独立,显著提高计算机工作效率。 ②、分布式存储: 将大数据文件切分为许多快、分散存储再多台机器组成的集群中。 ==Tips:==集群是指将几台服务器集中起来进行一项服务。 ③、分布式计算: 把一个大数据集切分成多个小数据集,分布到不同的机器上并行处理,极大提高数据处理速度。

5、大数据、云计算和物联网的关系:

6、大数据发展大事件

大数据应用的流程:

数据采集我们一般通过Python网络爬虫进行实现; 关于数据存储和数据清洗的问题,可以采用原始的先存储后清洗,也可以先进行数据清洗,然后进行数据存储。

1、数据采集

数据采集:又称数据获取,从传感器和互联网等渠道自动采集信息的过程。 下面为一些常见的数据采集工具:

1、普通

1、python网络爬虫: Urllib:HTTP请求库,用于请求、下载网页 Requests:基于Urllib,但更加快捷方便 Scrapy:爬虫框架,用于从网页中提取数据 2、Webmagic(Java):垂直爬虫框架,简单爬虫开发流程,专注于逻辑功能的开发。 3、BotnetSpider(C#):国人开源的跨平台、高性能、轻量级爬虫软件,.NET最为优秀的开源爬虫之一

2、分布式采集工具

1、Chukwa(hadoop):用于监控大型分布式系统的数据收集系统,构建在HDFS和Mapreduce之上。 2、Kafka:由Apache开源,高吞吐量的分布式发布订阅消息系统。 3、Flume(Cloudera):分布式的海量日志采集、集合和传输系统。

2、数据存储

数据存储:数据以某种格式记录在计算机内部或外部存储介质上。 数据存储不一定是以文件的形式存储,它可以是以数据库的形式进行存储,由数据库决定,怎样写入到文件中或者怎样保存在内存中。 下列为常见的数据库系统:

1、关系型数据库(SQL)

1、MySQL(小型数据库):最流行的关系型数据库管理系统之一,将数据保存于不同表中。 2、Oracle(大型数据库):甲骨文公司数据库管理系统,高效率、可靠性高、适应高吞吐量。 3、SQL Server:Microsoft公司的数据库管理系统,使用方便、可伸缩性好、与相关软件集成程度高。

2、非关系型数据库(NOSQL)

1、Hbase:高可靠性、高性能、可伸缩的分布式存储系统,可在PC Server上搭建大规模结构化存储集群。 2、MongoDB:介于关系型数据库和非关系型数据库之间的产品,功能丰富;基于分布式文件存储数据库,由C++编写。 3、Redis:一个日志型、高性能Key-Value数据库,数据可以从主服务器向任意数量的从服务器同步。

1、数据清洗

数据清洗:为了便于后续的处理和分析,对数据进行的质量诊断、数据整合、数据转换、缺失值处理和异常值处理等操作。

1、数据清洗的方法

1、缺失值处理:对存在缺失的数据进行插补 2、异常值处理:对数据集中存在的不合理值进行处理 3、数据转换:将数据从一种表现形式转换成另一种表现形式

2、数据清洗的工具

1、Mapreduce(Hadoop):基于集群的高性能并行计算框架;并行计算与运行软件框架;并行程序设计模型与方法。 2、Pandas(Python):解决数据分析任务的Python库,提供了诸多数据清洗的函数和方法。 3、OpenRefine:数据清洗工具,能够对数据进行可视化操作,类似Excel,但其工作方式更像数据库。

2、数据分析

利用机器学习等技术从数据中构建模型,从而挖掘出有价值的信息。

1、数据分析的方法:机器学习
2、数据分析的工具

1、Scikit-learn(Python):机器学习库,包含众多机器学习算法,使用方便。 2、Tensorflow:Google开源的深度学习技术,追随者众多,目前最火热的深度学习框架。 3、torch:Facebook力推的深度学习框架,具有较好的灵活性和速度,拥有Python版本Pytorch。 4、Spark:Apache开源的为大规模数据处理而设计的快速通过的计算引擎,拥有机器学习库Mllib。

3、数据可视化

数据可视化是将数据分析的过程与结果用图表等形式进行展示。

数据可视化工具: 1、Matplotlib(Python):一个2D绘图库,可以绘制许多高质量的图形 2、Seaborn(Python):Matplotlib基础上的高级绘图库,运用简单的操作就能够画出较为复杂的图形 3、Tableau:一个强大的数据可视化工具,可实时进行可视化数据分析和数据探索 4、Echarts:由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表

大数据行业的应用比较广泛主要应用到互联网、金融、健康医疗、交通、教育、环境保护等方面。

    以上就是本篇文章【大数据应用导论 Chapter1 | 大数据技术与应用概述】的全部内容了,欢迎阅览 ! 文章地址:http://yy520w.xhstdz.com/quote/3355.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 物流网资讯 http://gzhdwind.xhstdz.com/ , 查看更多   
最新新闻
《南方周末》2024新年献词金句摘抄|守住不惑的底线,选择做最值得的自己
守住不惑的底线选择做最值得的自己1.穿越惑与不惑的边界,求索东方古国现代文明进步的答案,内蕴于我们的基因与使命。2.我们追求真、歌颂善、呈现美,我们抗拒假、斗争恶、暴露丑;我们持续见证、诉说并努力参与那场壮丽的春天的故事,又从
2022跨年祝福语 虎年新年祝福文案大全
  告别2021年,步入,我们又迎来了崭新的一年,新的一年,新的气象,在这新的一年,我们大部分的人都会给身边的亲朋好友,发一些,希望他们在新的一年,身体健康,万事顺利,财源广进,那么我们可以参考一下以下的文案,来送上自己的祝福
公务员考试题库及答案4000题百度网盘资源免费下载地址哪里找资料整理了夸克网盘
公务员考试题库及答案4000题百度网盘资源免费下载地址哪里找资料整理了夸克网盘链接:https://pan.quark.cn/s/64f643af3ac8提示(建议复制后浏览器搜索打开即可,手机用户长按复制打开)资源完全免费,收集与互联网公开分享。说到公务员考试
充满阳光的正能量句子
充满阳光的正能量句子大全  在学习、工作或生活中,大家肯定对各类句子都很熟悉吧,句子由词或词组部分和语调所表示的语气部分组成。究竟什么样的句子才是好的句子呢?以下是小编整理的充满阳光的正能量句子大全,仅供参考,大家一起来看
0门槛0成本15天加满5000微信好友的实操秘籍!
过完年,又要开始寻找目标客户了。客户是什么,客户就是流量,流量在哪里,一个是线下,一个是互联网上。尤其对于微商来说,微信好友就是钱脉,但更多人都无法突破一个微信号,也就是5000人。所以,我想,正因为你需要流量,你才会关注微电
AnyTXT Searcher中文免费版 v1.3.1205
AnyTXT Searcher中文免费版是一款简单好用的文件快速检索工具,用户可以在AnyTXT Searcher中文免费版快速的进行各种文档的检索,适用于各种文档、文本的检索,页面简单轻松功能强大,检索效率高,可以很快的帮助用户找到自己需要的内容,感
分析世界新闻:通过谷歌查询系统探索GDELT项目
用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况?由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集
2022年活跃用户画像趋势报告(小红书平台)
随着用户体量壮大和平台多元化发展,小红书用户的兴趣点,早已从美妆独大变为渗透生活领域的各个方面。那么2022年,小红书不同行业下的用户呈现出什么样的差异化特征?又有哪些发展趋势值得关注?千瓜数据独家推出《2022年千瓜活跃用户画像
今日头条下载安装 app介绍
● 拍照权限允许访问摄像头进行拍照● 使用蓝牙允许程序连接配对过的蓝牙设备● 使用振动允许振动● 使用闪光灯允许访问闪光灯● 录音录制声音通过手机或耳机的麦克● 获取WiFi状态获取当前WiFi接入的状态以及WLAN热点的信息● 改变WiFi状
1年烧光70亿,上海“巨无霸”项目爆冷!烂尾20年3次易主,凉了?
作者:曾有为坐落于上海黄浦老城厢的东北部,临近上海外滩的上海城隍庙与上海豫园,是外地游客“魔都打卡必选”的经典之一,同样也是上海人休闲娱乐的好去处。沿着这片区域的老街漫步,会发现见证上海历史变迁的老式建筑随处可见,风格独特
本企业新闻
推荐企业新闻
发表评论
0评