大数据和云计算技术总结

2022-05-09 08:03| 来源: 网络整理| 查看: 265

数据收集

外部数据收集

数据源:PC端数据,App移动端数据

Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引, Heritrix 更专注于网络信息的下载 Solr:Solr 是一个基于Lucene的Java搜索引擎服务器

内部收集收集

数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式

推送模式:实时性高,系统配置的容量需要超过峰值拉取模式:主动权在系统,可以缓冲高峰数据 Apache Flume 是一个分布式可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统 Logstash 是一款轻量级的日志搜集处理框架, Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式. Apache Chukwa 是Apache/Yahoo 监控数据存储持久化存储:将数据永久的记录在磁盘上

应用级的分布式文件存储服务:

HDFS

GFS

TFS : Taobao File System,

HayStack Fackbook用于存储照片的系统

数据库存储系统: HBase 列式存储 MongoDB 文档型存储 Cassandra: 是一套开源分布式NoSQL数据库系统。它最初由Facebook 非持久化存储: 采用Hash的Key-Value存储,适合需要用到缓存Cache的场景

分布式缓存系统:

Redis: 远程字典服务器Remote Dictionary Server,支持两种持久化方式,RDB镜像以及AOF日志.

Berkeley: Memcached: 分布式内存对象缓存系统开源分布式内存文件系统:Alluxio 数据分析与数据挖掘及机器学习数据分析方式离线处理离线批量处理: MapReduce Apache Spark Apache Flink 类SQL查询,查询引擎: Apache Hive Impala Impala 是Dremel在Hadoop上的复制品，它由Cloudera开发 Apache Pig : Google的Sawzall,Yahoo的Pig 和微软的Dryad Spark SQL Apache Kylin 是一个开源的分布式分析引擎，最初由eBay开发贡献至开源社区搜索引擎: 查找数据全批量+消息机制:消息传递方式:点对点以及发布订阅模式消息服务机制:JMS:ActiveMQ Kafka kafaka消息机制 LinkedIn的在线处理 Apache Strom: Twitter公司开源的 Apache Spark Streaming:微批量数据挖掘与机器学习 Apache Spark MLi Apache Mahout TensorFlow DMTK Torch 分布式协同与管理集群资源管理 Apache Spark自带的集群管理Standlone,如果并发的跑任务，就需要一个资源调度系统,资源调度要依托于第三方系统，比如YARN或Mesos等 YARN : YARN同时支持内存和CPU两种资源的调度,将Spark运行在Hadoop上，本质上是将Spark运行在Hadoop YARN上，因为Spark自身只提供了作业管理功能，

Mesos: 协同器独立出来设计成通用的,可伸缩的协同系统

集群的一致性管理

Chubby: Google提出中心化的组件Chubby—粗粒度锁服务，通过锁原语为其他系统实现更高级的服务 Apache Zookeeper: Yahoo！借鉴Chubby的设计思想开发了Zookeeper，并将其开源.提供生态系统的协同实现,paxos算法是Zookeeper的核心 FourInOne:消息中枢模式管理与配置

Apache Ambari: 是一个基于web的工具，用于配置、管理和监视Apache Hadoop集群

OpenStack Sahara: 在OpenStack上构建大数据服务

Cloudera Hue: 是一个基于WEB的监控和管理系统信息检索与数据可视化信息检索 Apache Lucene是一个全文检索引擎程序库. Elasticsearch

Solr

数据可视化

R language

D3.js OpenRefine Tableau Public Datameer 商业软件大数据相关技术

Apache Sqoop: 提供了关系型数据库和HDFS之间的相互转换。

Apache Avro: 是RPC项目，类似Google的protobuf和Facebook的thrift

注释: 1. hadoop有Apache版本,CDH版本,以及HDH版本. Apache JMeter是Apache组织开发的基于Java的压力测试工具 2.本地文件系统:本地文件系统如ext3，reiserfs等（它们管理本地的磁盘存储资源、提供文件到存储位置的映射分布式文件系统,网络文件系统:NFS（Network File System）即网络文件系统系统级别文件系统和应用级别文件系统: 3.Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)新技术——Caffeine、Pregel、Dremel Caffeine 主要为Google网络搜索引擎提供支持 Pregel 主要绘制大量网上信息之间关系的“图形数据库”,解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。 Dremel 可以在极快的速度处理网络规模的海量数据 4.分布式图计算框架: Spark GraphX 5.Tachyon正式更名为Alluxio,查询引擎

云技术

云技术 Cloud technology:云硬件、云平台、云服务云计算:是分布式技术+虚拟化技术+服务化技术分布式技术: 虚拟化技术:资源虚拟化,同意分配监测资源,向资源池添加资源,有专门的工具服务化技术: SAAS 软件即服务 PaaS 平台即服务 IaaS 基础设施即服务

云系统

公共云 Amzaon S3. 亚马逊简单储存服务(Amazon S3) 微软Azure、 Google云阿里云

腾讯云

华为云私有云创建工具 Openstack OpenStack理解为一个提供私有化部署的AWS. Nova计算服务、 Keysyone认证服务、 Glance镜像服务、 Swift对象存储和 Horizon组件。 Mesosphere 云时代部署: 配置管理系统:chef 容器化技术:Containerization容器使应用程序的跨平台可移植性比以往任何时候都更容易，它解决了开发环境与生产环境差异的老问题.发布软件镜像.容器链接数据卷

1.分布式系统与计算机网络的主要区别不在它们的物理结构上，而是在高层软件上。分布式系统是一个建立在网络之上的软件系统。这种软件保证了系统高度的一致性与透明性。分布式系统的用户不必关心网络环境中资源的分布情况，以及联网计算机的差异，用户的作业管理与文件管理过程对用户是透明的 2.云技术,私有云OpenStack Swift,容器化技术Docker

3.之前的技术 ETL:Kettle,EDW:企业数据仓库 .BI:商业智能

4. 企业: 国外:Google.Facebook.twitter.Amazon.ebay.Microsoft .IBM.Cloudera

国内:阿里巴巴,腾讯,百度,美团,华为,网易.新浪

参考: 大数据架构商业之路：从业务需求到技术方案 http://yuedu.163.com/source/19a1c92b746a4cefbafc200151cbc3d3_4

【本文地址】

公司简介

联系我们