大数据和云计算技术总结 | 您所在的位置:网站首页 › 无锡公益律师网官方 › 大数据和云计算技术总结 |
数据收集
外部数据收集 数据源:PC端数据,App移动端数据 Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引, Heritrix 更专注于网络信息的下载 Solr:Solr 是一个基于Lucene的Java搜索引擎服务器内部收集收集 数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式 推送模式:实时性高,系统配置的容量需要超过峰值 拉取模式:主动权在系统,可以缓冲高峰数据 Apache Flume 是一个分布式 可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统 Logstash 是一款轻量级的日志搜集处理框架, Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式. Apache Chukwa 是Apache/Yahoo 监控 数据存储 持久化存储:将数据永久的记录在磁盘上应用级的分布式文件存储服务: HDFS GFS TFS : Taobao File System, HayStack Fackbook用于存储照片的系统 数据库存储系统: HBase 列式存储 MongoDB 文档型存储 Cassandra: 是一套开源分布式NoSQL数据库系统。它最初由Facebook 非持久化存储: 采用Hash的Key-Value存储,适合需要用到缓存Cache的场景分布式缓存系统: Redis: 远程字典服务器Remote Dictionary Server,支持两种持久化方式,RDB镜像以及AOF日志. Berkeley: Memcached: 分布式内存对象缓存系统 开源分布式内存文件系统:Alluxio 数据分析与数据挖掘及机器学习 数据分析方式 离线处理 离线批量处理: MapReduce Apache Spark Apache Flink 类SQL查询,查询引擎: Apache Hive Impala Impala 是Dremel在Hadoop上的复制品,它由Cloudera开发 Apache Pig : Google的Sawzall,Yahoo的Pig 和微软的Dryad Spark SQL Apache Kylin 是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区 搜索引擎: 查找数据 全批量+消息机制:消息传递方式:点对点以及发布订阅模式 消息服务机制:JMS:ActiveMQ Kafka kafaka消息机制 LinkedIn的 在线处理 Apache Strom: Twitter公司开源的 Apache Spark Streaming:微批量 数据挖掘与机器学习 Apache Spark MLi Apache Mahout TensorFlow DMTK Torch 分布式协同与管理 集群资源管理 Apache Spark自带的集群管理Standlone,如果并发的跑任务,就需要一个资源调度系统,资源调度要依托于第三方系统,比如YARN或Mesos等 YARN : YARN同时支持内存和CPU两种资源的调度,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,Mesos: 协同器独立出来设计成通用的,可伸缩的协同系统 集群的一致性管理 Chubby: Google提出中心化的组件Chubby—粗粒度锁服务,通过锁原语为其他系统实现更高级的服务 Apache Zookeeper: Yahoo!借鉴Chubby的设计思想开发了Zookeeper,并将其开源.提供生态系统的协同实现,paxos算法是Zookeeper的核心 FourInOne:消息中枢模式 管理与配置Apache Ambari: 是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群 OpenStack Sahara: 在OpenStack上构建大数据服务 Cloudera Hue: 是一个基于WEB的监控和管理系统 信息检索与数据可视化 信息检索 Apache Lucene是一个全文检索引擎程序库. ElasticsearchSolr 数据可视化 R language D3.js OpenRefine Tableau Public Datameer 商业软件 大数据相关技术Apache Sqoop: 提供了关系型数据库和HDFS之间的相互转换。 Apache Avro: 是RPC项目,类似Google的protobuf和Facebook的thrift 注释: 1. hadoop有Apache版本,CDH版本,以及HDH版本. Apache JMeter是Apache组织开发的基于Java的压力测试工具 2.本地文件系统:本地文件系统如ext3,reiserfs等(它们管理本地的磁盘存储资源、提供文件到存储位置的映射 分布式文件系统,网络文件系统:NFS(Network File System)即网络文件系统 系统级别文件系统和应用级别文件系统: 3.Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)新技术——Caffeine、Pregel、Dremel Caffeine 主要为Google网络搜索引擎提供支持 Pregel 主要绘制大量网上信息之间关系的“图形数据库”,解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。 Dremel 可以在极快的速度处理网络规模的海量数据 4.分布式图计算框架: Spark GraphX 5.Tachyon正式更名为Alluxio,查询引擎 云技术 云技术 Cloud technology:云硬件、云平台、云服务 云计算:是分布式技术+虚拟化技术+服务化技术 分布式技术: 虚拟化技术:资源虚拟化,同意分配监测资源,向资源池添加资源,有专门的工具 服务化技术: SAAS 软件即服务 PaaS 平台即服务 IaaS 基础设施即服务 云系统 公共云 Amzaon S3. 亚马逊简单储存服务(Amazon S3) 微软Azure、 Google云 阿里云 腾讯云 华为云 私有云创建工具 Openstack OpenStack理解为一个提供私有化部署的AWS. Nova计算服务、 Keysyone认证服务、 Glance镜像服务、 Swift对象存储和 Horizon组件。 Mesosphere 云时代部署: 配置管理系统:chef 容器化技术:Containerization容器使应用程序的跨平台可移植性比以往任何时候都更容易,它解决了开发环境与生产环境差异的老问题.发布软件 镜像.容器 链接 数据卷 1.分布式系统与计算机网络的主要区别不在它们的物理结构上,而是在高层软件上。分布式系统是一个建立在网络之上的软件系统。这种软件保证了系统高度的一致性与透明性。分布式系统的用户不必关心网络环境中资源的分布情况,以及联网计算机的差异,用户的作业管理与文件管理过程对用户是透明的 2.云技术,私有云OpenStack Swift,容器化技术Docker3.之前的技术 ETL:Kettle,EDW:企业数据仓库 .BI:商业智能 4. 企业: 国外:Google.Facebook.twitter.Amazon.ebay.Microsoft .IBM.Cloudera 国内:阿里巴巴,腾讯,百度,美团,华为,网易.新浪 参考: 大数据架构商业之路:从业务需求到技术方案 http://yuedu.163.com/source/19a1c92b746a4cefbafc200151cbc3d3_4 |
CopyRight 2018-2019 实验室设备网 版权所有 |