大数据和云计算技术总结 您所在的位置:网站首页 无锡公益律师网官方 大数据和云计算技术总结

大数据和云计算技术总结

2022-05-09 08:03| 来源: 网络整理| 查看: 265

数据收集 

 外部数据收集

    数据源:PC端数据,App移动端数据

  Apache Nutch 主要组件有Crawler,Indexer以及Searcher.爬虫,索引以及查询.利用Lucene技术进行索引,   Heritrix 更专注于网络信息的下载   Solr:Solr 是一个基于Lucene的Java搜索引擎服务器

 内部收集收集  

    数据源:Web日志是由Web服务器产生,生产环境的服务器可能是Apache Nginx Tomcat IIS等.消息收集有两种模式:推送模式和拉取模式

    推送模式:实时性高,系统配置的容量需要超过峰值     拉取模式:主动权在系统,可以缓冲高峰数据   Apache Flume 是一个分布式 可靠以及高可用性的海量数据收集系统.采用推送以及拉取这两种采集模式.是cloudera开源的日志系统   Logstash 是一款轻量级的日志搜集处理框架,   Scribe 是Facebook开源的实时分布式数据收集系统.采用推送模式.   Apache Chukwa 是Apache/Yahoo 监控 数据存储   持久化存储:将数据永久的记录在磁盘上

应用级的分布式文件存储服务:

HDFS 

GFS 

TFS : Taobao File System,

HayStack Fackbook用于存储照片的系统

  数据库存储系统:   HBase 列式存储    MongoDB 文档型存储   Cassandra: 是一套开源分布式NoSQL数据库系统。它最初由Facebook   非持久化存储: 采用Hash的Key-Value存储,适合需要用到缓存Cache的场景

  分布式缓存系统:

Redis: 远程字典服务器Remote Dictionary Server,支持两种持久化方式,RDB镜像以及AOF日志.

  Berkeley:   Memcached: 分布式内存对象缓存系统 开源分布式内存文件系统:Alluxio 数据分析与数据挖掘及机器学习   数据分析方式     离线处理   离线批量处理:   MapReduce   Apache Spark   Apache Flink   类SQL查询,查询引擎:   Apache  Hive    Impala Impala 是Dremel在Hadoop上的复制品,它由Cloudera开发   Apache  Pig  : Google的Sawzall,Yahoo的Pig 和微软的Dryad   Spark SQL   Apache Kylin 是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区   搜索引擎: 查找数据   全批量+消息机制:消息传递方式:点对点以及发布订阅模式 消息服务机制:JMS:ActiveMQ   Kafka kafaka消息机制  LinkedIn的     在线处理     Apache Strom: Twitter公司开源的   Apache Spark Streaming:微批量   数据挖掘与机器学习   Apache Spark MLi   Apache Mahout   TensorFlow   DMTK   Torch 分布式协同与管理   集群资源管理    Apache Spark自带的集群管理Standlone,如果并发的跑任务,就需要一个资源调度系统,资源调度要依托于第三方系统,比如YARN或Mesos等      YARN : YARN同时支持内存和CPU两种资源的调度,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,

    Mesos: 协同器独立出来设计成通用的,可伸缩的协同系统

 集群的一致性管理

Chubby: Google提出中心化的组件Chubby—粗粒度锁服务,通过锁原语为其他系统实现更高级的服务 Apache Zookeeper: Yahoo!借鉴Chubby的设计思想开发了Zookeeper,并将其开源.提供生态系统的协同实现,paxos算法是Zookeeper的核心 FourInOne:消息中枢模式   管理与配置

Apache Ambari: 是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群

OpenStack Sahara:  在OpenStack上构建大数据服务

 Cloudera Hue: 是一个基于WEB的监控和管理系统 信息检索与数据可视化 信息检索     Apache Lucene是一个全文检索引擎程序库.     Elasticsearch

    Solr

数据可视化

R language

  D3.js   OpenRefine   Tableau Public   Datameer 商业软件 大数据相关技术

   Apache Sqoop: 提供了关系型数据库和HDFS之间的相互转换。

  Apache Avro: 是RPC项目,类似Google的protobuf和Facebook的thrift 

注释:  1.  hadoop有Apache版本,CDH版本,以及HDH版本. Apache JMeter是Apache组织开发的基于Java的压力测试工具  2.本地文件系统:本地文件系统如ext3,reiserfs等(它们管理本地的磁盘存储资源、提供文件到存储位置的映射   分布式文件系统,网络文件系统:NFS(Network File System)即网络文件系统   系统级别文件系统和应用级别文件系统: 3.Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)新技术——Caffeine、Pregel、Dremel Caffeine 主要为Google网络搜索引擎提供支持 Pregel 主要绘制大量网上信息之间关系的“图形数据库”,解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。 Dremel 可以在极快的速度处理网络规模的海量数据 4.分布式图计算框架: Spark GraphX 5.Tachyon正式更名为Alluxio,查询引擎

云技术

云技术 Cloud technology:云硬件、云平台、云服务    云计算:是分布式技术+虚拟化技术+服务化技术   分布式技术:   虚拟化技术:资源虚拟化,同意分配监测资源,向资源池添加资源,有专门的工具   服务化技术:      SAAS 软件即服务     PaaS 平台即服务     IaaS 基础设施即服务

  云系统

      公共云       Amzaon S3. 亚马逊简单储存服务(Amazon S3)       微软Azure、       Google云       阿里云

腾讯云

华为云       私有云创建工具       Openstack OpenStack理解为一个提供私有化部署的AWS.       Nova计算服务、       Keysyone认证服务、       Glance镜像服务、       Swift对象存储和       Horizon组件。       Mesosphere   云时代部署: 配置管理系统:chef 容器化技术:Containerization容器使应用程序的跨平台可移植性比以往任何时候都更容易,它解决了开发环境与生产环境差异的老问题.发布软件 镜像.容器 链接 数据卷

1.分布式系统与计算机网络的主要区别不在它们的物理结构上,而是在高层软件上。分布式系统是一个建立在网络之上的软件系统。这种软件保证了系统高度的一致性与透明性。分布式系统的用户不必关心网络环境中资源的分布情况,以及联网计算机的差异,用户的作业管理与文件管理过程对用户是透明的 2.云技术,私有云OpenStack Swift,容器化技术Docker

3.之前的技术  ETL:Kettle,EDW:企业数据仓库 .BI:商业智能

4. 企业:    国外:Google.Facebook.twitter.Amazon.ebay.Microsoft .IBM.Cloudera

国内:阿里巴巴,腾讯,百度,美团,华为,网易.新浪

参考: 大数据架构商业之路:从业务需求到技术方案 http://yuedu.163.com/source/19a1c92b746a4cefbafc200151cbc3d3_4     


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有