༺歲月蹉跎༻

只要路是对的,就不怕路远!

0%

1、基础语法

1.1 字面量

  • 字面量:在代码中,被写下来的的固定的,称之为字面量。

  • Python中常用的有6种值(数据)的类型:

    1690696265157

阅读全文 »

1、概述

1.1 生产环境中的问题

  • 生产环境发生了内存溢出该如何处理?
  • 生产环境应该给服务器分配多少内存合适?
  • 如何对垃圾回收器的性能进行调优?
  • 生产环境CPU负载飙高该如何处理?
  • 生产环境应该给应用分配多少线程合适?
  • 不加log,如何确定请求是否执行了某一行代码?
  • 不加log,如何实时查看某个方法的入参与返回值?
阅读全文 »

1、JVM监控及诊断工具-命令行

1.1 概述

  • 性能诊断是软件工程师在日常工作中需要经常面对和解决的问题,在用户体验至上的今天,解决好应用的性能问题能带来非常大的收益。

  • Java 作为最流行的编程语言之一,其应用性能诊断一直受到业界广泛关注。可能造成 Java 应用出现性能问题的因素非常多,例如线程控制、磁盘读写、数据库访问、网络I/O、垃圾收集等。想要定位这些问题,一款优秀的性能诊断工具必不可少。

阅读全文 »

1、Hive简介

1.1 Hive定义

  • Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。

  • Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序

    • Hive中每张表的数据存储在HDFS。
    • Hive分析数据底层的实现是MapReduce(也可配置为Spark或者Tez)。
    • 执行程序运行在Yarn上。
阅读全文 »

1、Explain查看执行计划

  • 在clickhouse20.6版本之前要查看SQL语句的执行计划需要设置日志级别为trace才能可以看到,并且只能真正执行sql,在执行日志里面查看。在20.6版本引入了原生的执行计划的语法。在20.6.3版本成为正式版本的功能。
阅读全文 »

1、HDFS概述

1.1 HDFS产出背景及定义

  • HDFS产生背景:
    • 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种
  • HDFS定义:
    • HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
    • HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。
阅读全文 »

  • ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。

1、ClickHouse的特点

1.1 列式存储

  • 以下面的表为例:

    1657803868443

阅读全文 »

1、简介

  • 如图所示,在Flink提供的多层级API中,核心是DataStream API,这是我们开发流处理应用的基本途径;底层则是所谓的处理函数(process function),可以访问事件的时间信 息、注册定时器、自定义状态,进行有状态的流处理。DataStream API和处理函数比较通用, 有了这些API,理论上我们就可以实现所有场景的需求了。

    1670071576954

阅读全文 »

1、有状态算子

  • 在Flink中,算子任务可以分为无状态和有状态两种情况。

  • 无状态的算子任务只需要观察每个独立事件,根据当前输入的数据直接转换输出结果,如图所示。例如,可以将一个字符串类型的数据拆分开作为元组输出;也可以对数据做一些 计算,比如每个代表数量的字段加1。我们之前讲到的基本转换算子,如map、filter、flatMap, 计算时不依赖其他数据,就都属于无状态的算子。

    1668913605654

阅读全文 »

1、简介

  • 无论是基本的简单转换和聚合,还是基于窗口的计算,我们都是针对一条流上的数据进行处理的。而在实际应用中,可能需要将不同来源的数据连接合并在一起处理,也有可能需要将一条流拆分开,所以经常会有对多条流进行处理的场景。
  • 简单划分的话,多流转换可以分为“分流”和“合流”两大类。目前分流的操作一般是通过侧输出流(side output)来实现,而合流的算子比较丰富,根据不同的需求可以调用union、connect、join以及coGroup等接口进行连接合并操作。
阅读全文 »