自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (12)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

转载 数据湖的优点 Data Lake VS Data warehouse / 数据湖与数据仓库的区别

数据湖的优点 提供不限数据类型的存储 开发人员和数据科学家可以快速动态建立数据模型、构建应用、查询数据,非常灵活。 因为数据湖没有固定的结构,所以更易于访问 长期存储数据的成本低廉,数据湖可以安装在低成本的硬件在,例如: 在一般的X86机器上部署Hadoop 因为数据湖是非常灵活的,它允许使用多种不同的处理、分析方式来让数据发挥价值,例如:数据分析、实时分析、机器学习以及SQL查询都可以。 Data Lake VS Data warehous..

2021-02-28 19:40:56 192

转载 spark 什么是数据湖? 什么是deltalake?

What is a data lake?A data lake is a centralized data repository that is capable of storing both traditional structured (row and column) data, as well as unstructured, non-tabular raw data in its native format (like videos, images, binary files, and more

2021-02-28 19:21:39 158 1

原创 Jstack 分析哪一行代码慢 ?jvm 打印出线程栈分析

面试题:后台只有一台服务器,上线后发现,只有1个接口请求很慢,其他接口的请求和反应时间很正常,该怎么分析?怎么找出是哪行代码导致的慢?是在线上,当然不能测试或单步调试。答案:打印出线程栈分析。举例:/** * @Author liuyazhou * @Date 2021/2/25 16:30 * @Version 1.0 * @Desc *//** * 同步线程 */class SyncThread implements Runnable { private

2021-02-27 18:44:30 130

转载 JVM 内存分析MAT使用方法

Shallow Size (对象自身占用的内存大小)Retained Size (被GC后Heap上释放的内存大小)with outgoingreferences(查看对象为什么消耗内存,查看对象引用的其他对象)with incoming references(查看对象被谁引用)https://www.cnblogs.com/hanlinhu/p/10174185.htmlMAT工具介绍工欲善其事必先利其器,学会使用工具也是一种本领。本篇文章就把自己之前工作中用到的一个内存分析工具.

2021-02-27 17:45:11 101

转载 JVM MAT分析器中的shallow heap 和 retained heap详解

shallow heap:对象本身的大小,如果是数组或集合则是各个元素的总大小。retained heap:对象本身的大小 + 引用的其他对象的大小。一个对象的shallow heap的大小指的是该对象在没有引用其他对象的情况下本身占用的内存大小。一个普通对象的shallow heap 的大小(不包括数组类型)依赖于它含的方法,元素的大小。而一个数组类型的shallow heap的大小则依赖于数组的长度和数组里面元素的类型。集合类型的shallow heap的大小则指的是集合所包含的所有对象的大小.

2021-02-27 17:28:12 129

原创 JVM 频繁full gc / oom内存溢出/ 分析工具 jmap/Jconsole 用法

分析解决方法:1 用JVisualVM 或Jconsole 分析 进程(不用jmap dump出镜像,JVisualVM功能比Jconsole强大)2 先用jmap dump出镜像,再导入mat分析-------------------------Java内存分析工具MAT(Memory Analyzer Tool)JVisualVM是一个集成多个JDK命令行工具的可视化工具。可以作为Java应用程序性能分析和运行监控的工具。Jconsole是JDK自带的监控工具,在JDK/b.

2021-02-27 12:47:02 132

原创 JVM性能监控于故障处理工具 jps/ jstat/jinfo/jmap/jhat/jstack/HSDIS/jconsole/jvisualvm

1 jps:虚拟机进程状况工具:查看当前运行的java进程id,后面的许多命令都是基于此命令找到pid再进一步排查问题。2 jstat:虚拟机统计信息监视工具,如每隔10s监视jvm的运行状态3 jinfo:用来查看正在运行的 java 应用程序的扩展参数,包括Java System属性和JVM命令行参数;也可以动态的修改正在运行的 JVM 一些参数。特别说明两个命令 -->jinfo -flag [ + | - ]name pid开启或者关闭对应名称的参数。使用 ji.

2021-02-27 12:38:36 43

原创 mac 如何查看 java程序的进程id ?

尝试在终端中使用ps aux | grep APP_NAME。92249 就是这个Java应用的进程id

2021-02-27 12:18:18 291

转载 数据结构 小顶堆建堆过程 构建过程

【一】简介最小堆是一棵完全二叉树,非叶子结点的值不大于左孩子和右孩子的值。本文以图解的方式,说明最小堆的构建、插入、删除的过程。搞懂最小堆的相应知识后,最大堆与此类似。 最小堆示例:【二】最小堆的操作最小堆的构建:初始数组为:9,3,7,6,5,1,10,2按照完全二叉树,将数字依次填入。填入完成后,从最后一个非叶子结点(本示例为数字6的节点)开始调整。根据性质,小的数字往上移动;至此,第1次调整完成。注意,被调整的节点...

2021-02-26 18:53:20 371

转载 Java cas 与 synchronized 的区别

1、对于资源竞争较少的情况:性能cas>synchronized,使用synchronized同步锁进行线程阻塞和唤醒切换以及用户态内核态间的切换操作额外浪费消耗cpu资源;而CAS基于硬件实现,不需要进入内核,不需要切换线程,操作自旋几率较少,因此可以获得更高的性能。2、对于资源竞争严重的情况:性能cas<synchronized,CAS自旋的概率会比较大,从而浪费更多的CPU资源,效率低于synchronized。转自https://www.cnblogs.com/everS..

2021-02-26 16:08:23 115

转载 ClickHouse为何那么快?逻辑数据模型/物理存储模型/核心特性/不足

ClickHouse 架构集群架构ClickHouse 采用典型的分组式的分布式架构,具体集群架构如上图所示: Shard:集群内划分为多个分片或分组(Shard 0 … Shard N),通过 Shard 的线性扩展能力,支持海量数据的分布式存储计算。 Node:每个 Shard 内包含一定数量的节点(Node,即进程),同一 Shard 内的节点互为副本,保障数据可靠。ClickHouse 中副本数可按需建设,且逻辑上不同 Shard 内的副本数可不同。 ZooKe

2021-02-26 15:31:51 218

转载 ClickHouse向量化执行 漫谈SIMD、SSE指令集与 ClickHouse为何那么快?

前言ClickHouse之所以会像闪电一样快("blazing fast"),是多方面优化的结果,包括且不限于:高效且磁盘友好的列式存储,高效的数据压缩,精心设计的各类索引,并行分布式查询,运行时代码生成等。另外,ClickHouse为了最大限度地压榨硬件——尤其是CPU——的性能,实现了向量化查询执行(vectorized query execution)机制。这个名词相对于上面的那些可能没那么平易近人,但它毫无疑问是CK相对于传统OLAP引擎的大杀器。鉴于现有资料中讲解CK向量化执行的内容很少,

2021-02-23 11:08:31 263

原创 Mysql表到多大数据量才开始分库分表?垂直切分/水平切分

分库分表是现在应对大量数据常用的手段,使用分库分表主要考虑:1、数据容量单表是否超过1000W2、单表容量到了1000W以上基本上稍微复杂一点的SQL都需要仔细优化,这时候的SQL耗时主要集中在磁盘IO上,数据命中缓存的概率降低,总之不好搞如果是正常的互联网项目,提前分库分表,在前期能做的先做了,后面会省很多时间处理数据迁移的事情...

2021-02-22 22:04:47 701

原创 Spark 解决倾斜

1 提前过滤异常值2 增大shuffle并行度3 两阶段聚合(局部聚合+全局聚合)4 异常值 join ......on -rand()*100000 随机值5 broadcast joinhttps://programskills.blog.csdn.net/article/details/111667492大key 随机值扩容 重启时 随机值变化 ? 有问题?...

2021-02-22 21:52:20 22

转载 Spark Cache 和 Checkpoint 区别

cache checkpoint rdd.persist(StorageLevel.DISK_ONLY) 使用场景 会被重复使用的(但不能太大) 运算时间很长或运算量太大才能得到的 RDD,computing chain 过长或依赖其他 RDD 很多的 RDD 存储位置 内存 磁盘或HDFS 磁盘或HDFS 是否保存血缘关系 保存血缘关系(内存不可靠,cache丢失时可以重新计算) 不保存血缘关系(HDFS可靠保存) ...

2021-02-22 16:30:39 98

转载 Kafka事务使用和编程示例/实例

一、概述​ Kafka事务特性是指一系列的生产者生产消息和消费者提交偏移量的操作在一个事务中,或者说是一个原子操作,生产消息和提交偏移量同时成功或者失败。 注意:kafka事务和DB事务。 在理解消息的事务时,一直处于一个错误理解是,把操作db的业务逻辑跟操作消息当成是一个事务,如下所示: void kakfa_in_tranction(){ // 1.kafa的操作:读取消息或生产消息 kafkaOperation(); // 2.db操作 dbOperation()

2021-02-22 12:28:20 112 1

转载 Flink两阶段提交协议 + Kakfa事务 保证端到端唯一 /TwoPhaseCommitSinkFunction / Kafka的幂等性和事务

文章目录Flink两阶段提交 1.EXACTLY_ONCE语义 2.Kafka的幂等性和事务 2.1 幂等性 2.2 事务 3.两阶段提交协议 4.TwoPhaseCommitSinkFunction 参考文献 Flink两阶段提交1.EXACTLY_ONCE语义EXACTLY_ONCE语义简称EOS,指的是每条输入消息只会影响最终结果一次,注意这里是影响一次,而非处理一次,Flink一直宣称自己支持EOS,实际上主要是对于Flink应用内部.

2021-02-22 11:28:38 622

转载 Flink. Runtime核心架构

1. Flink Runtime 概述1.1 概述Flink RunTime是介于底层部署与DataSteamApi或DataSetApi之间的一层,以JobGraph形式接收程序,将任务task提交到集群上执行,RunTime层可以适用不同底层部署模式。Flink Runtime总体架构如下如所示:[支持分布式Stream作业的执行、JobGraph到ExecutioGraph的映射转换、任务调度等,P11]主要分为Client ,JobManager, TaskManagerClie

2021-02-21 18:53:49 36

转载 Flink 三种时间机制、窗口机制 与 sparkStreaming storm 区别

窗口的使用方式:DataStream input = ;input.keyBy(new MyKeyselector()).window(TumblingEventTimeWindows.of(Time.seconds(5))) //assigner.evictor(TimeEvictor.of(Time.of(2,TimeUnit.SECONDS))) //evictor.trigger(EventTimeTrigger.create()) //trigger.allowedLate

2021-02-21 18:13:37 111

转载 数据仓库--通用的数据仓库分层方法?为何分层?ODS/ DW/DWD/DWS/APP

0x00 概述数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。因此,本文将指出一种通用的数据仓库分层方法,具体包含如下内容:介绍数据分层的作用提出一种通用的数据分层设计,以及分层设计的原则举出具体的例子说明提出可落地的实践意见0x01 数据分层?“为什么要设计数据分层?”这应该是数据仓库同学在设计

2021-02-20 16:09:04 280

split_csv.sh

v6.csv有200多万行,excel的一个sheet最多显示104万行左右,显示不全,那么如何切分呢? 亲测可用

2020-03-21

android通过servlet与服务器验证用户信息

成功返回success,失败返回failed 1注意manifext.xml的权限 2 servlet project的类一定要extends httpservlet 3 servlet project中,com是包名,所以Tomcat是...classes/com/xxx.class 4 192.168.0.107是电脑的IP,需要手机电脑连接的是同一个wifi,电脑的防火墙一定要关闭

2016-03-26

mhd raw metaimage java读取类

亲测可用,mhd raw metaimage java读取类。mhd raw metaimage java读取类。mhd raw metaimage java读取类。

2017-10-18

commons-configuration-1.6.jar

解决..java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration, 亲测可用

2016-07-08

全国省市县区域名称

省市县区域名称,例如: ................. 240: 云南省:昆明市 240864: 云南省 昆明市 东川区 240865: 云南省 昆明市 五华区 240866: 云南省 昆明市 呈贡县 240867: 云南省 昆明市 安宁市 ............

2015-11-17

htmlunit-2.31.jar

htmlunit-2.31,亲测可用!能很好的完成抓取需求,能够模拟输入、点击按钮、解析结果

2018-06-10

Navicate for Mysql

包含注册key,解压后即可使用,不用安装,方便快捷。包含注册key,解压后即可使用,不用安装,方便快捷。包含注册key,解压后即可使用,不用安装,方便快捷。包含注册key,解压后即可使用,不用安装,方便快捷。

2017-10-17

joda-time-2.3.jar

DateTime类型,方便使用

2016-11-17

commons-lang-2.5.jar

解决..java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils问题

2016-07-08

拼图游戏C语言

拼图游戏开发,使用语言为C语言类,游戏开发,

2013-05-24

Struts2登录实例--亲测可用

Struts2登录实例--亲测可用,拦截器,Action,值栈......都用到了

2017-05-17

quartz定时任务

不用集成Spring,代码简洁,亲测可用

2017-05-20

二十六画生的博客的留言板

发表于 2020-01-02 最后回复 2020-01-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除