Kafka分区策略(源码分析)

# 定义agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 定义source
a1.sources.r1.type = TAILDIR
a1.sources.r1.channels = c1
# 记录读取位置的json文件
a1.sources.r1.positionFile = /home/hadoop/data/flume/pos/taildir_position.json
a1.sources.r1.filegroups = f1 f2
# 指定监控文件
a1.sources.r1.filegroups.f1 = /home/hadoop/data/flume/data/.*log


# 定义channel
a1.channels.c1.type = memory
# a1.channels.c1.capacity = 10000
# a1.channels.c1.transactionCapacity = 10000

# 定义sink
a1.sinks.k1.type = logger

# 将 r1 c1 k1 关联
# 定义配置关系
# source channel
a1.sources.r1.channels = c1
# channel sink
a1.sinks.k1.channel = c1

2.启动

flume-ng agent \
--name a1 \
--conf-file /home/hadoop/script/flume/taildir-memory-log.conf \
--conf $FLUME_HOME/conf \
-Dflume.root.logger=INFO,console

3.测试

此时记录读取文件的位置信息的json文件已经生成，不过现在还没有开始读取数据，所以仅仅是一个空文件
1
2
3
4
[hadoop@hadoop000 pos]$ pwd
/home/hadoop/data/flume/pos
[hadoop@hadoop000 pos]$ cat taildir_position.json
[hadoop@hadoop000 pos]$

测试非指定后缀文件

1
2
3

[hadoop@hadoop000 data]$ touch 1.txt
[hadoop@hadoop000 data]$ echo 111 >> 1.txt 
[hadoop@hadoop000 data]$

注意*： echo 111 >> 1.txt 是追加到文件中，echo 111 > 1.txt 是覆盖文件中的内容

此时控制台是没有任何信息打印的，且taildir_position.json文件也没有任何信息
因为flume监控的是.log结尾的文件，所以其他结尾的文件不在监控范围内

在制定文件夹中创建指定后缀文件

# 在制定文件夹中 新建.log后缀文件
[hadoop@hadoop000 data]$ touch 1.log


# flume打印日志如下  ①处日志是新建文件打印的   只是新建的文件  还未填充数据进去  所有 pos为0
# 相应的查看 taildir_position.json   内容也是 pos:0
[hadoop@hadoop000 flume]$ flume-ng agent --name a1 --conf-file /home/hadoop/script/flume/taildir-memory-log.conf --conf $FLUME_HOME/conf -Dflume.root.logger=INFO,console 
...
2018-04-19 18:42:31,127 (lifecycleSupervisor-1-4) [INFO - org.apache.flume.instrumentation.MonitoredCounterGroup.start(MonitoredCounterGroup.java:95)] Component type: SOURCE, name: r1 started


# ① 打印监控到的数据
2018-04-19 18:44:55,350 (PollableSourceRunner-TaildirSource-r1) [INFO - org.apache.flume.source.taildir.ReliableTaildirEventReader.openFile(ReliableTaildirEventReader.java:290)] Opening file: /home/hadoop/data/flume/data/1.log, inode: 134218383, pos: 0
2018-04-19 18:44:56,355 (PollableSourceRunner-TaildirSource-r1) [INFO - org.apache.flume.source.taildir.TaildirSource.closeTailFiles(TaildirSource.java:288)] Closed file: /home/hadoop/data/flume/data/1.log, inode: 134218383, pos: 0


# 查看 taildir_position.json  
[hadoop@hadoop000 pos]$ cat taildir_position.json 
[{"inode":134218383,"pos":0,"file":"/home/hadoop/data/flume/data/1.log"}]

新增数据

# 填充数据到监控文件中
[hadoop@hadoop000 data]$ echo 111 >> 1.log 
[hadoop@hadoop000 data]$ ls -lh 1.log 
-rw-rw-r--. 1 hadoop hadoop 4 1月   3 18:50 1.log


# flume控制台对应的打印出监控到的数据
[hadoop@hadoop000 flume]$ flume-ng agent --name a1 --conf-file /home/hadoop/script/flume/taildir-memory-log.conf --conf $FLUME_HOME/conf -Dflume.root.logger=INFO,console 
...
2018-04-19 18:50:30,924 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{file=/home/hadoop/data/flume/data/1.log} body: 31 31 31                                        111 }


# 相应的 taildir_position.json 也记录了 读取数据的位置
[hadoop@hadoop000 pos]$ cat taildir_position.json 
[{"inode":134218383,"pos":4,"file":"/home/hadoop/data/flume/data/1.log"}]
[hadoop@hadoop000 pos]$

场景正常运行的flume，突然挂掉了
此时kill flume，然后继续往1.log文件中新增数据，最后再启动flume

# kill flume
[hadoop@hadoop000 flume]$ kill -9 117551


# 继续新增数据到1.log
[hadoop@hadoop000 data]$ echo 222 >> 1.log    
[hadoop@hadoop000 data]$ echo 333 >> 1.log    
[hadoop@hadoop000 data]$ echo 444 >> 1.log 


# 重新启动flume 发现除了启动日志之外  就是新增的数据
[hadoop@hadoop000 flume]$ flume-ng agent --name a1 --conf-file /home/hadoop/script/flume/taildir-memory-log.conf --conf $FLUME_HOME/conf -Dflume.root.logger=INFO,console
...
2018-04-19 18:57:21,661 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{file=/home/hadoop/data/flume/data/1.log} body: 32 32 32                                        222 }
2018-04-19 18:57:21,661 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{file=/home/hadoop/data/flume/data/1.log} body: 33 33 33                                        333 }
2018-04-19 18:57:21,661 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{file=/home/hadoop/data/flume/data/1.log} body: 34 34 34                                        444 }

由此实现了 断点续传

SparkStreaming+Kafka的offset管理

2018-03-31

以下方式递增优化

SparkStreaming自带的checkpoint
★ 这种方式的前提是代码不能发生任何变化，如果代码发生变化，metadata就会发生变化，导致读取不到数据

more >>

Spark RDD、DataFrame和DataSet的区别

2018-02-04

1.共性

1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集
2、三者都有惰性机制(lazy)，在进行创建、转换(transformation)，不会立即执行，只有在遇到Action算子时，三者才会开始运算。
3、三者都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
4、三者都有partition的概念。

more >>

Spark Kryo serialization

2018-01-31

准备测试数据

1
2
3

[hadoop@hadoop000 logs]$ ls -lh
总用量 150M
-rw-r--r--. 1 root root 150M 01月 30 00:29 access.log

more >>

HDFS常用文件操作命令

2018-01-20

HDFS命令基本格式

1 2	hadoop fs -cmd < args > hdfs dfs -cmd < args >

more >>

HDFS-YARN HA架构及组件详解

2018-01-15

1.HDFS

master/slave 主从架构

NameNode1(nn1) active
NameNode2(nn2) standby
命名空间：挂载着nn1 nn2，读写操作是直接通过命名空间操作的 hdfs://nameservice1/…

more >>