Skip to content

Commit 65abc54

Browse files
committed
表述修改
1 parent 2126819 commit 65abc54

File tree

4 files changed

+11
-13
lines changed

4 files changed

+11
-13
lines changed

core/scala/spark-scheduler.md

-2
Original file line numberDiff line numberDiff line change
@@ -9190,8 +9190,6 @@ private[scheduler] class PendingTasksByLocality {
91909190
}
91919191
```
91929192

9193-
9194-
91959193
#### WorkerOffer
91969194

91979195
```scala

core/scala/spark-storage.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -754,7 +754,7 @@ extends Logging {
754754
space: Long,
755755
memoryMode: MemoryMode): Long
756756
功能: 回收数据块已达到释放空间的功能
757-
尝试释放数据块内存,用户存储特点的数据块,如果数据块大于内存或者需要替代同一个RDD的其他数据块时会引发失败。(会导致RDD循环替代格式的浪费,以及内存容量不足的问题),需要块管理器对操作进行临界资源管理.
757+
尝试释放数据块内存,用户存储特定的数据块,如果数据块大于内存或者需要替代同一个RDD的其他数据块时会引发失败。(会导致RDD循环替代格式的浪费,以及内存容量不足的问题),需要块管理器对操作进行临界资源管理.
758758
输入参数:
759759
blockId 数据块标识符
760760
space 数据块大小

streaming/scala/streaming/dstream.md

+3-3
Original file line numberDiff line numberDiff line change
@@ -582,7 +582,7 @@ abstract class DStream[T: ClassTag] (
582582
windowDuration: Duration,
583583
slideDuration: Duration
584584
): DStream[T]
585-
功能: 带有窗口的聚合操作
585+
功能: 带有窗口的聚合操作(将窗口中的元素视作批,则是对于窗口内操作的聚合)
586586
val= ssc.withScope {
587587
this.reduce(reduceFunc).window(windowDuration, slideDuration).reduce(reduceFunc)
588588
}
@@ -848,11 +848,11 @@ extends Serializable with Logging {
848848
```markdown
849849
介绍:
850850
这个类代表的输入离散流,可以监视hadoop文件系统.用于创建文件或者创建文件输入流.可以按照下述方式工作:
851-
在每个批次间隔中,文件系统需要询问给定目录中的文件,且端口那个批次选中文件的链接.在这种状态下,新建就意味着对于读取器来说是可见的.需要注意到的是创建完毕周文件也是可见的.正是因为这个目的,这个类能够记住选中文件在过去一段时间内批次信息,所以叫做记忆窗口.可以按照如下的表述:
851+
在每个批次间隔中,文件系统需要询问给定目录中的文件,且端口那个批次选中文件的链接.在这种状态下,新建就意味着对于读取器来说是可见的.需要注意到的是创建完毕时文件也是可见的.正是因为这个目的,这个类能够记住选中文件在过去一段时间内批次信息,所以叫做记忆窗口.可以按照如下的表述:
852852
{{{
853853
忽略的部分 --> << 记忆窗口 >> <-- 当前批次时间
854854
}}}
855-
这个窗口之前叫做忽略的部分,所有文件小于这个时间上限的因此会被忽略.文件修改时间在记忆窗口中的会被检测.在高版本情况下,新文件在每个批次中进行标识.问阿金的修改时间大于忽略界限且没有被视作记忆窗口的部分,请参考@isFile方法的描述,这里描述了这个区间的求法.
855+
这个窗口之前叫做忽略的部分,所有文件小于这个时间上限的因此会被忽略.文件修改时间在记忆窗口中的会被检测.在高版本情况下,新文件在每个批次中进行标识.修改时间大于忽略界限且没有被视作记忆窗口的部分,请参考@isFile方法的描述,这里描述了这个区间的求法.
856856
这里做出一些假设,对于底层文件系统监视的假设
857857
- 文件系统时间假设与机器时间同步
858858
- 文件在目录列表中可见,必须在文件修改时间的指定周期内是可见的.这个周期就是`记忆窗口`.设置为1分钟.这里可以参考@FileInputDStream.minRememberDuration,否则文件永远不会被选取,因为在当文件可见的时候,修改时间总是小于容量值.

streaming/scala/streaming/rdd.md

+7-7
Original file line numberDiff line numberDiff line change
@@ -24,15 +24,15 @@ private[streaming] object MapWithStateRDDRecord {
2424
timeoutThresholdTime: Option[Long],
2525
removeTimedoutData: Boolean
2626
): MapWithStateRDDRecord[K, S, E]
27-
功能: 使用数据更新记录记录
27+
功能: 使用数据更新记录(旧的记录)
2828
输入参数:
2929
prevRecord 上一条记录
3030
dataIterator 数据信息(迭代器)
3131
mappingFunction 映射函数
3232
batchTime 批次时间
3333
timeoutThresholdTime 超时上限时间
3434
removeTimedoutData 是否移除超时数据
35-
1. 创建状态map
35+
1. 创建状态map(对旧map进行映射)
3636
val newStateMap = prevRecord.map { _.stateMap.copy() }
3737
. getOrElse { new EmptyStateMap[K, S]() }
3838
val mappedData = new ArrayBuffer[E]
@@ -113,11 +113,11 @@ private[streaming] class MapWithStateRDD[K: ClassTag, V: ClassTag, S: ClassTag,
113113
介绍:
114114
RDD存储@mapWithState 操作的key状态和项羽的数据,这个RDD的每个分区都有单一的记录类型@MapWithStateRDDRecord.包含@StateMap,且记录列表右映射函数返回.
115115
构造器参数:
116-
prevStateRDD 之前的@MapWithStateRDD,其中@StateMap数据的RDD已经被创建
117-
partitionedDataRDD 分区数据RDD,,用于在@prevStateRDD更新之前的@StateMaps,创建这个RDD
118-
mappingFunction 映射函数
119-
batchTime 当前RDD的批次时间,用于更新
120-
timeoutThresholdTime 超时时间上限
116+
prevStateRDD 之前的@MapWithStateRDD,其中@StateMap数据的RDD已经被创建
117+
partitionedDataRDD 分区数据RDD,,用于在@prevStateRDD更新之前的@StateMaps,创建这个RDD
118+
mappingFunction 映射函数
119+
batchTime 当前RDD的批次时间,用于更新
120+
timeoutThresholdTime 超时时间上限
121121
属性:
122122
#name @doFullScan = false volatile 是否进行全扫描
123123
#name @partitioner = prevStateRDD.partitioner 分区器

0 commit comments

Comments
 (0)