表述修改

sandexp · sandexp · commit 65abc54c0cfb · 2020-06-03T19:24:35.000+08:00
diff --git a/core/scala/spark-scheduler.md b/core/scala/spark-scheduler.md
@@ -9190,8 +9190,6 @@ private[scheduler] class PendingTasksByLocality {
 }
 ```
 
-
-
 #### WorkerOffer
 
 ```scala
diff --git a/core/scala/spark-storage.md b/core/scala/spark-storage.md
@@ -754,7 +754,7 @@ extends Logging {
       space: Long,
       memoryMode: MemoryMode): Long 
     功能: 回收数据块已达到释放空间的功能
-    尝试释放数据块内存，用户存储特点的数据块，如果数据块大于内存或者需要替代同一个RDD的其他数据块时会引发失败。(会导致RDD循环替代格式的浪费,以及内存容量不足的问题),需要块管理器对操作进行临界资源管理.
+    尝试释放数据块内存，用户存储特定的数据块，如果数据块大于内存或者需要替代同一个RDD的其他数据块时会引发失败。(会导致RDD循环替代格式的浪费,以及内存容量不足的问题),需要块管理器对操作进行临界资源管理.
     输入参数:
     	blockId	数据块标识符
     	space	数据块大小
diff --git a/streaming/scala/streaming/dstream.md b/streaming/scala/streaming/dstream.md
@@ -582,7 +582,7 @@ abstract class DStream[T: ClassTag] (
       windowDuration: Duration,
       slideDuration: Duration
     ): DStream[T]
-    功能: 带有窗口的聚合操作
+    功能: 带有窗口的聚合操作(将窗口中的元素视作批,则是对于窗口内操作的聚合)
     val= ssc.withScope {
         this.reduce(reduceFunc).window(windowDuration, slideDuration).reduce(reduceFunc)
     }
@@ -848,11 +848,11 @@ extends Serializable with Logging {
 ```markdown
 介绍:
  	这个类代表的输入离散流,可以监视hadoop文件系统.用于创建文件或者创建文件输入流.可以按照下述方式工作:
- 	在每个批次间隔中,文件系统需要询问给定目录中的文件,且端口那个批次选中文件的链接.在这种状态下,新建就意味着对于读取器来说是可见的.需要注意到的是创建完毕周文件也是可见的.正是因为这个目的,这个类能够记住选中文件在过去一段时间内批次信息,所以叫做记忆窗口.可以按照如下的表述:
+ 	在每个批次间隔中,文件系统需要询问给定目录中的文件,且端口那个批次选中文件的链接.在这种状态下,新建就意味着对于读取器来说是可见的.需要注意到的是创建完毕时文件也是可见的.正是因为这个目的,这个类能够记住选中文件在过去一段时间内批次信息,所以叫做记忆窗口.可以按照如下的表述:
  	{{{ 		
  	 忽略的部分 --> << 记忆窗口 >> <-- 当前批次时间	
  	}}}
- 	这个窗口之前叫做忽略的部分,所有文件小于这个时间上限的因此会被忽略.文件修改时间在记忆窗口中的会被检测.在高版本情况下,新文件在每个批次中进行标识.问阿金的修改时间大于忽略界限且没有被视作记忆窗口的部分,请参考@isFile方法的描述,这里描述了这个区间的求法.
+ 	这个窗口之前叫做忽略的部分,所有文件小于这个时间上限的因此会被忽略.文件修改时间在记忆窗口中的会被检测.在高版本情况下,新文件在每个批次中进行标识.修改时间大于忽略界限且没有被视作记忆窗口的部分,请参考@isFile方法的描述,这里描述了这个区间的求法.
      这里做出一些假设,对于底层文件系统监视的假设
      - 文件系统时间假设与机器时间同步
      - 文件在目录列表中可见,必须在文件修改时间的指定周期内是可见的.这个周期就是`记忆窗口`.设置为1分钟.这里可以参考@FileInputDStream.minRememberDuration,否则文件永远不会被选取,因为在当文件可见的时候,修改时间总是小于容量值.
diff --git a/streaming/scala/streaming/rdd.md b/streaming/scala/streaming/rdd.md
@@ -24,15 +24,15 @@ private[streaming] object MapWithStateRDDRecord {
         timeoutThresholdTime: Option[Long],
         removeTimedoutData: Boolean
       ): MapWithStateRDDRecord[K, S, E]
-    功能: 使用数据更新记录记录
+    功能: 使用数据更新记录(旧的记录)
     输入参数:
     	prevRecord	上一条记录
     	dataIterator	数据信息(迭代器)
     	mappingFunction	映射函数
     	batchTime	批次时间
     	timeoutThresholdTime	超时上限时间
     	removeTimedoutData	是否移除超时数据
-    1. 创建状态map
+    1. 创建状态map(对旧map进行映射)
     val newStateMap = prevRecord.map { _.stateMap.copy() }
     . getOrElse { new EmptyStateMap[K, S]() }
     val mappedData = new ArrayBuffer[E]
@@ -113,11 +113,11 @@ private[streaming] class MapWithStateRDD[K: ClassTag, V: ClassTag, S: ClassTag,
     介绍: 
     RDD存储@mapWithState 操作的key状态和项羽的数据,这个RDD的每个分区都有单一的记录类型@MapWithStateRDDRecord.包含@StateMap,且记录列表右映射函数返回.
     构造器参数:
-    prevStateRDD	之前的@MapWithStateRDD,其中@StateMap数据的RDD已经被创建
-    partitionedDataRDD	分区数据RDD,,用于在@prevStateRDD更新之前的@StateMaps,创建这个RDD
-    mappingFunction	映射函数
-    batchTime	当前RDD的批次时间,用于更新
-    timeoutThresholdTime	超时时间上限
+        prevStateRDD	之前的@MapWithStateRDD,其中@StateMap数据的RDD已经被创建
+        partitionedDataRDD	分区数据RDD,,用于在@prevStateRDD更新之前的@StateMaps,创建这个RDD
+        mappingFunction	映射函数
+        batchTime	当前RDD的批次时间,用于更新
+        timeoutThresholdTime	超时时间上限
     属性:
     #name @doFullScan = false volatile	是否进行全扫描
     #name @partitioner = prevStateRDD.partitioner	分区器

Original file line number	Diff line number	Diff line change
`@@ -9190,8 +9190,6 @@ private[scheduler] class PendingTasksByLocality {`
`9190`	`9190`	`}`
`9191`	`9191`	```
`9192`	`9192`
`9193`		`-`
`9194`		`-`
`9195`	`9193`	`#### WorkerOffer`
`9196`	`9194`
`9197`	`9195`	```scala