Add IPCBatchGenerator

2021-04-26 17:01:24 +09:00 · 2021-04-26 17:01:24 +09:00 · dcd99a55ea
commit dcd99a55ea
parent 89240e417f
1 changed files with 139 additions and 0 deletions
--- a/utils/ipc_data_generator.py
+++ b/utils/ipc_data_generator.py
@ -0,0 +1,139 @@
 import multiprocessing as mp
 from multiprocessing import shared_memory
 from typing import Callable, Optional, Tuple
 import numpy as np
 class IPCBatchGenerator:
    def __init__(self, ipc_processor: Callable,
                 data_processor: Optional[Callable] = None, label_processor: Optional[Callable] = None,
                 pipeline: Optional[Callable] = None,
                 prefetch=True, flip_data=False):
        self.flip_data = flip_data
        self.pipeline = pipeline
        self.prefetch = prefetch
        self.ipc_processor = ipc_processor
        self.data_processor = data_processor
        self.label_processor = label_processor
        self.global_step = 0
        self.data, self.label = ipc_processor()
        first_data = [data_processor(entry) for entry in self.data] if data_processor else self.data
        first_label = [label_processor(entry) for entry in self.label] if label_processor else self.label
        if self.pipeline is not None:
            for data_index, sample_data in enumerate(first_data):
                first_data[data_index], first_label[data_index] = self.pipeline(sample_data, first_label[data_index])
        first_data = np.asarray(first_data)
        first_label = np.asarray(first_label)
        self.batch_data = first_data
        self.batch_label = first_label
        self.process_id = 'NA'
        if self.prefetch:
            self.cache_memory_data = [
                shared_memory.SharedMemory(create=True, size=first_data.nbytes),
                shared_memory.SharedMemory(create=True, size=first_data.nbytes)]
            self.cache_data = [
                np.ndarray(first_data.shape, dtype=first_data.dtype, buffer=self.cache_memory_data[0].buf),
                np.ndarray(first_data.shape, dtype=first_data.dtype, buffer=self.cache_memory_data[1].buf)]
            self.cache_memory_label = [
                shared_memory.SharedMemory(create=True, size=first_label.nbytes),
                shared_memory.SharedMemory(create=True, size=first_label.nbytes)]
            self.cache_label = [
                np.ndarray(first_label.shape, dtype=first_label.dtype, buffer=self.cache_memory_label[0].buf),
                np.ndarray(first_label.shape, dtype=first_label.dtype, buffer=self.cache_memory_label[1].buf)]
            self.prefetch_pipe_parent, self.prefetch_pipe_child = mp.Pipe()
            self.prefetch_stop = shared_memory.SharedMemory(create=True, size=1)
            self.prefetch_stop.buf[0] = 0
            self.prefetch_process = mp.Process(target=self._prefetch_worker)
            self.prefetch_process.start()
        else:
            self.cache_data = [first_data]
            self.cache_label = [first_label]
        self.current_cache = 0
        self.process_id = 'main'
    def __del__(self):
        self.release()
    def __enter__(self):
        return self
    def __exit__(self, _exc_type, _exc_value, _traceback):
        self.release()
    def release(self):
        if self.prefetch:
            self.prefetch_stop.buf[0] = 1
            self.prefetch_pipe_parent.send(True)
            self.prefetch_process.join()
            for shared_mem in self.cache_memory_data + self.cache_memory_label:
                shared_mem.close()
                shared_mem.unlink()
            self.prefetch_stop.close()
            self.prefetch_stop.unlink()
            self.prefetch = False  # Avoids double release
    def _prefetch_worker(self):
        self.prefetch = False
        self.current_cache = 1
        self.process_id = 'prefetch'
        while self.prefetch_stop.buf is not None and self.prefetch_stop.buf[0] == 0:
            try:
                self.current_cache = 1 - self.current_cache
                self.global_step += 1
                self._next_batch()
                self.prefetch_pipe_child.recv()
                self.prefetch_pipe_child.send(self.current_cache)
            except KeyboardInterrupt:
                break
    def _next_batch(self):
        # Loading data
        self.data, self.label = self.ipc_processor()
        data = np.asarray([self.data_processor(entry) for entry in self.data]) if self.data_processor else self.data
        if self.flip_data:
            flip = np.random.uniform()
            if flip < 0.25:
                data = data[:, :, ::-1]
            elif flip < 0.5:
                data = data[:, :, :, ::-1]
            elif flip < 0.75:
                data = data[:, :, ::-1, ::-1]
        # Loading label
        label = np.asarray([
            self.label_processor(entry) for entry in self.label]) if self.label_processor else self.label
        # Process through pipeline
        if self.pipeline is not None:
            for data_index, data_entry in enumerate(data):
                piped_data, piped_label = self.pipeline(data_entry, label[data_index])
                self.cache_data[self.current_cache][data_index] = piped_data
                self.cache_label[self.current_cache][data_index] = piped_label
        else:
            self.cache_data[self.current_cache][:len(data)] = data
            self.cache_label[self.current_cache][:len(label)] = label
    def next_batch(self) -> Tuple[np.ndarray, np.ndarray]:
        self.global_step += 1
        if self.prefetch:
            self.prefetch_pipe_parent.send(True)
            self.current_cache = self.prefetch_pipe_parent.recv()
        else:
            self._next_batch()
        self.batch_data = self.cache_data[self.current_cache]
        self.batch_label = self.cache_label[self.current_cache]
        return self.batch_data, self.batch_label