cobol_converter.py

import re
import sys
import decimal
from typing import Dict, Any


class CobolToPythonConverter:
    def __init__(self):
        self.type_mappings = {
            'PIC 9': 'int',
            'PIC X': 'str',
            'PIC 9(5)': 'int',
            'PIC 9(10)V99': 'float',
            'PIC 9(3)V99': 'float',
            'COMP': 'int',
            'COMP-3': 'decimal.Decimal'
        }

        self.patterns = {
            'variable_declaration': r'(\d+)\s+(\w[\w-]*)\s+PIC\s+([X9]+)(\(\d+\))?(\s*V\d+)?',
            'procedure_division': r'PROCEDURE\s+DIVISION',
            'program_id': r'PROGRAM-ID\.\s+(\w[\w-]*)',
            'working_storage': r'WORKING-STORAGE\s+SECTION\.',
            'file_section': r'FILE\s+SECTION\.',
            'record_declaration': r'01\s+(\w+)',
            'file_declaration': r'FD\s+(\w+)',
            'select_file': r'SELECT\s+(\w+)\s+ASSIGN\s+TO\s+[\'"]([^\'"]+)[\'"]'
        }

    def cobol_name_to_python_class(self, name: str) -> str:
        return name.replace('-', '_').capitalize()

    def cobol_name_to_python_var(self, name: str) -> str:
        return name.replace('-', '_').lower()

    def determine_python_type(self, full_pic_type: str) -> str:
        if full_pic_type in self.type_mappings:
            return self.type_mappings[full_pic_type]
        if full_pic_type.startswith('PIC 9'):
            return 'float' if 'V' in full_pic_type else 'int'
        if full_pic_type.startswith('PIC X'):
            return 'str'
        return 'str'

    def convert_file(self, cobol_file_path: str, output_file_path: str) -> None:
        with open(cobol_file_path, 'r') as cobol_file:
            cobol_code = cobol_file.read()
        python_code = self.convert_code(cobol_code)
        with open(output_file_path, 'w') as python_file:
            python_file.write(python_code)
        print(f"Conversion complete. Output saved to {output_file_path}")

    def convert_code(self, cobol_code: str) -> str:
        program_id_match = re.search(self.patterns['program_id'], cobol_code, re.IGNORECASE)
        program_name = program_id_match.group(1) if program_id_match else 'CobolProgram'
        class_name = self.cobol_name_to_python_class(program_name)

        file_assignments = self.parse_file_assignments(cobol_code)

        python_lines = [
            "import decimal",
            "import csv",
            "",
            f"class {class_name}:"
        ]

        record_defs = {}
        record_matches = re.finditer(self.patterns['record_declaration'], cobol_code, re.IGNORECASE)
        for match in record_matches:
            record_name = match.group(1)
            if record_name.lower() in ['inputrecord', 'outputrecord']:  # avoid duplicates
                continue
            record_defs[record_name] = self.parse_record_structure(cobol_code, record_name)

        for rec_name, fields in record_defs.items():
            python_lines.append(f"\n    class {rec_name}Record:")
            python_lines.append("        def __init__(self):")
            for field_name, detail in fields.items():
                py_type = detail['type']
                default = '0' if py_type == 'int' else '0.0' if py_type == 'float' else '""'
                python_lines.append(f"            self.{self.cobol_name_to_python_var(field_name)} = {default}")

        python_lines.append("\n    def __init__(self):")
        ws_vars = self.parse_working_storage(cobol_code)
        for var_name, var_type in ws_vars.items():
            default = '0' if var_type == 'int' else '0.0' if var_type == 'float' else '""'
            python_lines.append(f"        self.{self.cobol_name_to_python_var(var_name)} = {default}")

        for file_name, filename in file_assignments.items():
            py_var = self.cobol_name_to_python_var(file_name)
            python_lines.append(f"        self.{py_var}_file_path = '{filename}'")

        # Generic process_files placeholder
        python_lines += [
            "\n    def process_files(self):",
            "        # Placeholder: Replace with logic for your specific records",
            "        print('Processing logic goes here')"
        ]

        python_lines += [
            "\n    def run(self):",
            "        self.process_files()",
            "",
            "def main():",
            f"    program = {class_name}()",
            "    program.run()",
            "",
            "if __name__ == '__main__':",
            "    main()"
        ]

        return "\n".join(python_lines)

    def parse_record_structure(self, cobol_code: str, record_name: str) -> Dict[str, Dict[str, str]]:
        pattern = rf'01\s+{record_name}\.?(.*?)(?=01|FD|WORKING-STORAGE|PROCEDURE|IDENTIFICATION|\Z)'
        match = re.search(pattern, cobol_code, re.IGNORECASE | re.DOTALL)
        fields = {}
        if match:
            block = match.group(1)
            for var_match in re.finditer(self.patterns['variable_declaration'], block, re.IGNORECASE):
                _, var_name, pic_type, length, decimal = var_match.groups()
                length = length or ''
                decimal = decimal or ''
                full_pic = f'PIC {pic_type}{length}{decimal}'.strip()
                fields[var_name] = {'type': self.determine_python_type(full_pic), 'pic': full_pic}
        return fields

    def parse_working_storage(self, cobol_code: str) -> Dict[str, str]:
        vars_dict = {}
        ws_match = re.search(r'WORKING-STORAGE\s+SECTION\.(.*?)(?=PROCEDURE|FILE|LINKAGE|REPORT|\Z)', cobol_code,
                             re.IGNORECASE | re.DOTALL)
        if ws_match:
            code = ws_match.group(1)
            for var_match in re.finditer(self.patterns['variable_declaration'], code, re.IGNORECASE):
                _, name, pic_type, length, decimal = var_match.groups()
                full_pic = f'PIC {pic_type}{length or ""}{decimal or ""}'.strip()
                vars_dict[name] = self.determine_python_type(full_pic)
        return vars_dict

    def parse_file_assignments(self, cobol_code: str) -> Dict[str, str]:
        files = {}
        for match in re.finditer(self.patterns['select_file'], cobol_code, re.IGNORECASE):
            files[match.group(1)] = match.group(2)
        return files

    def analyze_cobol_complexity(self, cobol_code: str) -> Dict[str, Any]:
        ws = re.search(r'WORKING-STORAGE\s+SECTION\.(.*?)(?=PROCEDURE|\Z)', cobol_code, re.IGNORECASE | re.DOTALL)
        return {
            'variable_count': len(re.findall(self.patterns['variable_declaration'], ws.group(1), re.IGNORECASE)) if ws else 0,
            'record_count': len(re.findall(self.patterns['record_declaration'], cobol_code, re.IGNORECASE)),
            'has_procedure_division': bool(re.search(self.patterns['procedure_division'], cobol_code, re.IGNORECASE)),
            'has_working_storage': bool(re.search(self.patterns['working_storage'], cobol_code, re.IGNORECASE)),
            'has_file_section': bool(re.search(self.patterns['file_section'], cobol_code, re.IGNORECASE)),
        }


def main():
    if len(sys.argv) != 3:
        print("Usage: python cobol_converter.py <input_cobol_file> <output_python_file>")
        sys.exit(1)

    converter = CobolToPythonConverter()
    input_file, output_file = sys.argv[1], sys.argv[2]

    try:
        converter.convert_file(input_file, output_file)

        with open(input_file, 'r') as f:
            cobol_code = f.read()
        complexity = converter.analyze_cobol_complexity(cobol_code)
        print("\nCOBOL Program Complexity Analysis:")
        for key, value in complexity.items():
            print(f"{key}: {value}")
    except Exception as e:
        print(f"Conversion error: {e}")
        sys.exit(1)


if __name__ == '__main__':
    main()