https://github.com/halfenif/toy_table_diff

Table Data Diff
https://github.com/halfenif/toy_table_diff

data-diff

Last synced: 6 months ago
JSON representation

Table Data Diff

Host: GitHub
URL: https://github.com/halfenif/toy_table_diff
Owner: halfenif
License: apache-2.0
Created: 2024-08-25T09:25:30.000Z (almost 2 years ago)
Default Branch: main
Last Pushed: 2024-09-29T11:21:53.000Z (over 1 year ago)
Last Synced: 2025-01-29T11:22:32.726Z (over 1 year ago)
Topics: data-diff
Language: HTML
Homepage:
Size: 108 KB
Stars: 0
Watchers: 1
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome Lists containing this project

README

# toy_table_diff

### 전제
- 목표: as-is table과 to-be table data의 Diff
- 제약: column과 data가 좀 많다. (컬럼 약200여개, 데이터 100만건 정도. 비교가 필요한 테이블 수는 10개 미만)

### 아키텍처검토
- 데이터가 의미상으로는 고정되어 있지만(As-Is는 고정되어 있지만, 비교기준일이 바뀌면..) 반복해서 (개발자가 프로그램을 고치거나 하면 To-Be의 데이터가 변경됨으로) Diff 할 필요성이 있다.
- 200개나 되는 컬럼을 100만건이나 쌓아놓고 Diff한 결과를 보는 검토자는 어떤 Insight를 얻을 수 있나? 아..! 다르구나. 똑같아야 하는데.. 과연 이것이 본 작업을 하는 진정한 목표일까?
- Diff한 데이터가 보존되어야 하는 상황인데, (프로젝트에서 제공하는)서버에 그냥 놔두기에는 그 것의 관리주체가 내가 아니고(비워줘야하는 상황이 발생 할 것이고), 이 것을 그냥 Excel로 보관하기애는 뭔가 좀 애매하다.
- 그럼으로 Local DB (ex, sqlite)에 저장해서 각 작업(비교작업)을 아카이빙하고 누구나 알고있는 SQL을 통해서 그 비교결과를 풍부하게 네비게이션 할 수 있도록 제공하는 것이 좋다고 판단된다.
- 다만, 100만건의 Data를 담았을 때 (원본과 사본 그리고 결과를 생각하면 300만건이다.) 그 용량이 적절한지 검토가 필요하다.
> 100만건의 Sample Data(String, Int, Real을 적절히 섞었다.)를 만들었을 때 그 단일 파일의 용량은 4.3G가 되었음으로, 약 10G이하의 파일이 생성 될 것으로 유추한다. (일요일 저녁. 작업마감. 추후 계속...)

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/halfenif/toy_table_diff

Awesome Lists containing this project

README