Work case
Nền tảng Dữ liệu Học thuật (Trung tâm học tiếng Nhật)
Kiến trúc pipeline và bề mặt phân tích xử lý 10K+ bản ghi học sinh mỗi tháng, kết hợp dịch vụ NestJS và UI Next.js với Kafka, Airflow, PySpark và LangChain trên OpenAI.
- Vai trò
- Software Architect
- Xuất bản
- Thẻ
- edtech · data-pipeline · etl · ai · analytics
Bản ghi học sinh
10K+ / tháng
Khối lượng xử lý dữ liệu học thuật hàng tháng
Team kiến trúc
12
Giao hàng đa chức năng cho pipeline và BI
Vấn đề
Dữ liệu học tập bị phân tán và team thiếu cách ổn định để biến bản ghi vận hành thành insight có thể dùng. Báo cáo thủ công làm chậm quyết định và khó hiểu pattern học tập qua nhiều lớp; đồng thời cần lớp AI có kiểm soát cho phân loại và insight tự động.
Giải pháp
Với vai trò software architect, tôi định hình nền tảng kết hợp dịch vụ NestJS và trải nghiệm phân tích Next.js với pipeline Kafka, Airflow và PySpark. Dataset đã xử lý được đưa vào AWS S3 và kho phục vụ MySQL cho báo cáo, trong khi LangChain trên OpenAI hỗ trợ phân loại và tóm tắt insight tự động hiển thị trên BI dashboard.
Quyết định kiến trúc
- Kafka tách ingestion khỏi batch và serving để thay đổi upstream không làm mất ổn định consumer downstream.
- Airflow điều phối workload PySpark và dependency với retry và lịch rõ ràng.
- S3 là vùng landing bền kiểu lake trước khi phục vụ quan hệ trong MySQL, giữ transform nặng khỏi đường transactional.
- LangChain cấu trúc prompt và tooling quanh OpenAI cho phân loại và insight dạng narrative lặp lại được, đưa vào dashboard.
Kết quả
- Xử lý 10K+ bản ghi học sinh mỗi tháng cho khách hàng trung tâm học tiếng Nhật.
- Giao BI dashboard cùng phân loại và insight có AI hỗ trợ trên pipeline đã chuẩn hóa.
- Phối hợp giao hàng với team kiến trúc 12 người trên data, backend và analytics.