Case study

Nền tảng Dữ liệu Học thuật (Trung tâm học tiếng Nhật)

Kiến trúc pipeline và bề mặt phân tích xử lý 10K+ bản ghi học sinh mỗi tháng, kết hợp dịch vụ NestJS và UI Next.js với Kafka, Airflow, PySpark và LangChain trên OpenAI.

Vai trò: Software Architect
Xuất bản: 2025-03-01
Thẻ: edtech · data-pipeline · etl · ai · analytics

Bản ghi học sinh

10K+ / tháng

Khối lượng xử lý dữ liệu học thuật hàng tháng

Team kiến trúc

Giao hàng đa chức năng cho pipeline và BI

Vấn đề

Dữ liệu học tập bị phân tán và team thiếu cách ổn định để biến bản ghi vận hành thành insight có thể dùng. Báo cáo thủ công làm chậm quyết định và khó hiểu pattern học tập qua nhiều lớp; đồng thời cần lớp AI có kiểm soát cho phân loại và insight tự động.

Giải pháp

Kiến trúc nền tảng dữ liệu học thuật

Với vai trò software architect, tôi định hình nền tảng kết hợp dịch vụ NestJS và trải nghiệm phân tích Next.js với pipeline Kafka, Airflow và PySpark. Dataset đã xử lý được đưa vào AWS S3 và kho phục vụ MySQL cho báo cáo, trong khi LangChain trên OpenAI hỗ trợ phân loại và tóm tắt insight tự động hiển thị trên BI dashboard.

Quyết định kiến trúc

Kafka tách ingestion khỏi batch và serving để thay đổi upstream không làm mất ổn định consumer downstream.
Airflow điều phối workload PySpark và dependency với retry và lịch rõ ràng.
S3 là vùng landing bền kiểu lake trước khi phục vụ quan hệ trong MySQL, giữ transform nặng khỏi đường transactional.
LangChain cấu trúc prompt và tooling quanh OpenAI cho phân loại và insight dạng narrative lặp lại được, đưa vào dashboard.

Kết quả

Xử lý 10K+ bản ghi học sinh mỗi tháng cho khách hàng trung tâm học tiếng Nhật.
Giao BI dashboard cùng phân loại và insight có AI hỗ trợ trên pipeline đã chuẩn hóa.
Phối hợp giao hàng với team kiến trúc 12 người trên data, backend và analytics.