PPT HTML 변환은 역시 python-pptx + BeautifulSoup 콤보가 끝이야
클라이언트에서 누가 물어보길래 여기도 남겨봐.
나도 얼마 전에 세미나 자료 40장 넘게 떠넣느라 삽질했는데, 결국 최적화된 건 python-pptx로 ppt 읽고 BeautifulSoup으로 테이블/텍스트박스/이미지 걸러서 html 덮어쓰는 루틴. md보다 html이 디자인 유지가 훨씬 쉬웠음. ppt 안에 걸려 있는 표는 그냥 테이블 태그로 넣고 이미지는 프로그램으로 캡처 후 base64 인코딩까지 한 방에.
생각보다 30분만에 끝나서 놀랐다. pip install만 하면 끝이라 초기 비용도 그냥 식은 죽 먹기. 혹시 디자인 넣고 싶으면 css 따로 떼서 class만 매핑하면 되니까 고민은 시간 낭비야.
참고로 ppt 디자인 파서 알아서 뜯어주는 건 아직 없더라. 직접 떼어쓰는 수밖에 없으니까 귀차니즘 싫으면 지름길 없음 ㅇㅇ