0.源
最近做了大量(其实还好,3个文档,200页左右)的word文档转Markdown工作,包含了大多数场景,如:图片、表格、列表等,做之前查询了一下没有什么特别好的方案,不过查询到了一个比较好用的工具,记录一下以备后用
1.基本处理
查询了一下word转markdown网上推荐较高的是一个插件,writage: http://www.writage.com/
不过下载链接里只有windows版本的,不支持mac,本地也没装windows的虚拟机,所以没有机会尝试
另外一个是一个在线的工具: https://word2md.com/
试用了一个还不错 基本够用
看一上效果,word文档:
转换结果:
小图片会直接base64处理,大图片会变成一个引用地址,反正我感觉都不好使,只要有图的位置就行了,后期手动处理的时候就知道哪个位置有图去原文档里保存出来就行了
有两个小问题:
- 因为是在线转换,100页左右的文档也能转就是时间会稍微长一点
- 隐私问题,对于一些敏感文档使用在线的可能不太合适
第一个问题忍忍也没太大关系,文档实在太大就拆分一下转换总能解决
第二个是我遇到的问题,我转换的文档有一定保密要求,要上传到第三方网站确实不放心,好在这个刚在是开源的(点赞),在github上看了下README.md文件,支持docker镜像,但并没有提供dockerHub下载地址…
我clone了一下代码,本地打了个包,打包也是一路坑,因为源码使用的Ruby写的,构建过程中会去下载依赖,国内的环境直接构建完全下载不下来,最后修改了Dockerfile把国内的源加上才构建完成,镜像我已经上传到dockerHub有需求可以使用以下命令获取并启动:
1 | # 获取镜像 |
然后浏览器打开: http://localhost:3000 就可以本地使用了
2.手动处理
主要几个要处理的点:
- 图片
- 表格
- 加粗
- 章节
- 内嵌文档
- 本地文件路径(带“\”的路径)
图片
没有特别好的办法,只能手动从源文档中保存下来,然后引用,一个好的提议是,名字使用章节+编码的方式,可以保存多个,统一修改md文档
表格
表格的样式一般没问题,重点关注一下有合并的表格
加粗
加粗在md中使用的是**内容**
如果word中的加粗的内容并且内容中有空格的时候他会多加很多个**
在内容里,需要手动去除
章节
转换过来的章节,没有章节前的序号,并且标题级别也是乱的,需要手动设置
内嵌文档
内嵌的文档会当成图片处理,变成一个链接,我处理的时候是把文档的内容复制出来放到md文档中
本地文件路径(带”\“的路径)
文件路径里的\\
没有转换完全,手动修改一下就可以了
3.终
word文档做为一个同步内容的格式比较好用,还可以嵌入图片
以markdown基础的gitbook更合适做一下信息同步平台,修改更新后大家会同步更新,消除了版本差异
所以最好的办法是从一开始就按需求使用markdown格式,转换是个体力活…..
有gitbook目录生成需求的可以参考上一篇文章。
本文链接: http://blog.jisuye.com/2020/03/19/word2md/
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!