« Hello Unicode ——JAVA的中文处理学习笔记 | (回到Blog入口)|(回到首页) | Java的中文处理学习笔记:Hello Unicode »

OutLook Express邮件的HTML归档


内容摘要:通过几个perl应用的组合,介绍个人邮件的HTML归档方法

员工的EMAIL对于公司来说也是一份非常有用的文档资源,工作EMAIL中/不仅包含了大量的工作内容(比如客户信息,工作进展情况等),从中还可以做进一步的分析挖掘,可以作为对已有的工作流程/员工绩效评估的依据。但对于目前大部分缺乏知识管理的的公司来说,工作邮件一般缺乏集中管理,邮件保存在员工个人的机器里。就算员工走的时候没有把硬盘格式化,接受工作的新员工往往也缺乏邮件导入的技能,就算成功的将前任邮件导入,整理前任上千封工作EMAIL也是一件非常恐怖的事情。因此,留住员工的邮件后,内容的高效访问手段就显的非常重要了。

其实在UNIX平台下有大量的小工具可以实现邮件==>HTML的导出,因此对于OE==>html的导出有2个主要问题:

  1. MS用的是自己mbx(dbx)格式。
  2. 邮件中的中文编码/解码问题。

根据以往的工作经验,我总结了以下流程,来进行工作交接时的邮件的归档管理:将OE邮件通过几个PERL工具归档成HTML格式,以方便后来者的工作交接。

  1. 邮件汇总:在OE中建立一个work目录,通过Outlook Express的邮件查找功能,将所有使用工作邮箱的邮件移动到work目录下(后面都将以work文件名为例)。这样,根据OE的版本不同,在OE的存储目录中会生成一个work.mbx(OE5以后时work.dbx)文件。
  2. 邮件转储:将work.mbx(或work.dbx)文件上传到LINUX服务器(或者其他任何支持PERL5.6的平台)上,利用mbx2mbox将work.mbx文件转储成mbox文件,使用说明:
    bash% mbx2mbox work.dbx
    输出成的文件为:work
  3. 邮件解码:由于邮件中有大量中文信息,所以需要用MIME-tools将邮件中相应的解码,否则最后通过MHONARC导出的HTML会乱码:
    perl -MMIME::Words=:all -pi.bak -e 's/=\?.+\?=/decode_mimewords $&/eg' work
  4. HTML归档:mhonarc是一个很著名的邮件=>HTML转换工具,利用mhonarc将mbox格式的work文件导出成HTML文档:
    mhonarc -reverse -sort work
    导出的邮件可以用浏览器按照主题线索(有缩进)/时间进行方便的浏览。

使用这个邮件归档制度的好处在于,导出的邮件可以按照主题线索/时间进行方便的浏览,达到工作成果保留和数据访问效率最大化。

以上服务器端的工具包都是PERL写的,安装方式都是下载解包后:
perl Makefile.PL
make
make install
注释:在安装MIME-tools过程中可能会有警告提示说有一些模块没有安装,但我测试过实际上是可以忽略这些警告的,当然也可以去search.cpan.org下载。

使用过程中我也使用过一些MS平台下的小工具,比如DBXTract等,这类WINDOWS下的小工具有2个弱点:

  1. 稳定性差:导100多个MAIL还行,导500多个邮件(尤其是还包含很多附件)就总是出错,MHONARC等小工具虽然功能单一,但稳定性和效率真是没的说……这也是LINUX下工具箱哲学的一种体现吧;
  2. 不是OPEN SOURCE:出了错,你想改都不可能,用MBX2MBOX + mhonarc虽然步骤多一点,但其实还是可以简化的,比较费手工的是第1步,在服务器上安装好以后工具后,以后的步骤用一个简单的SHELL脚本将3个工具连起来使用就可以了
  3. 通用性差:对于OE以外的邮件应用(好像outlook也是MBX格式),只要邮箱文件可以方便的转储成标准的mbox格式(NETSCAPE等邮件工具大部分使用和UNIX系统上通用的MBOX格式),而后面的mbox邮箱==>HTML导出步骤是一样的。

个人看法:由于存储的分散和共享的不便,邮件不是一个长久保留知识成果的好方法,邮件列表是一种很好改进,而论坛形式的信息集中存储是此类管理的有效补充,毕竟后台的数据库系统比分散的邮件文件更容易统计/管理。

参考资料:

mbx2mbox: 邮箱mbx ==> mbox格式转换工具
http://sourceforge.net/projects/mbx2mbox

MIME-tools: 编码/解码工具
http://www.cpan.org/authors/id/ERYQ/MIME-tools-5.411a.tar.gz

mhonarc: 邮件归档工具
http://www.oac.uci.edu/indiv/ehood/mhonarc.html

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)

相关文章

关于

此页面包含了发表于July 09, 2002 02:45 PM的 Blog 上的单篇日记。

此 Blog 的前一篇日记是 Hello Unicode ——JAVA的中文处理学习笔记

此 Blog 的后一篇日记是 Java的中文处理学习笔记:Hello Unicode

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36