Twitter 推文网页存档自动简化转换

11 views
Skip to first unread message

lihlii

unread,
Oct 6, 2012, 7:28:14 PM10/6/12
to Salon Friends, lihlii-g, posterous
Twitter 推文网页存档自动简化转换
v121006

用法:

1. 安装 Perl 解释器,推荐用 ActivePerl http://www.activestate.com/activeperl/downloads

2. 将本文件包内容展开到一个文件夹中。下载文件包: https://www.wuala.com /lihlii_童言无忌/Topic/软件/Twitter/cleanup/

3. 将需要保存的推文保存为完整网页(Complete HTML)格式,不要保存为仅存网页(HTML Only)格式,那样网页中信息可能不全。

4. 将保存的推文 HTML 文件拷贝到如上 2. 所述文件夹中。

5. 运行 msg_merge_sort_twitter.bat,该脚本程序可以处理多个 HTML 文件并将其中推文按照时间排序,删除重复推文,输出结果 msg_merge_twitter.txt 是一个以 TAB 字符分隔的已经排序过的推文列表,可以导入 Excel/LibreOffice Calc 软件进行处理。

6. 运行 tsv2html.bat 会自动将 msg_merge_twitter.txt 文件转换为简化的 HTML 文件适合作为存档。可以在浏览器中打开,拷倍内容后可粘贴到邮件编辑器或博客编辑器中发布。

7. 发布的推文格式如 http://lihlii.blogspot.nl/2012/10/blog-post_7.html 所示。

8. 有任何问题或修改建议,请联系 lihl...@gmail.comhttps://twitter.com/lihlii


喜欢这篇文章吗?欢迎发空信给 lihlii+s...@googlegroups.com 订阅《童言无忌》邮件组 发空信给 jrzl+su...@googlegroups.com 订阅《今日知录邮件组》。


msg_cleanup_twitter.7z

lihlii

unread,
Oct 14, 2012, 11:58:19 AM10/14/12
to lihlii-g, Salon Friends, posterous
Twitter 推文网页存档自动简化转换
v121014

修订:
1. 增加功能,输出结果包括推文内嵌的图片。

用法:
    1. 安装 Perl 解释器,推荐用 ActivePerl http://www.activestate.com/activeperl/downloads
    1. 将本文件包内容展开到一个文件夹中。下载文件包: https://www.wuala.com /lihlii_童言无忌/Topic/软件/Twitter/cleanup/
    1. 将需要保存的推文保存为完整网页(Complete HTML)格式,不要保存为仅存网页(HTML Only)格式,那样网页中信息可能不全。
    1. 将保存的推文 HTML 文件拷贝到如上 2. 所述文件夹中。
    1. 运行 msg_merge_sort_twitter.bat,该脚本程序可以处理多个 HTML 文件并将其中推文按照时间排序,删除重复推文,输出结果 msg_merge_twitter.txt 是一个以 TAB 字符分隔的已经排序过的推文列表,可以导入 Excel/LibreOffice Calc 软件进行处理。
    1. 运行 tsv2html.bat 会自动将 msg_merge_twitter.txt 文件转换为简化的 HTML 文件适合作为存档。
    1. 也可以直接运行 msg_merge_sort_twitter_htm.bat,则自动调用第 5. 6. 步所述脚本成序,在浏览器中打开生成的 tsv2htm.htm 文件,如果有内嵌图片,则最好再以完整网页格式保存一次,这样可以确保 将内嵌图片也保存到本地存档。
    2. 拷倍网页内容后可粘贴到邮件编辑器(如 Thunderbird)或博客编辑器中发布。发布的推文格式如 http://lihlii.blogspot.nl/2012/10/alison-klayman-never-sorry.html 所示。
    3. 最新版本发布在 https://github.com/lihlii/msg_cleanup
    1. 有任何问题或修改建议,请联系 lihl...@gmail.comhttps://twitter.com/lihlii
    Reply all
    Reply to author
    Forward
    0 new messages