Groups
Groups
Sign in
Groups
Groups
童言无忌
Conversations
Labels
About
Send feedback
Help
Twitter 推文网页存档自动简化转换
15 views
Skip to first unread message
lihlii
unread,
Oct 6, 2012, 7:28:14 PM
10/6/12
Reply to author
Sign in to reply to author
Forward
Sign in to forward
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to Salon Friends, lihlii-g, posterous
Twitter 推文网页存档自动简化转换
v121006
用法:
1. 安装 Perl 解释器,推荐用 ActivePerl
http://www.activestate.com/activeperl/downloads
。
2. 将本文件包内容展开到一个文件夹中。下载文件包:
https://www.wuala.com /lihlii_童言无忌/Topic/软件/Twitter/cleanup/
3. 将需要保存的推文保存为完整网页(Complete HTML)格式,不要保存为仅存网页(HTML Only)格式,那样网页中信息可能不全。
4. 将保存的推文 HTML 文件拷贝到如上 2. 所述文件夹中。
5. 运行 msg_merge_sort_twitter.bat,该脚本程序可以处理多个 HTML 文件并将其中推文按照时间排序,删除重复推文,输出结果 msg_merge_twitter.txt 是一个以 TAB 字符分隔的已经排序过的推文列表,可以导入 Excel/LibreOffice Calc 软件进行处理。
6. 运行 tsv2html.bat 会自动将 msg_merge_twitter.txt 文件转换为简化的 HTML 文件适合作为存档。可以在浏览器中打开,拷倍内容后可粘贴到邮件编辑器或博客编辑器中发布。
7. 发布的推文格式如
http://lihlii.blogspot.nl/2012/10/blog-post_7.html
所示。
8. 有任何问题或修改建议,请联系
lihl...@gmail.com
或
https://twitter.com/lihlii
。
喜欢这篇文章吗?欢迎发空信给
lihlii+s...@googlegroups.com
订阅《童言无忌》邮件组 发空信给
jrzl+su...@googlegroups.com
订阅《今日知录邮件组》。
msg_cleanup_twitter.7z
lihlii
unread,
Oct 14, 2012, 11:58:19 AM
10/14/12
Reply to author
Sign in to reply to author
Forward
Sign in to forward
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to lihlii-g, Salon Friends, posterous
Twitter 推文网页存档自动简化转换
v121014
修订:
1. 增加功能,输出结果包括推文内嵌的图片。
用法:
安装 Perl 解释器,推荐用 ActivePerl
http://www.activestate.com/activeperl/downloads
。
将本文件包内容展开到一个文件夹中。下载文件包:
https://www.wuala.com /lihlii_童言无忌/Topic/软件/Twitter/cleanup/
将需要保存的推文保存为完整网页(Complete HTML)格式,不要保存为仅存网页(HTML Only)格式,那样网页中信息可能不全。
将保存的推文 HTML 文件拷贝到如上 2. 所述文件夹中。
运行 msg_merge_sort_twitter.bat,该脚本程序可以处理多个 HTML 文件并将其中推文按照时间排序,删除重复推文,输出结果 msg_merge_twitter.txt 是一个以 TAB 字符分隔的已经排序过的推文列表,可以导入 Excel/LibreOffice Calc 软件进行处理。
运行 tsv2html.bat 会自动将 msg_merge_twitter.txt 文件转换为简化的 HTML 文件适合作为存档。
也可以直接运行 msg_merge_sort_twitter_htm.bat,则自动调用第 5. 6. 步所述脚本成序,在浏览器中打开生成的 tsv2htm.htm 文件,如果有内嵌图片,则最好再以完整网页格式保存一次,这样可以确保 将内嵌图片也保存到本地存档。
拷倍网页内容后可粘贴到邮件编辑器(如 Thunderbird)或博客编辑器中发布。发布的推文格式如
http://lihlii.blogspot.nl/2012/10/alison-klayman-never-sorry.html
所示。
最新版本发布在
https://github.com/lihlii/msg_cleanup
。
有任何问题或修改建议,请联系
lihl...@gmail.com
或
https://twitter.com/lihlii
。
Reply all
Reply to author
Forward
0 new messages