武藤(@mutomasa)です。
お疲れ様です。
可視化は必要だと思います。興味あります。
開発スキル(分野によりますが)はありませんが、レビューと
フィードバックしながらアプリケーションの開発に
お役に立ちたいと思います。
よろしくお願いします。
2011年4月27日18:49 seigo ishino <titan...@gmail.com>:
PDFからテキストをぶっこぬくなら、PDFlib TETという商用ツールがありますが、
これを活用するととりあえずベタなunicodeテキストを抽出することができます。
ご参照: http://pdflib.techstyle.jp/products/tet.html
これ、スクレイピングにお役立にたてそうでしょうか。
技術情報、ライセンス含めツール提供を検討できます。
なお、このサイトでもこのツールでPDFからテキスト情報を抽出しています。
→ http://handsout.jp/
ご参考になれば幸いです。
2011/4/27 seigo ishino <titan...@gmail.com>:
--
Riotaro OKADA
TechStyle Co. Ltd.
http://techstyle.jp/
http://pdflib.techstyle.jp/
located at 3-7-1, IRIFUNE, CHUO, Tokyo, Japan. 104-0042
2011年4月28日0:27 seigo ishino <titan...@gmail.com>:
> Googleの携帯電話向けの変換で、PDFがテキスト化されるのですね。
> この機能は知りませんでした。 教えていただいて、ありがとうございます。
> Google Wireless Transcoder (GWT)
> うまく変換できないPDFもあるようですが、携帯からの利用だと軽量でよさそうですね。
すでにミラーをされている方もいるようですが、以下にファイルを一括して閲覧可能
ですので、お使い頂ければと思います。※ファイルの命名則などもご確認を。
http://eq.sakura.ne.jp/ 過去データ一覧
--
Naoto MATSUMOTO
2011年4月27日21:26 Riotaro OKADA <rio...@techstyle.jp>:
> テックスタイルの岡田です。
>
> PDFからテキストをぶっこぬくなら、PDFlib TETという商用ツールがありますが、
> これを活用するととりあえずベタなunicodeテキストを抽出することができます。
>
> ご参照: http://pdflib.techstyle.jp/products/tet.html
サーバサイドで、しかも商用でないものということであれば、
Poppler も検討されてみてはいかがでしょうか。
http://poppler.freedesktop.org/
Ubuntu の環境の場合、poppler-util というパッケージも用意されているので、
# apt-get installl poppler-util
でインストールできるかと思います。インストールするとそのものズバリな 'pdftotext'
コマンドが利用できるようになります。
> pdftotext(1) pdftotext(1)
>
> NAME
> pdftotext - Portable Document Format (PDF) to text converter (version
> 3.00)
>
> SYNOPSIS
> pdftotext [options] [PDF-file [text-file]]
>
> DESCRIPTION
> Pdftotext converts Portable Document Format (PDF) files to plain text.
--
Hiroshi Chonan <cho...@pid0.org>
ちょうど今日の夜、東京でNetSquaredTokyoという集まりがあります。sinsai
.info の方が話題提供されます。>詳細は netsquared.jp をご覧
ください。
ーーー
並行して障害のある方の情報へのアクセスにいろいろ関わってて、今回の
PDFのテキスト化のスレッドは興味深かく拝見してます。
Adobe社はかなりPDFを目の見えない方に配慮して開発をしています
が、どうしてもPDFでないといけない場合を除いて、行政等公共性
の高い情報は、なるべくテキストにすべきと思います。ということで、今
回の議論は震災以外のところでもアクセシビリティ保障の議論として続い
て欲しいと思ってます!
ーーー
等々の議論もiSPPのMLや「ITにできること」というサ
イト http://adgj.net/cordinateit/ でしたいと思ってます。今後
も宜しくおねがいします。
>簡単なオーサリングツールのようなもので、PDFと同時にマルチブラウザ/プラットフォームでの表示がサポートされるHTMLも生成してくれるようなものがあれば、それを啓蒙するということも可能ではないでしょうか。
そのようなツールってあるのでしょうか?
検索してみましたが、よくわかりませんでした。
啓蒙は必要だと思います。
現地視点ですが、理由は
* メモリが少ないマシンを持っていてAdobe Reader開くのに一苦労
(PDF Viewerで開けばいいんじゃないというツッコミがきそうですが)
* 仙台に方の携帯(ガラケー)ではpdfが開けない。つまり情報にアクセス出来ない。みんながPC持っているわけではない。
* 自治体はデフォルトはpdfなんですが、情報課の中の人はHTML5とか勉強していて啓蒙すると、だいぶかわると思います。
→表形式のデータはHTMLとCSVで。
追記
宮城県の【福島第一原子力発電所事故に関する情報】の英語のページだけはHTMLでした。
http://www.pref.miyagi.jp/kokusai/en/accidents_fukushima_nuclear.htm
2011年4月28日13:02 Takuya Oikawa <tak...@google.com>:
以下で少し変換してみましたが、なかなか良さそうでした。(結果を添付)
http://www.pdftoexcelonline.com/
2011年4月28日15:50 Masahiro Muto <mutom...@gmail.com>:
変換元 http://vhost0098.dc1.co.us.compute.ihost.com/files/110426map_1800.pdf
変換後 Excelデータ
2011年4月28日15:58 NAOTO MATSUMOTO <naot...@gmail.com>:
2011年4月28日17:22 seigo ishino <titan...@gmail.com>:
> 松本さん、
> 過去のデータがアーカイブされているのですね。アクセスしやすいので利用させていただきたいです。
> このプロジェクトのために、さくらインターネットさんのサーバーを貸していただけますか。
はい、いま調達しましたので、別途アカウントを発行しておきますね。※これがクラウド時代の対応速度です(笑)
> Nitro PDFのPDF to Excelですが、良いですね。
> 原発周辺の固定測定点における空間線量率の測定結果
> については、Popplerで変換しても順序がおかしくなってしまうのですが、これはきちんと再現されていました。
使えそうなツールが見つかると良いですね。
--
Naoto MATSUMOTO
石野さんWrote:
> 配布元に働きかけて扱いやすい形での提供を依頼するという方向があると思います。
> 後者については、交渉力のある方の協力をお願いしたいです。
誠に勝手なお願いですが、『Hack For Japan』として、公式に提言してもらえないでしょうか。
そして、他の団体(iSPPやIT復興円卓会議など)や企業、個人にも、それに乗っかってもらうようお願いする。
※私個人としては、twitterで拡散するしかできないですが
昨日、Yahoo! Japanで「公式避難場所名簿検索」が公開されましたが、
Yahoo! Japan広報からのお知らせとして、以下の記述があります。
> 本サービスをより良いものとし、且つ継続していくためにはいくつかの問題があります。
> 最も大きな問題が名簿が統一されていないことです。
> 公開されている名簿はPDFであったり、画像であったりとフォーマットや記載されている情報がバラバラです。
> これをひとつひとつ整理していくのは大変な作業です。
> そのため管轄省庁である総務省に対しても、地方自治体に向けて名簿のフォーマットの統一化が図られるような
> 働きかけをしていただけないかという提案を行っております。
> http://blogs.yahoo.co.jp/yj_pr_blog/19741810.html
上記のような働きかけの輪を、企業や個人が別箇にするだけでなく、広げていってはいかがでしょうか。
参考資料として、ファイルを添付します。
・文書プロパティ.jpg
文部省の「原発周辺の固定測定点における空間線量率の測定結果」にあるPDFの文書プロパティのスクリーンショット
「アクセシビリティのための内容の抽出」とは、視覚障害者のために音声リーダー用のテキストを
抽出することに対する設定であって、これが許可されていても変換できません。
・1305388_042910.unlocked.pdf
セキュリティを外したPDF
・抽出結果.zip
HTML 4.01形式、XML 1.0形式、プレーンテキストに変換した結果の圧縮。
HTML及びXMLの変換時に、imagesフォルダにjpegファイルが抽出されました。
※ScanSnap S1500付属のAdobe Acrobat 9 Standardを使用しました。
2011年4月30日0:14 鎌玉 大 <kamat...@gmail.com>:
申し遅れましたが、3/21のHack for Japan "beginning"、GoogleWaveと京都に参加しました。
当日はありがとうございました。
これは偶然ですが、その日(2011/3/21)にiSPPの母体となる会合もありました。
その辺りからICT周りの人たちも動き出して今日に至る、なんですね。^-^
----
PDFのテキスト化の件、意見や提言、テスト、おつかれさまです。
まさにこれって、「データの民主化運動」「PDFという独裁者へのジャスミン革命(^^;)」って自分では思ってます。
野田 G4GTi <ryohe...@gmail.com>さん
件名:[hack4japan:33] Re: PDF資料のテキスト化
の提言、賛成です。
iSPPやIT復興円卓会議などとは積極的につなぎたいですし
(「ITにできること」で声をかけられそうなところまとめてます
http://adgj.net/cordinateit/)、今回主に対象になりそうな行政や企業、それから、ソフトメーカー、当事者(アクセシ
ビリティの面も含めて)、キャリア、(海外も含めて)…等々、巻き込んで
いくといいと思います。
そこで、野田さんのご質問への簡単な回答ですが、
> 1. Hack 4 Japanで「他の団体(iSPPやIT復興円卓会議など)」との渉外窓口を担当されていらっしゃる方はおられますか? if
> yes, いままでどのようなことがそれらの団体間で連携されているか、あるいは課題となっているかなどをお教えください。
iSPPでは、http://www.ispp.jp/archives/93 で課題が出てます。
10 情報システムを連携を支援するための共通APIの策定
の部分で議論でしょうかね…。
12 情報支援活動のインデックス化
5 情報ボランティアの派遣
なども、関係しそうです。いずれにしても、iSPPの全体のMLへ
投げるといいです。とりあえずHack4JP ML でこうした議論がある
こと、松浦弘智が担当して投稿します。
> 2. 要望を上げる文科省(本件以外でも既に関連している所轄官庁)に影響力を持っているメンバーの方はHack 4 Japanではどういった方々が
> いらっしゃるでしょうか?
これはカミングアウトを待つしかないですね^^;
私もメールが送れる方はいますので、ダメもとでも送ってみます。
その他、、
・目的等は違いますが、視覚に障害を持った方向けの「daisy フォーマット」の
運動が課題の構造としては、結構似ているかな、と思います。(もちろん、
今後はこれをきっかけに、PDFとdaissyフォーマットのすり合わせ、とかも
調べないといけないかもしれません。)
・必要は発明の母、ってことで、この際、PDFに代わるモノを
作っちゃうのもいいかもしれません。すでにあるのかもしれませんが…
・将来像は data.gov みたいなものを目指す、という感じでいいでしょうかね。。
・並行して、どうしてもPDFのものしかないものは、例えばマイクロボランティア的にガーッとCSVとかにする、というのもアリかな、と思いました。
例えば http://tinyurl.com/3r7mon8 こういう有用なデータって
個人の方で対応されてるのですかね・・?もしそうであれば
もうちょっと人海戦術的にできるといいな、と。
以上です。
---
ITにできること」http://adgj.net/cordinateit/
松浦弘智 matsuura hirosato
matsu...@gmail.com
09096929382
2011年4月29日14:59 G4GTi <ryohe...@gmail.com>:
> 今回は与太話、というか愚痴です…
:
> 。。で、何と言うか、、、これって↓税金払っている者が受けるサービスとしては
> あんまりですよね・・なんというか、まとめるほどに、意地悪されているとしか思えず、
> 我々国民がかわいそうになってきました ^^;
> アメリカでは、何年も前に「電子」情報公開法というのが成立していて、
> 「国民にデータを入手する手間をかけてはならない」というのが、法律に
> なってるはず。で、data.gov みたいなのがきちんとできている。一方で、
立て続けにすいません、補足です
「電子」情報公開法
=正確にはEFOIA 電子情報自由法 というらしいです。(前提としてFOIAがあって、e-FOIA)
この文章が参考になります。
http://web.sfc.keio.ac.jp/~taiyo/980614/980614paper.html
*この辺りの話を最新情報として1996年当時聞いたことがあったことを思い出しました。それから15年かぁ。。
ーー
PDFで公開されていることによる、国民の損失とかでを数値化できないですかね^^;
例えばコストとして計算できると、税金の話として議員さんなどには持って行きやすいかもしれません。CO2排出量でもいいかも ^^;
私も5/21,22は現場にハッカソン等会場で参加したいと思ってます。
東京が便利かな、とも思うし、なるべく被災地近くの会津、仙台にも行きたくもあり、
悩ましいですね。
ぜひ顔をつき合わせてPDFのテキスト化の話もしたいです!
ーーー
こちら
http://code.google.com/p/hack-access/
にアクセスしたいのですが、権限とかは申請するんでしたっけ?
ーーー
iSPP* MLにも「読めない文書をハック」の紹介をしておきました。
ところで前後して、特に行政の現場でのでいわゆる「外字」問題の議論もありました。
PDFはそういったとこももしかしたら関連しているのかなとちょっと思いました。
*http://ispp.jp/
ーーー
アクセシビリティとの兼ね合いも少し調べたところ、目の見えない方のニーズから
生まれたデータフォーマット、"Daisy"のこんな記事が気になりました。
http://www.dinf.ne.jp/doc/japanese/access/daisy/seminar100709/daisy_and_epub.html
「DAISYとEPUBは読書のユニバーサルデザインをどう実現するのか」
河村宏(DAISYコンソーシアム会長)
PDF等書類データも、また、紙を介さずに、電子端末上やクラウド上を飛び交う時代を
見とおさないといけないかもしれません。今回は紙資料が多く津波により流出したとも
ききますし、より現場に近い人ほど、クラウド・デジタルデータなどの重要性に
関心があるかもしれませんね。
ーーー
ついでに、以前ちらっと書いたNetSquaredTokyo、次は5/24なので
アナウンス…
http://netsquared.jp/
http://www.facebook.com/event.php?eid=153244508074187
以上です
--
松浦弘智 ITにできること http://adgj.net/cordinateit/