(Introduction to Informatics 2)
(前回のおさらいと補足)
PDFは、テキストファイルとして表示させると右図(の左)のようになっただろう。
PDFでは文字による言語で構造が作られていることが想像できるだろう(右図)。
PDF(前にも紹介したが)PostScript言語を土台とした記述。 その言語を知らない人にはあまり意味のないものだろうが、 自分がわからないものを「文字化け」として十把一絡でゴミ扱いはしないようにしましょう。
この科目はファイルや情報システムの「中身」「しくみ」「生成過程」に目を向けることを意識的に行っているので、
(たとえばPDFを、ブラウザで)美しく表示できればそれでよし
(自分がコマンドを使えずに、GUIの力を借りて)ともかく生成できればそれでよし
という考え方に陥らないようにしましょう。(当科目の目的から見ればそれは「失敗」ということになるので)。
(文字としてのデータの扱われ方)
実験:
前回いくつかの方法で作成したPDFファイル(印刷機能で作ったものも含めて)について、
いずれかのビューワで表示させた状態で、
といった操作を試みてください。
(前回資料のページをPDF化したものを以下にいくつか置いておきますのでこれで試してもらってもOKです。)
印刷 | 228 |
Pandoc | 168 |
Typora | 669 |
キャプチャ | 2798 |
(ついでに作ってみた)ワープロソフト(LibreOffice)でHTMLからPDFにエクスポート
(ついでに作ってみた) GIMPでインポートしてからエクスポート(単一ページ)
(最近はpdf writerが高度になってきて 比較的問題を起こさなくなってきているので、別の実験も行いましょう)
右図のようなファイルサイズ(大雑把にKB単位)になっており、生成方法による差があることも確認しておいて下さい。
メモ帳<->ブラウザ
Webページをブラウザからプリントする際、印刷機能を自前で用意しているブラウザ(たとえばChrome)の場合、自前の印刷機能とWindows組込の印刷機能を使い分けることができる(上図;この2つは機能がかなり違う)。
上記4.のフルスクリーンキャプチャの機能は広く知られている訳ではない(比較データ生成のために使用しただけで、今回は参考のため紹介したが使う必要も覚える必要もないだろう、 が、参考ページを示しておく 。ただし最近は保存に使う画像形式はpng限定になっているようだ)。
PDFは(或いは
PostScript言語は)そこに描画すべきものを(画像データを扱う部分を除いて)
線画で表現する。
データの変換は一方通行であることを知っておこう(上図)
なお、前述の pdf writer は最近は(名前が変わって)「Microsoft Print to PDF」と呼ばれているようです。
- pandoc で
実験:
DOCX(をはじめとする、MicroSoft Officeの 最近のファイル形式;名前にx がつくもの)は、
ということが推察できるだろう。
テンプレートを作成
pandoc --print-default-data-file reference.docx > reference.docx
word(など)でそのスタイルを編集(右図参照)
図で示したように、テンプレートファイルの、当該箇所の表示をピンポイントで変更するのではなく、
(それぞれの)スタイル名(を右クリックしてコンテキストメニューから進むといい) の表示形態の「変更」を行う必要がある(ここを誤解する人が多いのでご注意)。
reference.docx
ちなみに MacOS では
open reference.docx
テンプレートを使用
pandoc ソースファイル -o 出力先.docx --reference-doc reference.docx
実験してみてください
今日の内容について
今日行った作業や実験で、何が判明した(と、考えられる)のか、
考察してまとめをご報告ください。
(せっかくなので Markdownで書いて、PDFかHTMLに変換したものを提出ください)
アンケートの試み(実験として)