情報学概論Ⅱ 第5回

企業情報学部

5/19

情報学概論2 第5回(5/19)

(Introduction to Informatics 2)

事務連絡

  • 来週第6回(に限定して)遠隔オンデマンドでの授業にさせていただきます(ご了承ください)。
    • Google Meet の録画を用意しますので聴講ください(この資料のトップページから辿れるようにします)。
    • いつものように教室に来てそこで聴講、でも大丈夫です(平岡不在ですが)。或いは遠隔でもOK。
    • 時間を(後ろに)ずらして聴講しても大丈夫です(が、あまり遅れないように)。

ファイル 種類 拡張子(2)

JPGの中
PDFの中

1 PDFファイル

(前回のおさらいと補足)

  • コマンドが動かない?

  • PDFは、テキストファイルとして表示させると右図(の左)のようになっただろう。

    • ちなみに、JPEG画像ファイル等は文字として表示できる部分は殆どない (純粋なバイナリーファイル)。ダンプした結果が右図(の右)。 PDFの中2
  • PDFでは文字による言語で構造が作られていることが想像できるだろう(右図)。
    • (画像などの)バイナリーデータはstream命令(のようなもの)で流し込む形になっている(その部分は文字としては表示されない)ことも読み取れただろうか。
  • PDF(前にも紹介したが)PostScript言語を土台とした記述。 その言語を知らない人にはあまり意味のないものだろうが、 自分がわからないものを「文字化け」として十把一絡でゴミ扱いはしないようにしましょう。
    • この科目はファイルや情報システムの「中身」「しくみ」「生成過程」に目を向けることを意識的に行っているので、

      (たとえばPDFを、ブラウザで)美しく表示できればそれでよし

      (自分がコマンドを使えずに、GUIの力を借りて)ともかく生成できればそれでよし

      という考え方に陥らないようにしましょう。(当科目の目的から見ればそれは「失敗」ということになるので)。

e. PDFでページ検索・コピペ

(文字としてのデータの扱われ方)

実験:

  • 前回いくつかの方法で作成したPDFファイル(印刷機能で作ったものも含めて)について、

  • いずれかのビューワで表示させた状態で、

    1. ページ内検索
    2. 画面上の文字をコピーしてどこかに(たとえばTyporaやAtomなどのエディタの新規ファイル画面)に貼り付けて結果を確認する

    といった操作を試みてください。

(前回資料のページをPDF化したものを以下にいくつか置いておきますのでこれで試してもらってもOKです。)

印刷 228
Pandoc 168
Typora 669
キャプチャ 2798
  1. Windowsの印刷機能(Shift+Ctrl+P からプリンタとして pdf writerを選ぶ)
  2. pandoc + wkhtmltopdf
  1. Typora(Markdown用エディタ + 内部でpandoc)
  2. フルスクリーンキャプチャ画像からPDF化
  3. (ついでに作ってみた)ワープロソフト(LibreOffice)でHTMLからPDFにエクスポート
  4. (ついでに作ってみた) GIMPでインポートしてからエクスポート(単一ページ)
  5. 当科目についてこんなファイルもあります(取り扱い注意)
実験2:

(最近はpdf writerが高度になってきて 比較的問題を起こさなくなってきているので、別の実験も行いましょう)

解説と補足:
  • 右図のようなファイルサイズ(大雑把にKB単位)になっており、生成方法による差があることも確認しておいて下さい。

    印刷 メモ帳<->ブラウザ 印刷:ブラウザの場合

  • Webページをブラウザからプリントする際、印刷機能を自前で用意しているブラウザ(たとえばChrome)の場合、自前の印刷機能とWindows組込の印刷機能を使い分けることができる(上図;この2つは機能がかなり違う)。 ブラウザのフルスクリーンキャプチャ
  • 上記4.のフルスクリーンキャプチャの機能は広く知られている訳ではない(比較データ生成のために使用しただけで、今回は参考のため紹介したが使う必要も覚える必要もないだろう、 が、参考ページを示しておく 。ただし最近は保存に使う画像形式はpng限定になっているようだ)。
  • PDFは(或いは PostScript言語は)そこに描画すべきものを(画像データを扱う部分を除いて) 線画で表現する。 アウトライン
    • アウトラインフォントの表現をページに拡大したもの、をイメージするといいだろう。
データの形式の上下
  • データの変換は一方通行であることを知っておこう(上図)
    • 印刷形式からもとの構造データを復元、画像からテキストへの変換、などは、 (必要な情報が失われているため)技術的に困難。
    • データの流れの上流・下流を意識したとき、PDFは下流寄りのデータ形式ということになる。
  • なお、前述の pdf writer は最近は(名前が変わって)「Microsoft Print to PDF」と呼ばれているようです。

f. 拡張子が違ったら(または、ついていなければ)

  • これまでの知識があれば推測可能
  • アプリケーションでの推測
  • 推測してくれるサイト
    • たとえばここ ファイル形式診断ツール(右図)
    • こういったサイトの信頼性は不明なので、重要なデータには使用しない方がいい)
  • 拡張子のつけはずし の方法
  • 関連づけされたアプリケーション、とそれ以外のアプリケーション(について おさらい)

2 DOCXファイル

a. 作成

  • pandoc で

b. DOCX の実体

  • (PDFと同様に)メモ帳で眺めてみる 操作
    • よくわからないね
    • 実は…

実験:

  1. DOCXファイル(大事なファイルならばコピーしたものを使う)の、拡張子をzipに変更し、
  2. それを解凍してみる。 Officeのファイル形式変遷 その結果どんなファイルができているか中を覗いてみて下さい。
  • DOCX(をはじめとする、MicroSoft Officeの 最近のファイル形式;名前にx がつくもの)は、

    • このように、複数のファイルをzip形式で圧縮したものである。
    • それを構成する各ファイルははXMLの文法で書かれたもの。

    ということが推察できるだろう。

    DOCXの実体

c. テンプレートの活用(pandocの小技)

  1. テンプレートを作成

    pandoc --print-default-data-file reference.docx > reference.docx

  2. word(など)でそのスタイルを編集(右図参照) スタイルの使用

    • 図で示したように、テンプレートファイルの、当該箇所の表示をピンポイントで変更するのではなく、

      (それぞれの)スタイル名(を右クリックしてコンテキストメニューから進むといい) の表示形態の「変更」を行う必要がある(ここを誤解する人が多いのでご注意)。

    reference.docx
    • GUI的に開いても勿論かまわないが、ここから開くほうが手っ取り早いだろう。
      • ちなみに MacOS では

        open reference.docx
  1. テンプレートを使用

    pandoc ソースファイル -o 出力先.docx --reference-doc reference.docx
    • オプション –reference-doc は、バージョンによる変化があったらしい。
    • 所定の場所に置いてデフォルトの(DOCX生成時の)テンプレートにすることもできる。

実験してみてください

  1. 手元にある画像ファイルの
    拡張子を変えて 開いてみる
      (たとえば jpg<->png)
  2. それを 拡張子判別アプリorサイト
    に 食わせてみる
  3. 手元にある DOCXの 拡張子を
    .zip に変えて開いてみる

3. 課題

  1. 今日の内容について

    • 今日行った作業や実験で、何が判明した(と、考えられる)のか、

    • 考察してまとめをご報告ください。

      (せっかくなので Markdownで書いて、PDFかHTMLに変換したものを提出ください)

  2. アンケートの試み(実験として)

    • 添付の用紙(DOCXで作ったよくあるフォーム)にお答えいただいて、返送ください。