読者です 読者をやめる 読者になる 読者になる

Haskellライブラリ所感2016

(これは Haskell Advent Calendar 2016 の7日目の記事です)

今年使ったり調べたりした Haskell ライブラリを広く紹介していく企画です。 あくまで今年使ったものなので新しいものばかりではないです。 また記事の性質上、紹介するものが偏っていてもご容赦ください。

Hackage にはすごい数のライブラリが登録されていて、 頼もしいことですが目が回りそうにもなってしまいます。 この記事が Haskell のライブラリを調べる上での指針になったら幸いです。

なおこの企画と方向性が似ているものとして State of the Haskell ecosystem ( 2016年2月版 ) があります(英語)。 これは Haskell を取り巻く環境を知る上で非常によいドキュメントです。 ただ各ライブラリについては名前を挙げるだけにとどめられています。 この記事ではもう少しライブラリの内容に踏み込んだ説明をしていきます。

目次

文字列

bytestring, blaze-builder, bytestring-conversion, base64-bytestring
text, text-format, text-icu
utf8-string
shakespeare

Haskell の標準の String 型は Char リストのエイリアスなので、 文字列として使うには効率が十分でないことが多いです。 そのため効率的な文字列型として text や bytestring があります。 かといってリストのメリットもなくしたくないので text と bytestring は Lazy 版を提供しています。 まとめると

  • String = [Char]: 文字のリスト(UCS-4 (UTF-32?))
  • Data.Text: 文字列 (UTF-16)
  • Data.Text.Lazy: 文字列のリスト (UTF-16)
  • Data.ByteString: 文字列 (バイト列)
  • Data.ByteString.Lazy: 文字列のリスト (バイト列)

上記はあくまで内部的な話で、それぞれのインターフェースはほぼ同じように設計されていてどれも文字列として扱えます。 また OverloadedStrings 拡張によってどれも文字列リテラルから生成することができます。

上記に加えて、text と bytestring は Builder というのも提供しています。 イミュータブル文字列は連結を繰り返すと効率が悪いので専用の型があるわけです。 JavaStringBuilder のようなものだと考えておけばいいと思います。

blaze-builder は bytestring 用のビルダーでしたが bytestring 自体がビルダーを提供するようになったために現在は積極的に開発されていないようです。 互換性のために残されています。

bytestring-conversion は自作の型に独自にシリアライズ・デシリアライズを実装するのに便利です。 普通は JSON とか既存のものを使えばいいですがたまに独自のシリアライズが必要になることもあります。

base64-bytestring は bytestring に Base64 エンコーディングを提供します。

text-format は文字列のフォーマット出力(%d ではなく {} を使う方)を提供します。

text-icuICU ライブラリへのバインディングです。 自分は正規表現の機能のために使っていました。 Haskell はパーサコンビネータが優秀なので正規表現が必要になることはあまりないのですが、 今年はアプリのインターフェースとして正規表現をユーザに提供するという機会がありました。

utf8-string は String や bytestring に UTF-8 のインターフェースを提供します。 ただし text が UTF-8 との相互変換を提供しているのであまり使う機会はない気もします (自分は使っていません)。

shakespeare はテンプレートエンジンです。 自分は Haskell でヒアドキュメントもどきをやりたいためだけに使っていました。

ロガー

monad-logger
fast-logger
monad-log
katip

Haskell のロガーとして最も広く使われているのは monad-logger だと思います。 独立して動作させる以外にもお手元のモナドにログ機能を導入することもできます。

fast-logger は monad-logger や他のいくつかのロガーのバックエンドとして利用されているロガーです。 これを単体で使うことはほぼないと思われますが、 monad-logger で少し凝ったことをやろうとすると fast-logger の API も使うことになったりします。

monad-log は monad-logger に不足している機能 (JSON とかタイムスタンプとか) を追加し、さらに他のモナドとより組み合わせやすくしたもののようです。 これもバックエンドに fast-logger を使っています。 今年登場した新しいロガーですが数ヶ月前から更新が止まったままです……。

katip は珍しく fast-logger を使っていないロガーです。 速度というよりはリッチなログ出力を重視しているようで、 自分が知る限り今最も多機能なロガーです。 また他の言語のロガーとも使用感が近いです。 もちろん JSON とかタイムスタンプに対応しています。

このあたりの話は 別の記事 にも少し書きました。

例外

safe-exceptions
exceptions, enclosed-exceptions

結論から言うと safe-exceptions を使っておけばいいです。

Haskell の標準の例外機構は非同期例外まわりが大変なのと IO に制限されるのが面倒というのがあって、 それをなんとかするために exceptions とか enclosed-exceptions とかが開発されました。

現在は safe-exceptions が決定版と言えるでしょう (この話題については別の記事を書きました)。

なお safe-exceptions のチームは並行・並列処理に async (後述) パッケージを使うことを推奨しています。 そうすることで safe-exceptions のメリットを最大限享受できます。

ちなみに Haskell の例外は非検査例外ですが、 mtl (後述) の Control.Monad.Except を使えば検査例外の模倣ができます。 ただし Haskell の例外機構とは独立したものなので注意が必要です。

データ

aeson, yaml
ini
lens
xml-conduit, xml-lens
time, thyme
containers, unordered-containers

aeson は HaskellデファクトスタンダードJSON ライブラリです。 JSON を扱う他のライブラリは大体これに依存しています。 データ型を書くと自動的に JSONリアライザ・デシリアライザを用意してくれたりします。 すごい。

yamlYAML ライブラリですが、独立したものというより aeson の YAML 向けインターフェースといった感じです。 aeson と同じ API で操作できます。

ini は INI ファイルの読み書きをサポートするライブラリです。

lens は Haskell の「入り組んだデータ構造の奥底の値を読んだり書いたりするのが大変」 という問題に対する救世主です。 しかし代償として多くの演算子を導入します。 まあ基本的な一部の演算子をインポートするだけでも十分メリットがあるというのが私の実感です。

xml-conduit は XML の読み書きをサポートするライブラリです。 名前に conduit とありますが conduit ライブラリ(後述)のことは特に意識しなくても使えます。 xml-lens は xml-conduit に lens のインターフェースを導入します。 XML はまさに lens が得意とする複雑なデータ構造(であることが多い)ので適任です。

time は日付時刻ライブラリのデファクトスタンダードです。 thyme は time をより高速で扱いやすくし、さらに lens インターフェースを追加したものらしいですがまだ触っていません。 なんで日付時刻に lens? と思うかもしれませんが、 time の ZonedDate 型とかは込み入ったデータ構造になっていて時刻を0秒にするとかが結構大変なんですよね。 そういう意味では lens インターフェースをつけたいという動機は確かにあります。

containers と unordered-containers は Map とか Set とかそういうデータ構造を提供するライブラリです。

データベース

relational-record
HDBC, HDBC-mysql
persistent
persistent-relational-record

relational-record を使うと Haskell の言語内 DSLSQL クエリを組み立てることができます。 SQL クエリに型をつけられるというのがまずすごいし、 do 構文内の DSL なので let とか <- でクエリ構築中に変数を作れるのが結構便利です。 さらにコンパイル時に DB にアクセスしてテーブル定義から Haskell のデータ型を作ってくれる機能もあります。 ただちょっと自分の場合は DSL に慣れるまで時間がかかりました

国内の某 ISP の一部サービスはこれで動いているらしい。 実装はファントムタイプのお化けみたいな感じなのでつまりお化けのお化け。

relational-record は実際に DB と通信する部分では HDBC を使うことが想定されています。 HDBC-mysql は長らく開発が止まっている状態だったのですが最近新しいメンテナが入ったみたいなのでよかった。

公平のために言っておくと、 RDB 関係では persistent が今一番有名なライブラリだと思います。 これは Yesod の陣営が作っているので一定の信頼が置けます。 自分はこちらは使ったことがないです。

あと最近 persistent-relational-record という persistent と relational-record を連携させるライブラリがリリースされました。

並行・並列

async, lifted-async
monad-par
stm

async は Haskell の軽量スレッドを安全で扱いやすくしてくれます。 スレッドをタイムアウトさせるとか複数スレッドで一番先に結果を返したやつを採用して他を kill するとかも簡単にできる。 lifted-async は async が IO ベースだというのが使いづらい場合に便利。

monad-par は並列計算文脈 Par モナドを導入します(こう書くと必殺技っぽい)。 たぶん async より決定的な計算をするのに向いています。

stm はソフトウェアトランザクショナルメモリのライブラリです。 軽量スレッド間での通信を安全にしたいときに便利。

なおこのあたりの話は Haskellによる並列・並行プログラミング というすばらしい本(日本語訳)にまとまっています。

通信

wreq
req
amazonka, aws

高レベルの HTTP クライアントとしては wreq が有名です(たぶん wget のオマージュでしょう)。 lens ベースの API を備えていて GET とか POST とかを簡単に投げることができます。 しかし残念ながら wreq は現在開発が止まっているようです。

そこで出てきたのが req です。 現在は HTTP クライアントとしてはこれを採用するのが良さそうです。

req が wreq と比べて足りないところは、 wreq が備えていた AWS の HTTP API リクエスト署名の機能がないことくらいです。 これについては req の作者も考えているようですが今のところありません。

まあ AWS については amazonka シリーズや aws などの専用のライブラリがあるのでそれほど困らないかもしれません。

ストリーム・リソース

conduit
resourcet

Haskell のリストは最初から遅延ストリーム的にも使えるので、 なんでストリームライブラリが必要なんだと思われるかもしれません。 しかしながら、ストリームデータの生成元リソースを解放する必要があるとか、 ストリーム処理中に例外を吐いて失敗する可能性がある場合などは、 リストでは制御が難しくなってきます。

そのようなときには conduit のようなストリーム処理ライブラリが有用です。

resourcet はリソースを解放することを保証するモナドを提供し、 conduit とも連携できます。

テスト

hspec
HUnit
QuickCheck
smallcheck
tasty
HTF
doctest
silently

Haskellユニットテストの関係について何か誤解している向きもいらっしゃるようですが実際のところ Haskellユニットテスト環境は充実しています。

いわゆる普通のユニットテストを提供するのは hspec と HUnit です。 hspec は Rubyrspec インスパイアドなテストライブラリです。 同様に HUnit は JavaJUnit インスパイアドなライブラリです。 (advanced features として JUnit 風の関数ではなく演算子でテストを書くこともできますがかえって分かりにくくなる気がします)。

Haskell で特に発展しているのが性質テスト (property-based testing) というテスト手法です。 入力値を規則に従って自動生成する手法で、 恣意的な入力値を想定してのテストが書けないため関数の性質に着目したテストを書くことになります。 代表的な QuickCheck は入力値をランダムに生成します。 smallcheck は小さいデータ構造については全数テストを生成できるという特徴があります。

上記のようないろいろな種類のテストをひとまとめにして実行できるインターフェースを提供するのが tasty や HTF です。 実は hspec もこの仲間で、 rspec 風のテスト API を提供するだけでなく HUnit や QuickCheck へのインターフェースを持っていたりします。

また Haskell にはユニットテストだけでなく Python 風の doctest もあります。 ドキュメントコメントにあるテストを実行して API ドキュメントが嘘を言っていないか確かめることができます。

テストの種類に依らず使えるユーティリティとして silently があります。 silently は標準出力への出力などをキャプチャすることを可能にします。 標準出力のテストを行いたいときなどに便利です。

モナド

mtl, transformers
monad-skeleton

mtl と transformers はいくつかの汎用的なモナド変換子を提供するライブラリです。 mtl の方がより新しいです。 ( @masahiro_sakai さんから「mtlの方がより古い」とのご指摘を頂きました。 たしかに Haskell Wiki にそのように書いてありました。 まず初期にmtl(mtl V1)があり、その後に新機能のtype familiesを用いたmtl-tfが開発されたものの mtlと重複した部分が多く互換性もなかった。 そこで拡張なしの素のHaskell98で動くtransformersが開発され、 その上にmonads-fdとmonads-tfを別々に構築することで互換性の問題は解決された。 しかしその頃にはすでにmtlが広く使われていたため、transformersとmonads-fdからmtlを再構築(mtl V2)することになった、 という経緯のようです。ご指摘ありがとうござました。 ) よほど古い Haskell 資産があるのでなければ mtl を採用してしまってよいと思います。

monad-skeleton はモナドの自作をサポートするライブラリです。 自分でモナドを作るときというのはたいてい DSL が欲しいときなのですが、 これを使うといとも簡単に DSL が作れてしまいます。 自分はこれでログファイル解析クエリ用の DSL とかを作ってました。 作者による使い方の説明(日本語) もあります。

Webフレームワーク

yesod
servant

yesod はフルスタックの Web フレームワークです。 かなり巨大で取っ付きづらかったのですが stack で雛形アプリケーションを生成できたり、 stackage によって依存問題が起きなくなったので始めやすくなりました。 (stack も stackage も yesod の人たちが作っているわけで、すごいことです)。

あ、年末のコミックマーケットというイベントで Yesod の本に寄稿することになりました。 うまくいけば本が出ますのでよろしくお願いします。

servant は比較的新しい Web フレームワークです。 型レベルでルーティングを記述できるというのが大きな特徴です。 自分が触っていたときは認証とか DB とかのサポートがあまりなかったのですが、 最近になってそのあたりも充実してきたみたいです。

パーサ

parsec, megaparsec
attoparsec

パーサコンビネータライブラリで有名なのは parsec とattoparsec で、 基本的な選択基準はエラーメッセージの分かりやすい方をとるか速度重視の方をとるかです。 parsec の方が比較的エラーメッセージが分かりやすいと言われています。 一方の attoparsec は速度重視です。

parsec はちょっと作りが古いしそれほど長いものをパースしないので私は attoparsec を使っているのですが、 parsec の後継的な megaparsec というライブラリが最近出てきました。

ユーティリティ

file-embed
filepath, path
haddock
resource-pool
auto-update
zlib

file-embed はコンパイル時にファイルを読み込んで bytestring として展開します。 Haskell バイナリに小さい画像などを埋め込みたい場合などに使えるでしょう。

filepath と path は PC 上のパスを扱うためのライブラリです。 path の方がより高レイヤーです。

haddockHaskell コードのドキュメントコメントから API ドキュメントを生成するツールです。 stack にサポートされていて stack haddock コマンドでドキュメントを生成できます。

resource-pool は DB へのコネクションプールのようなものを作ることを可能にするライブラリです。

auto-update は現在時刻のような情報を何度も取得する場合などに便利なライブラリです。 たとえば現在時刻を秒間に何度も取得する可能性があるが時刻の精度は1秒単位でいい場合、 時刻の値をキャッシュしておいて実際の取得は1秒に1回で十分です。 auto-update は値を更新する別スレッドを立てて定期的に実行し、 値を要求されたときにはキャッシュを返す、 というような機能を提供します。

zlib は zlib へのバインディングです。 gzip 圧縮などを行いたい場合に使えます。 純粋関数のような API ですが失敗すると普通に例外を返すので注意が必要です。

所感

今年はいろいろなライブラリを触っていたような気もしますね。 やはり stackage によって依存関係に神経を使わずにライブラリを試せるようになったのが大きい。

一方で、見返すとあまり新しいものには触っていないですね (safe-exceptions と servant くらい?)。 これは見方を変えると Haskell の開発環境が安定してきたということなのかもしれません。

それでは 2017 年もよい Haskell ライフを!