Scala Cookbook

Logging

2017-01-20T00:00:00+00:00

プログラムの挙動を確認するのにはlogger（ロガー)を使います。 Scalaで使えるロガーにはscala logging, twitter-util logging などがありますが、ここではもっとも手軽に使えるwvlet-logについて紹介します。

build.sbt

libraryDependencies += "org.wvlet" %% "wvlet-log" % "1.1"

MyApp.scala

wvlet.log.LogSupportをクラスに追加します。

import wvlet.log._

object MyApp with LogSupport {
  // ログのフォーマットを指定します
  Logger.setDefaultFormatter(LogFormatter.SourceCodeLogFormatter)

  info("log with source code")
}

出力

[MyApp] log with source code - (MyApp.scala:7)

より詳しい使い方はこちらを参考にしてください。フォーマットを指定することで、好みに応じてカラフルで詳細なログメッセージを出力することができます。

各種Loggerライブラリの違い

Scalaでのロギングにはバックエンドで使う実装の違いにより特徴が異なります。

slf4j

プログラム中ではログレベルの設定を行わず、外部の設定ファイル（logback.xmlなど)を使います。
slf4j-nop.jar (何も出力しない), logback-classic.jar (logbackを使う)などのslf4j用バインディングをライブラリに含めることでロガーの出力先を切り替えることができます。
scala loggingは、slf4jをScalaから使うためのインターフェースを提供しています。
インターフェースが単純なため、採用しているプロジェクトが多くあります。
利用者が多い反面、slf4jのバインディングをdependencyに含めているプロジェクトも多く(Hadoopなど)、出力先を適切に切り替えるため依存関係から不要なslf4jバインディングを取り除かなければならない傾向があります。

java.util.logging

Javaのコアライブラリに含まれているため、slf4jのようにバインディングの実装を必要とせず、どんなプロジェクトでも使えます
コード内でログレベルやフォーマットの設定ができるので自由度が高いです。Facebook Prestoなど大規模なプロジェクトでも使用されています。Twitter社の各種Scalaプロジェクトでも、twitter-util logging を通して使われています。
wvlet-logもjava.util.loggingをベースに実装されています。ソースコードの行数を表示できるのでコードの実行箇所を確認しやすくなるのが大きな利点です。また、Scalaマクロを用いたコード生成を行うことで不必要なログメッセージを出力しない最適化がなされており、ロギングによる性能の劣化を気にせず使用することができます。

Parallel/Sequentialコレクションへの変換

2013-02-26T00:00:00+00:00

マルチコア（スレッド）で並列処理可能なparallelコレクションへの変換にはparを使います。

scala> val s = for(i <- 0 until 10) yield i
s: scala.collection.immutable.IndexedSeq[Int] = Vector(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)

scala> val double = s.par.map(_*2)　// 並列処理される
double: scala.collection.parallel.immutable.ParSeq[Int] = ParVector(0, 2, 4, 6, 8, 10, 12, 14, 16, 18)

一方、sortingなど2013年現在のScalaではsequentialコレクションにしか提供されてない操作もあります。

scala> double.sorted
<console>:10: error: value sorted is not a member of scala.collection.parallel.immutable.ParSeq[Int]
              double.sorted
                     ^

そのような場合は、seqメソッドを使ってsequentialコレクションに戻す必要があります。以下は逆順に並べ替える例。

scala> double.seq.sorted(Ordering[Int].reverse)
res2: scala.collection.immutable.Seq[Int] = Vector(18, 16, 14, 12, 10, 8, 6, 4, 2, 0)

参考

Parallel collection conversions - Scala Documentation

Type Class

2013-02-05T00:00:00+00:00

Type Class(型クラス) とは型の性質を表現するためのクラスで、Haskellなどの関数型言語では古くから使われています。型クラスは、アルゴリズムとアルゴリズム中で使うデータ型の結合を緩やかにする、あるいは、アルゴリズム中で使うデータと実際のデータ型の型合わせをするために使われます。

例題

例えば、区間データ(start, endのフィールドを持つ)を保持するためのIntervalHolderを考えてみます。区間を保持するという意味では汎用的に書けそうなので、区間をAと置いてGenericなクラスとしてIntervalHolderを表現してみます。

class IntervalHolder[A] {
  // 区間をstartをindexとして保持したい
  private var holder = Map[Int, A]()
  def +=(a:A) {
    holder += a.start -> a  // コンパイルエラー。Aはstartを持つ型ではない
  }
}

Aにはstartというパラメータは定義されていないので、Aにinterfaceなどを加える必要があります。

型クラスを使わない場合（traitを使用）

IntervalHolderを任意のAではなく、区間を表すIntervalData traitを継承した型のみを受け付けるように変更します。

trait IntervalData {
  def start: Int
  def end: Int
}

class IntervalHolder[A <: IntervalData] {
  private var holder = Map[Int, A]()
  def +=(a:A) {
    holder += a.start -> a  // コンパイルできるようになった
  }
}

しかし実際には、区間データの表現には以下のように様々な種類が考えられます。

case class Interval(start:Int, end:Int)
case class SelectedRange(name:String, left:Int, right:Int)

これらは必ずしもstartというパラメータを持つわけではないが、区間として「みなせる」ようなデータ構造です。IntervalHolderのコードを再利用したい場合、これらの区間データのクラスをすべてIntervalData traitを継承するように書き直す必要があります。しかし、第三者の作成したライブラリ中のクラスなど、自分で書き直すのが難しい場合にはこの方法は使えません。

型クラスを使って型を合わせる

ここで登場するのが型クラスです。型クラスは任意のオブジェクトAから必要なデータ(ここではstartとend)を取り出せるように表現します。区間の性質を表す型クラス IntervalTypeを定義します。

trait IntervalType[A] {
  def start(a:A) : Int
  def end(a:A) : Int
}

IntervallHolderを型クラスであるIntervalTypeを使って書き直します。

class IntervalHolder[A](implicit iv:IntervalType[A]) {
  private var holder = Map[Int, A]()
  def +=(e:A) {
    holder += iv.start(e) -> a  // 型クラス経由でパラメータにアクセスする
  }
}

次に、implicit parameter ivをコンパイラに自動的に見つけさせるため、Interval, SelectedRangeのそれぞれについて、型クラスIntervalTypeの実装をIntervalHolderのコンパニオンオブジェクト内に作成します（コンパイラが見つけられるスコープ中にあれば他の場所に定義しても構いません）

object IntervalHolder {
  // Intervalは、IntervalTypeとして扱えるという意味
  object StandardInterval extends IntervalType[Interval] {
    def start(a:Interval) = a.start
    def end(a:Interval) = a.end
  }

  // SelectedRangeもIntervalTypeとして扱えるという意味
  object SelectedRangeAsInterval extends IntervalType[SelectedRange] {
    def start(a:SelctedRange) = a.left
    def end(a:SelectedRange) = a.right
  }
}

型クラスのインスタンスは１つあれば十分なのでobjectとして定義してあります。またimplicit paramterとして自動解決する場合にもobjectとしてあると都合がよいです。

使用例

val holder = new IntervalHolder[Interval] 
holder += Interval(1, 3)

val rangeHolder = new IntervalHolder[SelectedRange]
rangeHolder += SeletedRange("user input", 140, 180)

IntervalHolderの実装を２種類のデータ型に対して再利用することができました。今後区間を表すデータ型の種類が増えたときも、型クラスの実装を追加するだけでIntervalHolderを使えるようになります。

implicit parameterに代入される型クラスは、コンパニオンオブジェクト内に定義されているか（IntervalHolder, Interval, SelectedRangeのコンパニオンオブジェクトなどが検索対象に入る）、import文などでスコープに読み込んであれば、Aの型に合わせて対応するIntervalTypeの実装をコンパイラが見つけてきてくれます。

型クラスの応用例

Scalaに含まれているOrderingなども型クラスの一例です。def lt(x:T, y:T): Booleanなど汎用的なT型の大小を比較するための関数が定義されている型クラスで、これを使うことによりsorting, min, maxなどを求めるコードを種々のデータに対して再利用しています。

Reflectionで型情報を取得

2013-02-01T00:00:00+00:00

ScalaではReflectionを使うとgenericsの型情報など詳細な型情報を取得することができます。

クラス情報を取得 (Scala2.10以前)

Scala2.10以前では、以下のように型情報を取得できます。

case class Person(id:Int, name:String, age:Option[Int])
val c = classOf[Person] // Class[Person]を取得
c.getSimpleName // Person
c.getName // Personクラスのパッケージ名を含むfull path

しかし、Personクラスにどのような型の変数が定義されているか知りたい場合、

javaのReflection機能を使う。Class.getDeclaredFields/Methodsなど
javapやASMなどでコンパイル後のバイトコードを直接参照
ScalaSigを使う

などの方法がありますが、どれも直接的でなくコーディングが大変でした。また、1や2の方法ではage:Option[Int]などgenericなクラスの型パラメータ（この場合はInt）までは取得できません。なぜなら、コンパイル後のバイトコードではOption[Int]はOption[java.lang.Object]と型情報を削られた形で表現されてしまうからです（type erasureと呼ばれます）。そのためJava(少なくともJava1.7の時点)ではOption[Int]の型を正確にプログラム中から調べることは不可能でした。

このtype erasureを克服するため、Scalaではsignatureと呼ばれる情報がコンパイル後のクラスファイルにこっそり埋め込まれています。これにアクセスするのが3の方法ですが、Scalaの型の取り扱いについての深い知識が要求され、すぐに使いこなすのは難しいでしょう。

TypeTagを使う (Scala2.10の新機能)

Scala2.10ではTypeTagが導入されsignatureへのアクセスが比較的容易になりました。

準備

reflectの機能はScalaの本体とは別になっているので、sbtのlibraryDependenciesに以下の設定を追加します。

"org.scala-lang" % "scala-reflect" % "2.10.0"

型情報を取得するコード例

case class Person(id:Int, name:String, age:Option[Int])を定義して、パラメータの型情報を取り出します。

def getType[A : TypeTag](obj:A) : Type = typeOf[A]

のように書くと、コンパイラがobj:Aの型情報(TypeTag)を生成し、typeOf[A]でコード中に型情報を取り出せるようになります。

コード

// この2行でScala2.10のreflectionの機能が使えるようになる
import scala.reflect.runtime.{universe => ru}
import ru._

object ExtractTypeInfo extends Logger {

	// 任意のオブジェクトからTypeTagを取得。取得できない場合はコンパイルエラーになる
	def getType[A : TypeTag](obj:A) : Type = typeOf[A]

    // TypeからClass[_]情報を取得するためのミラー
	val mirror = ru.runtimeMirror(Thread.currentThread.getContextClassLoader)

    // Type情報を再帰的に解決
	def resolveType[T](tpe:T) : String = tpe match {
	　// TypeRefから型情報を抜き出す
      case tr @ TypeRef(prefix, symbol, typeArgs) => 
		// Typeに対応するClassを取得
        val cl = mirror.runtimeClass(tr)
        var className = 
          if(typeArgs.isEmpty) 
            cl.getSimpleName
          else // 型パラメータを持っている場合、各パラメータの型を解決
            s"${cl.getName}[${typeArgs.map(resolveType(_)).mkString(", ")}]"

       // コンストラクタで定義されているパラメータを取得
       val cc = tr.declaration(ru.nme.CONSTRUCTOR)
       if(cc.isMethod) {　// コンストラクタの有無をチェック
		  // コンストラクタの最初の括弧内のパラメータ情報を取り出す
          val fstParen = cc.asMethod.paramss.headOption.getOrElse(Seq.empty)
	  　　val params = for(p <- fstParen) yield { 
	        val name = p.name.decoded  // パラメータ名を取得
	        val t = resolveType(p.typeSignature) // パラメータの型を取得し解決
	        s"$name:${t}"
          } 
          if(!params.isEmpty)
              className += s"(${params.mkString(", ")})"
       }
       className
    }

	case class Person(id:Int, name:String, age:Option[Int])

	def main(args:Array[String])  {
  　　val p = Person(1, "leo", None)
  　　val tpe = getType(p)
  　　val t = resolveType(tpe)
  　　println(t)
　　}
}

実行結果

Person(id:int, name:String, age:scala.Option[int])

上記のコードでは、Option[T]の型パラメータまで調べることができ、ScalaのInt型などは実際にはJavaのprimitive型のintになっていることがわかります。

型の比較

typeOf[A]で取得したTypeは、=:=を使って以下のように比較できます。

val tpe = typeOf[Int]

tpe match {
  case t if t =:= typeOf[Short] =>  "is short type"
  case t if t =:= typeOf[Boolean] => "is boolean type"
  case t if t =:= typeOf[Byte] => ...
  case t if t =:= typeOf[Char] => 
  case t if t =:= typeOf[Int] => 
  case t if t =:= typeOf[Float] => 
  case t if t =:= typeOf[Long] => 
  case t if t =:= typeOf[Double] => 
  case t if t =:= typeOf[String] =>
}

Class[A]からsignatureを取得

コンパイル時にTypeTagが得られない場合（例えばクラス名だけからオブジェクトを動的に作成する場合など）、Class[A]の情報からmirrorを経由してsignatureを取り出すこともできます。

コード例

val cl = classOf[Person] 
val mirror = ru.runtimeMirror(Thread.currentThread.getContextClassLoader)
// クラス名からClassSymbol (Type)情報を取り出す
val classSymbol : ru.ClassSymbol = mirror.staticClass(cl.getCanonicalName)
// コンストラクタを調べる
val cc = classSymbol.typeSignature.declaration(ru.nme.CONSTRUCTOR)
val params = if(cc.isMethod) {
  val fstParen = cc.asMethod.paramss.headOption.getOrElse(Seq.empty)
  for(p <- fstParen) yield {
    val name = p.name.decoded
    val tpe = resolveType(p.typeSignature) // 上記のコードを呼び出す
	s"$name:$tpe"
  }
} 
else Seq.empty
println(params.mkString(", ")) // 	id:int, name:String, age:scala.Option[int]

xerial-lens：型情報を取得するライブラリ

Scala2.10のreflectionの機能は強力ですが、上記のように再帰的な処理が必要となるなどやや不便なところがあります。これを解決するためにxerial-lensというライブラリを作成しました。

sbtのlibraryDependenciesに、

"org.xerial" % "xerial-lens" % "3.1"

を追加すると、型情報を取り出すObjectTypeが使えるようになります。

内部ではTypeTagだけではなくScalaSigにアクセスして詳細な型情報を取り出すなどの工夫がされています。

使用例

import xerial.lens.{ObjectType,StandardType,Primitive, MapType}

val ot = ObjectType(classOf[Person])
println(ot) // Person
// パターンマッチで型による場合分けが可能
val params = ot match { 
  case s @ StandardType(cl) => s.constructorParams.mkString(", ")
  case Primitive.Int => "int type"
  case m @ MapType(cl, keyType, valueType) => s"Map[$keyType, $valueType]"
  case _ => "no params"
}
println(params) // id:Int, name:String, age:Option[Int]

xerial-lensには、その他にもメソッドやアノテーションの情報を取り出すObjectSchemaや、それを利用してコマンドラインプログラムの作成を簡単にするLauncherなどが含まれています。

ソースコードはこちら xerial at github

文字列に式を埋め込んで整形する

2013-01-30T00:00:00+00:00

Scala2.10より、String Interpolationの機能が追加され、文字列中に式を埋め込むのが容易になりました。

使い方

s String

double quotationの前にsを付けると、文字列中にある$(変数名)が置き換わる。

val w = "World"
val message = s"Hello $w!"
println(message)  // Hello World! と表示される

{}で囲むと、任意の式を含めることもできる。

println(s"2 * 3 = ${2 * 3}")  // 2 * 3 = 6 と表示される

f String

文字列にfをつけるとprintfの構文が使えるようになる。$(変数名)%(フォーマット指定)を文字列に埋め込むと変数の内容を表示するときのフォーマットが指定できる。

val dollarToYenRate = 80.0
val budget_d = 10000000
println(f"Currency conversion: $budget_d%d to ${budget_d * dollarToYenRate}%,.2f yen")

f Stringでは、フォーマット指定を省くと文字列(%sと同じ）と扱われる。

フォーマット指定と実際の変数の型が異なると、コンパイル時にエラーがでる(type safeになる)ので、printf実行中のエラーを防げるようになった。

formatによく使うシンボル


`%s`	文字列
`%d`	整数
`%f`	浮動小数点数
`%e`	科学計算用の指数を含んだ数字。e-10などが付く

flagの例

%と上記のシンボルの間にflagを複数個挟むことができる。


`,`	３桁ごとにcommaを挟んで表示
`(数字)`	数字で指定された分のスペースを使って表示。`-`を付けると右寄せ
`.2`	小数点以下二桁を表示

15分で始めるScala

2012-11-29T00:00:00+00:00

これはScalaを使った開発環境を素早く整え、実際の開発の雰囲気を感じてもらうための文章です。

Update

2013-07-23: Scala 2.10.2に対応しました

ここでできるようになること

Scalaプロジェクトの作成
簡単なScalaコードの作成
テストコードの実行
- 開発しながらテストを行なう
- ログの表示
- コードの実行時間の計測
システムにインストールできる形のパッケージを作成

準備

UNIX環境(Linux、 Mac OS X、あるいは Cygwin をWindowsでセットアップする)
javaコマンドが使えること (環境変数PATHの設定など)
その他、curl, GNU makeなどのコマンド
インターネット接続

(ここから15分です)

Scalaプロジェクトの作成

Scalaプロジェクトの必要最低限のひな形をGitHub上にscala-minとして作成してあります。以下のようにダウンロードしながら展開します。

$ mkdir myproject

$ cd myproject
$ curl -L https://github.com/xerial/scala-min/archive/master.tar.gz | tar xvz --strip-components=1

備考: GitHubはオープンソースでのコード開発を支援するサービスです。Scala自身の開発もここで行われています。

テストコードの実行

Scalaのプログラムは、sbt(Simple Build Tool)を使って開発するのが標準になっています。上でダウンロードしたプロジェクト内で、

$ ./sbt test

とすると、まずScala関連のライブラリのダウンロードが始まります。最初の1回は時間がかかりますが、2回目以降は$HOME/.ivy2 以下にダウンロードされたライブラリを使用するので動作が速くなります。

もしメモリの少ないマシンを利用してエラーが出る場合は、以下のように-memオプションでメモリ使用量を制限できます。

$ ./sbt -mem 512 test  # 512 MBのメモリを使用する

ダウンロードが終了すると、Scalaコードのコンパイルが始まり、テストコードが実行されます。

フォルダ構成

./sbt              # sbtの実行スクリプト
src/main/scala     # ソースコード用のフォルダ
src/test/scala     # テストコード用のフォルダ
project            # プロジェクトの設定ファイル（プロジェクト名、ライブラリ、プラグイン等の設定）
target             # コンパイルされたファイルの置き場（削除しても構わない）

Scalaのコードを編集する

Scalaプログラムの入口はmain関数で、以下のように定義されます。

src/main/scala/Hello.scala

package scalamin

object Hello {
  def main(args:Array[String]) = {
    println("Hello World!!")
  }
}

コマンドラインの引数がargsに渡され、mainのコードが実行されます。mainの中身を書き換えてみましょう。

テストコードを作成し、実行する

自分で作ったプログラムの動作を確認するために、それを動かすテストコードを作成します。

src/test/scala/HelloTest.scala

class HelloTest extends MySpec {

  "Hello" should {
    "have main" in {
      Hello.main(Array.empty)
    }
	
    // (その他のテストコードを同様に書いていく）
  }
}

英語による表記でどのようなテストを実行しているかわかるように書き下せるスタイルになっています。

このテストコードではScalaTestライブラリを使っています。

開発しながらテストを繰り返し実行する

プログラミングでは、テストコードを作成 -> ソースコードを修正 -> コンパイル -> テストを実行をサイクルとして行います。この支援をする機能がsbtに備わっています。

以下のようにテストコードを実行します。

$ ./sbt "~test"

このコマンドはテストコードが実行された後も終了せず、ソースコードの変更があるたびに、コンパイル、テストの実行を行ってくれます。Scalaでの開発時間の短縮に重宝します。

タグ付けしたテストのみを実行

tagを付けることで特定のテストのみを繰り返し実行できるようになります。

src/test/scala/HelloTest.scala

"add a tag to test" taggedAs("test1") in {
  debug("test1 is running")
}

実行例

$ ./sbt "~test-only *HelloTest -- -n test1" -Dloglevel=debug
Using C:\Users\leo\.sbt\0.12.0 as sbt dir, -sbt-dir to override.
[info] Loading global plugins from C:\Users\leo\.sbt\0.12.0\plugins
[info] Loading project definition from C:\Users\leo\work\tmp\myproject\project
[info] Set current project to scala-min (in build file:/C:/Users/leo/work/tmp/myproject/)
[HelloTest] test1 is running
[info] HelloTest:
[info] Hello
[info] - should add a tag to test
[info] Passed: : Total 1, Failed 0, Errors 0, Passed 1, Skipped 0
[success] Total time: 1 s, completed 2012/11/29 12:06:24
1. Waiting for source changes... (press enter to interrupt)

特定のクラスにあるテストをすべて実行

タグ指定せずに以下の用に入力すると、HelloTestクラスの中にあるすべてのテストが繰り返し実行されます。wildcard(*)が使えます。

./sbt "~test-only *HelloTest"

ログを表示する

プログラムを開発するときに、変数の内容やどの部分のコードが実行されているかなどの情報をログとして表示できると便利です。IDEでブレークポイントなどを設定しなくてもコードのデバッグがしやすくなります。

HelloTest.scalaのテストコード中にログを表示する例があります。

"display log messages" in {
  // To see the log messages higher than the debug level,
  // launch test with`./sbt "~test-only *HelloTest" -Dloglevel=debug`
  trace("trace log")
  debug("debug log")
  info("info log")
  warn("warning")
  error("error")
  fatal("fatal error")
}

"display formatted logs" in {
  val w = "World"
  info(s"Hello $w!!")
  info(f"Floating point value: pi = ${math.Pi}%.10f, rad = ${math.toRadians(math.Pi)}%.3e")
}

printfなどによる表示では、ログを出力するコードを本番用コードで取り除く必要があって大変ですが、trace < debug < info < warn < error < fatal の順にログレベルを分けることで、例えば以下のようにログレベルを設定し、debug以上のログのみを表示することができます。

$ ./sbt "~test" -Dloglevel=debug

デフォルトではinfo以上のログが表示される設定になっています。

ログの表示には、xerial-core ライブラリにあるLogger traitが使われています。
文字列のformatに関してはString interpolationを参考に。

コードの実行時間を計測する

ScalaはJava VM(JVM)の上で動作する言語で、実行時にコード最適化(Just-in-time compile)が行われます。そのためコードの性能は実行順や繰り返し回数などに大きく影響されます。コードの性能を評価する際には、常に実行時間の平均をとり、hot/cold-runかどうかを意識する必要があります。

具体例

Scalaではスレッドを使った処理の並列化が容易なので、single coreを使った処理と、multi coreを使った処理の性能を比較してみましょう。以下の例ではtime, blockで挟まれたコードブロックを繰り返して実行しています。

"measure the parallel collection peformance" in {
  // Intの配列を作成
  val a = Array.ofDim[Int](100000)
  (0 until a.length).foreach { i => a(i) = i }
  
  val R = 10

  def multiply(e:Int) = e * e

  // 全体を10回繰り返して実行する
  time("array ops", repeat=10) {
	// single-coreで配列の各要素を倍にする。R回実行
    block("single-core", repeat=R) {
      a.map( multiply )
    }

    // multi-coreを使って配列の各要素を倍にする。並列化の指示はparを挟むだけ。R回実行
    block("multi-core", repeat=R) {
      a.par.map( multiply )
    }
  }
}

テストの実行結果 (4 coreのマシンでの例)

[HelloTest]
-array ops      total:0.705 sec., count:   10, avg:0.071 sec., min:0.049 sec., max:0.159 sec.
  -single-core  total:0.447 sec., count:  100, avg:0.004 sec., min:0.003 sec., max:0.034 sec.
  -multi-core   total:0.253 sec., count:  100, avg:0.003 sec., min:0.001 sec., max:0.078 sec.

平均してmulti coreのコードが速いが、スレッドを立ち上げるオーバーヘッドがあるので、個々の実行で見ると必ずしも並列化した方が速いとは限らない(実行時間のmaxの値を参照)。

実行時間の計測には、xerial-core ライブラリにあるTimer traitが使われています。

Scalaコードのパッケージを作成する

十分にコードをテストできたら本番環境で実行するためのプログラムパッケージを作成します。

$ ./sbt pack

このコマンド一つでtarget/packフォルダ内にそのまま配布できる形のパッケージができあがります。

$ target/pack/bin/hello
Hello World!!

備考

このようなパッケージの作成を手軽にするために、今回sbt用のプラグインsbt-packを開発しました。

Scalaで作ったコマンドをインストールする

$ ./sbt pack
$ cd target/pack; make install

$HOME/local/bin 以下helloコマンドがインストールされます。

$ ~/local/bin/hello
Hello World!!

プログラムの名前を変更したい場合は、project/Build.scala内のpackMain設定を変更してください。

IntelliJ IDEAで開発する

Scalaのプログラムの開発環境(IDE)としては、IntelliJ IDEAにScala pluginをインストールして使うのがお薦めです。IntelliJとScala pluginをインストール後、

$ ./sbt gen-idea

とすると、IntelliJ用のプロジェクトファイルが作成されます。プロジェクトを開くにはFile->Openで、今回作成したmyprojectフォルダを選択します。

参考 IntelliJ （Scala開発に使えるIDE）のセットアップ

もっと学びたい人は

Scalaの文法
Scalaのコレクションを使う
Scala Cookbookには、Scalaの開発でつまづきやすい点についてのヒントがあります。
Scalaを学ぶ - Scalaを学ぶのにおすすめの資料をまとめてあります。

Gitでの開発の流れを理解する

2012-11-16T00:00:00+00:00

Gitを効率的に使うには、以下の役割をもつbranchを作ると良いことが経験的に知られてきています。

新しい機能の追加のためのfeature branchを作成し、他の機能の更新と衝突させない
featureで作成した新しい機能を取り込んでいくdevelop branch
安定版(master branch)を作成する準備のためのrelease branch
ビルドでき安定して動く状態を保持する master branch
安定板に対する修正のhotfix branch

詳細は以下の記事を読むと良いでしょう。Gitのコマンドの使い方と共に、開発の流れを覚えられます。

A successful Git branching model (日本語訳)

Remote branchを削除する

2012-11-16T00:00:00+00:00

# localでブランチを削除
git branch -d <branch name>

# remoteブランチを削除
git push :<branch name>

# git 1.7 以上は以下のコマンドでリモートブランチを削除できる
git push origin --delete <branch name>

2013年現在、GitHubではweb上でリモートブランチを削除する機能が追加されています。

参考

How do I delete a Git branch both locally and in Github? - stackoverflow

Eitherによるエラー処理

2012-11-16T00:00:00+00:00

エラー処理によるコードの分岐を減らしたい場合、Eitherを使うとよい。

Eitherの使い方

Either[A, B] は、AまたはBを返す型である。

Eitherは通常Either[（エラー情報）, （結果）]の形で使われる。例えばデータ処理が成功した場合はその結果を用いて引き続きの処理を行いたいが、エラーの場合は何もせず次のコードにエラーだけを伝えたい場合がある。

Eitherから値を取り出すには、left, rightの値に対してmap, flatMapなどを用いる。例えば、Either.right map { ... }とすると、値の内容がRight型の場合はmap内の関数を適用し、Leftの型の場合はmapの処理を無視してLeftの内容（この場合はエラー情報を）をそのまま返す。

具体例

# 文字列がIntに変換できるならIntを、失敗した場合はExceptionを返す関数
scala> def parseInt(s:String) : Either[Exception, Int] =
  try Right(s.toInt) catch { case e:Exception => Left(e) } 
Parseint: (s: String)Either[Exception,Int]

# Intへの変換が成功。Rightを返す
scala> parseInt("128")
res5: Either[Exception,Int] = Right(128)

# 変換できない場合はLeftを返す
scala> parseInt("234A")
res6: Either[Exception,Int] = Left(java.lang.NumberFormatException: For input string: "234A")

# 値を取りだしてFloatに変換
scala> parseInt("49").right map { _.toFloat } 
res8: Product with Serializable with Either[Exception,Float] = Right(49.0)

# 結果がLeft(Exception)の場合は、toFloatは実行されずに、Exceptionを伝播する
scala> parseInt("ADF").right map { _.toFloat }
res9: Product with Serializable with Either[Exception,Float] = Left(java.lang.NumberFormatException: For input string: "ADF")

# Left(Exception)であれば、その内容を表示(getMessage) 
scala> parseInt("ADF").left map { _.getMessage } 
res11: Product with Serializable with Either[java.lang.String,Int] = Left(For input string: "ADF")

# 結果がRightの場合は、getMessageは実行されない
scala> parseInt("40").left map { _.getMessage }
res12: Product with Serializable with Either[java.lang.String,Int] = Right(40)

Eitherを使うことで、エラーを含んだデータであっても処理の流れを妨げないようにできる。

参考

WIGファイルの構文解析　Eitherを使ったより具体的なコード例として

塩基を表すクラスを定義する

2012-11-16T00:00:00+00:00

DNAの塩基を表すクラスを作成したい。

コード例

// companion object
object DNA {
  // objectで定義するとsingletonになるのでメモリの節約に
  object A extends DNA(0)
  object C extends DNA(1)
  object G extends DNA(2)
  object T extends DNA(3)
  object N extends DNA(4)　// NはA, C, G, Tのどれかを表す

  // DNAの文字列をすべて並べる。
  val values = Array(A, C, G, T, N)
  // 用途によって別の集合を定義することもできる。N以外の塩基
  val exceptN = Array(A, C, G, T)

  private val codeTable = Array(A, C, G, T, N, N, N, N)
  
  def complement(code:Int) : DNA = codeTable((~code & 0x03) | (code & 0x04))
}

// DNAクラス　
sealed abstrat class DNA(val code:Int) {
    // object名（最後に$マークが付くので除く）をenum名として使う
	val name = this.getClass.getSimpleName.replaceAll("""\$""", "")
	override def toString = name
	// DNAクラスには自由にメソッドを定義できる
	def complement = DNA.complement(code)
}

このように定義すると、パターンマッチが問題なく使えるし、complementなど機能を充実させることもできる。

クラス定義にsealedを付けると、DNAを拡張したクラスは同一ファイル内でしか定義できなくなる。さらにabstractクラスにすると、DNAを拡張したクラスはA, C, G, T, N以外にないことも保証できるので、match文をexhaustive(すべての場合を網羅する状態)にできる。

パターンマッチの例

import DNA._
val l = G

l match {
  case A => ...
  case C => ...
  case G => ...
  case T => ...
  case N => ...
}

練習問題

DNA配列を表すDNASeqなどを定義する際に上記のDNAクラスが役立つ。実際に以下のようなDNASeqtraitの機能をもつDNAの配列のクラスを作成してみよう。

trait DNASeq {
  def length : Int
  def apply(index:Int) : DNA 
  def reverseComplement : DNASeq 
}

// DNA (A, C, G, T)を2bitで表現したDNASeqの実装
class DNASeq2bit(seq:Array[Long], val length:Int) extends DNASeq {
  ....
}

参考

より詳細な実装は以下のコードを参考にしてください。

DNAクラス DNA.scala
2bitで塩基(A, C, G, T)を表現した配列 ACGTSeq.scala
3bitで塩基(A, C, G, T, N)を表現した配列 ACGTNSeq.scala

塩基配列をビット列で表現すると、配列中にAが何個含まれるかなどの計算が高速に行なえるようになり（popCount）、FM-Indexによるアラインメントの計算等が高速化できます。

IUPACコードなども同様に実装できます。IUPAC.scala

0 until 100 - 数字の範囲を指定する

2012-08-31T00:00:00+00:00

0 until 100の裏側

0 until 100 (exclusive), 0 to 100 (inclusive) とはいったい何か？ scala.Intの定義を見ても、until, toの関数定義は見当たらない。実際には、

0 until 100
-> 0.until(100)  //  Scalaでは関数適用時の.と括弧が省略できる
-> RichInt(0).until(100) // 0:Int -> RichInt(0) への変換

の流れでIntからRichIntへの変換が行われ、Range(0, 100)が生成されている。

Scalaではすべてのコードに対してscala.Predefに定義されている関数がincludeされている。ドキュメントをたどっていくと以下の定義が見つかる。

implicit def intWrapper(x:scala.Int) : scala.runtime.RichInt

これはimplicit converstionと呼ばれる。Scalaコンパイラは賢く、Intにuntilというメソッドの定義がない場合、Intに対してimplicit conversionを適用すれば、until関数が使えるかどうかまでをチェックしてくれる。変換して関数が使える場合、implicit conversionが適用され、プログラマが明示的に変換コードを書く手間が軽減される。つまり、

RichInt(0).until(100)

と書かなくても良い。

for-comprehensionの展開

2012-08-31T00:00:00+00:00

for-comprehensionの定義

Scalaのfor文(for-comprehension: for文による網羅) は、C言語のようにループを回しているわけではなく、map, flatMapなどの関数を呼び出すsyntax sugarとなっています。以下にScalaのfor文の置き換えの定義を示します。

for内のパラメータが１つの場合

for { p0 <- e0 } yield e

は、mapを使って以下に置き換えられます。

e0 map { p0 => e }

複数パラメータがある場合

for { 
 p0 <- e0
 p1 <- e1
 ... 
 pn <- en } yield e

一番外側のパラメータがflatMapに置き換えられます。これが再帰的に繰り返され、パラメータが残り１つになると、最初のルールを使ってmapが適用されます。

 e0.flatMap { p0 => 
   for { 
     p1 <- e1
	 p2 <- e2
	 ...
	 pn <- en 
   } yield e
 }

例えば、

for(p0 <- e0; p1 <- e1; p2 <- e2) yield (p0, p1, p2)

は、

e0.flatMap(p0 => e1.flatMap(p1 => e2.map(p2 => (p0, p1, p2))))

と同じになります。

共変 covariant な型を使う

2012-08-15T00:00:00+00:00

Scalaのコレクションクラス（List, Seqなど）は、List[+A]と型名の前に+を付けてcovariant(共変)な型を許すように定義されています。covariantとは、Aのクラスを拡張したクラスBがあれば、List[B]はList[A]として代入できることを意味します。例えば以下のように、クラス階層を定義したときに、List[Cat]をList[Animal]として代入できます。

 abstract class Animal 
 case class Cat(name:String) extends Animal
 case class Dog(name:String) extends Animal

 val c : List[Cat] = List(Cat("A"), Cat("B"))
 // ListはList[+A]として定義されている
 val a : List[Animal] = c  	 // OK.
 // List[+A]はcovariantなので、List[B <: A]（Aクラスから派生したクラスのList)を代入できる

また、List[Cat]とList[Dog]を足し合わせて、List[Animal]を作ることもできます。

 val l : List[Animal] = Dog("D") :: c // OK. List(Dog(D), Cat(A), Cat(B))

Optionクラスでのcovariantの利用

Optionも、covariantを使ってOption[+A]として定義されており、NoneはOption[Nothing]から拡張して定義されています。

object None extends Option[Nothing] {
  def map[B](f: Nothing => B) : Option[B] = None
  def flatMap[B](f: Nothing => Monad[B]) : Option[B] = None
}

Nothingはあらゆる型の子（subtype）になれるようにScalaで定義されているので、None、すなわちOption[Nothing]は、Option[A]やOption[B]などに代入できます。この工夫により、None[A], None[B]などと宣言する必要はなく、Noneとだけコード中に書くだけで済むようになっています。

Option Monad

2012-08-15T00:00:00+00:00

Option を使いこなすと、より関数型言語らしいコードが書けるようになります。

どんなときに使うのか？

nullの代わりに使う
- 関数の結果が得られない場合など (例：Map[K,V]#get(key)の返り値は Option[V])
モナド(monad)として使い、エラー値を扱うコードの流れをスムーズにする
- for-comprehensionと共に使うと良い

モナドと聞いて怖じ気付く必要はありません。これから詳しく説明していきます。

パターンマッチでOptionの値を取得

Option[A]は値が存在するか、しないかを表すクラスで、Some(a)とNoneの二種類の値があります。パターンマッチでこの二種類の値を処理するのが基本です。

 val m = Map("A" -> "Apple", "B" -> "Banana")
 def lookup(symbol:String) = m.get(symbol) match { // m.get でOption[String]が返る
  	   case Some(name) => name + " is found!"
  	   case None => "No name is found for " + symbol
 }
 println(lookup("A")) // Apple is found
 println(lookup("C")) // No name is found for C

パターンマッチをせずにOptionを処理する

Optionの値がSome(a)の時だけ続きの処理を行うにはmapを使います。

 val m = Map("A" -> "Apple", "B" -> "Banana")
 m.get("A") map { f => println(f + "is found") } // Apple is found
 m.get("C") map { f => println(f + "is found") } // (何も表示されない)

その他便利な関数

getOrElse - Optionの値がSome(v)ならvを、それ以外にはdefault値を返す

def getOrElse[B >: A](default: ⇒ B): B

使い方

val v = List(Some("A"), None)
for(each <- v) yield { each.getOrElse("empty") } // List(A, empty)

Optionには、map, filter, foreachなどcollectionでよく使う関数も定義されており、これらもやはり値がSome(x)の場合のみ処理が実行されるように定義されています。詳しくはOptionのAPIを参照してください。

エラー処理にOptionを使う

まず例題を示します。

例：入力がnullかどうかをチェックする

例えば、ユーザー名とパスワードを受け取ってログインする関数loginを作ることを考えます。ユーザー名とパスワードの情報が揃っていないと次の処理ができないので、nullかどうかのチェックが入りますが、以下のように、コードが入り組んでしまいます。

def login(name:String, password:String) : Boolean = {
    if(name != null) {
	  if(password != null) 
	     database.isValidPassword(name, password)
      else
	    false
    }
	else 
      false
}

Early exitを利用したコード

あまりScala的ではないですが、事前にnullかどうかをチェックしてデータに不備があれば早々にreturn(early exit)しる書き方も、C, Javaなどのプログラミング言語でよく使われています。

def login(name:String, password:String) : Boolean = {
    if(name == null) 
	　return false
	if(password == null) 
	  return false
    return database.isValidPassword(name, password)
}

ただし、不備のあった場合の処理(falseを返すコード)が重複して現れてしまうので無駄があります。

パターンマッチを利用したコード

事前にOption(v)として値をラップしておくと、vがnullの場合はNone, それ以外の場合はSome(v)に変換してくれます。

def login(name:String, password:String) : Boolean = (Option(name), Option(password)) match {
    case (Some(u), Some(p)) => database.isValidPassword(u, p)
    case _ => false
}

ここでパターンマッチを利用するのもありです。

大分コードがすっきりしてきましたが、ユーザー名が与えられていない場合、そこで処理を終了してほしいのですが、上記のコードではパスワードの方も常にSome(p)かどうかを判定しているので無駄がありそうです。

モナド(monad)とは

コードをきれいにしつつ、処理の無駄も省くのに登場するのがモナドです。

ScalaのOptionはモナドになっています。モナドはとりあえずmap, flatMapの二種類の関数が定義されているものと理解すればよいでしょう。少なくともこの理解だけですぐに使い始めることができます。

trait Monad[A] {
  // Monad[A]の中身Aを取り出し、fを適用して、その結果BをMonad[B]でwrapする
  def map[B](f: A => B) : Monad[B]   
  // Monad[A]の中身Aを取り出し、Monadを返すfを適用する
  def flatMap[B](f: A => Monad[B]) : Monad[B]
}

（実際にこのような単体のMonad traitがあるわけではありませんが、同等のものがScala標準ライブラリの中には存在します）

Monadは値をくるむ毛皮のようなもので、map, flatMapはその毛皮を剥がしてから何かの操作を行い、その結果に対してまた毛皮を着せる操作に対応しています。Monadを使ったコードでは、中に含まれている値に対して何らかの操作を行っても、Monad[A] からMonad[Monad[B]]のようなネストした型に変換するのではなく、Monad[A] -> Monad[B]と毛皮を一枚で済ませるようにするのが特徴です。

OptionはMonad

ScalaのOptionがmonadになっていると言いましたが、では実際にOptionの実装の一部を簡単にしたものを取り出して見てみましょう。

sealed trait Option[A] {
  def map[B](f: A => B) : Option[B] 
  def flatMap[B](f: A => Monad[B]) : Option[B]
}

case class Some[A](a: A) extends Option[A] {
  def map[B](f: A => B) : Option[B] = Some(f(a))
  def flatMap[B](f: A => Monad[B]) : Option[B] = f(a)
}

case class None[A] extends Option[A] {
  def map[B](f: A => B) : Option[B] = None
  def flatMap[B](f: A => Monad[B]) : Option[B] = None
}

map, flatMapは、Someの中身の値aに対して実行されますが、Noneの場合、中身がないので、map, flatMapは共に実行結果としてNoneが返ります。ここで注目しておきたいのは、Noneに対してもmap, flatMapが定義されているので、map, flatMapの操作は、Optionの値がSomeであろうとNoneであろうと連続して適用していけるという点です。

上記のNoneクラスは型情報を簡略化した定義になっています。Noneの厳密な定義については、共変 covariantな型を使うを参考に。

Monadのmap, flatMapを使う

if文やパターンマッチを使ったnull(またはNone)の値のチェックは、ログインをするためのコードの本質的な部分ではないので、本来はエラー処理の部分を気にせずプログラミングできることが好ましいはずです。ここでmonadのmap, flatMapを使うとコードの流れを妨げずに、必要な処理に的を絞ってコードを書けるようになります。以下はその例です。

def login(name:Option[String], password:Option[String]) : Boolean = 
    name flatMap { u => password map { p => database.isValidPassword(u, p) } } getOrElse false

nameやpasswordがNoneの場合、map, flatMapの適用結果はNoneになるだけなので、コード中に出てくるエラー処理は最後のgetOrElseの部分のみになり、残りはエラー処理を気にせずに一本道で書けます。

コメントを挟んで、コードの中身をより詳しく説明すると以下のようになります。

def login(name:Option[String], password:Option[String]) : Boolean = {
   val r = name flatMap { u => //　name monadの中身がとりだされる
     password map { p => // password monadの中身が取り出される
	   database.isValidPassword(u, p) 
	 } // mapなので、monadを外したBooleanが返る
   } 
   // rの型はbooleanをmonadでくるんだ Option[Boolean]
   r getOrElse false  // getOrElseもmonadを剥がす。

ただし、map, flatMapを活用すると、コードは一行に収まるもののやや面倒な書き方になってしまうのが玉に瑕です。

for-comprehensionを使って簡潔に

そこでScalaのfor文による網羅(for-comprehension)を使うと、上記のコードを手短に書けるようになります。

def login(name:Option[String], password:Option[String]) : Boolean = 
   val r = for(u <- name; p <- password) yield database.isValidPassword(u, p) 
   r getOrElse false  // user, passの情報が揃って無い場合にはfalseが返る

これがどうmonadなのか不思議に思うのは当然ですが、for-comprehensionが具体的に何をしているのかを知れば納得できるはずです。

for-comprehensionの定義

Scalaのfor-comprehensionは、map, flatMapなどmonadによる操作を簡潔に使うためのsyntax sugarとなっています。以下に置き換えの定義を示します。

for内のパラメータが１つの場合

for { p0 <- e0 } yield e

は、mapを使って以下に置き換えられます。

e0 map { p0 => e }

複数パラメータがある場合

for { 
 p0 <- e0
 p1 <- e1
 ... 
 pn <- en } yield e

一番外側のパラメータがflatMapに置き換えられます。これが再帰的に繰り返され、最後に上記のパラメータが１つの場合のルールによりmapが適用されます。

 e0.flatMap { p0 => 
   for { 
     p1 <- e1
	 p2 <- e2
	 ...
	 pn <- en 
   } yield e
 }

これらの変換を適用すると、先に述べたfor文によるlogin関数のコードがmap, flatMapで置き換えたものと同等になることを確認してください。

参考

Scala Monads: Declutter You Code With Monadic Design 英語のチュートリアルですが、わかりやすくて良いです

複数行に渡る文字列を作成する

2012-08-02T00:00:00+00:00

改行を含む文字列をソースコード中に埋め込むには、triple quote(""")を使う。

val s = """Hello World! 
Hello Scala!"""

コード中で読みやすいようにインデントを揃えたい場合には、stripMarginを使うと良い。

val s2 = """|HelloWorld!
            |Hello Scala!""".stripMargin

上記のsとs2は同じ内容の文字列になる。

gpgでsbtプロジェクトに署名する

2012-08-02T00:00:00+00:00

xsbt-gpg-pluginを使うと、sbtで生成されたプロジェクトのjarファイルにGnuPG(gpg)による署名ができる。Sonatypeのリポジトリにプロジェクトをdeployする際にgpgによる署名が必須。作成したプログラムをSonatypeのリポジトリに登録して、Maven Central Repositoryに同期してもらうと、自分で作ったプログラムを世界中の人に手軽にダウンロードできる状態（つまりsbtのlibraryDependenciesの設定に追加するだけで使える状態）で公開できる。

Deplying to Sonatype　
- Scala+SBTでpgpによる署名を施してSonatypeのリポジトリにプロジェクトをアップロードする方法

必要なツール

gpg, gpg-agent, keychain

以下の内容は、Windows+cygwin環境ではgpg-agentをうまく動かす方法が見当たらないため、まだ成功していない。MacかLinuxを使うと吉。

設定

~/.sbt/(sbt-version)/plugins/build.sbtにsbt-pgp-pluginを追加：

addSbtPlugin("com.typesafe.sbt" % "pgp-plugin" % "0.7")

~/.sbt/(sbt-version)/gpg.sbt

// useGpg, useGpgAgentをtrueに設定
useGpg := true

useGpgAgent := true

useGpgAgentはfalseに設定して、$HOME/.gnupg/gpg.conf 内で、use-agentを設定しても良い。

参考: gpg.confの設定

$HOME/.gnupg/gpg.conf（抜粋） # We support the old experimental passphrase agent protocol as well as # the new Assuan based one (currently available in the “newpg” package # at ftp.gnupg.org/gcrypt/alpha/aegypten/). To make use of the agent, # you have to run an agent as daemon and use the option

# 以下をコメントアウトする
use-agent

お薦めしない方法

Windowsではgpg-agentが使えないため、gpgを使う替わりに以下の設定でパスフレーズの入力を省けるようになるが、危険なのであまりお薦めしない。

~/.sbt/(sbt-version)/gpg.sbt

pgpPassphrase = Some(Array('g','p','g','p','a','s','s')

gpgの証明書の作成と登録

# 鍵の作成
$ gpg --gen-key
（名前、e-mail, パスフレーズなどを登録）
# 鍵の表示
$ gpg --list-keys
pub   XXXXX/YYYYYYYY 2012-08-82
# 鍵を公開サーバーに登録
$ gpg --send-keys YYYYYYYY

gpg --gen-keyの際にmissing entropyと言われてフリーズする状態（sshでログインした環境で作業すると起こる)になった場合は、同じマシンで別のシェルを開いて、ls -lR /. などディスクにアクセスするコマンドを実行すれば良いとのこと。

gpg-agentの設定

gpg-agentを使うと、パスフレーズの入力を最初の一回だけ行えば、以降のパスフレーズの入力はgpg-agentが代わりにやってくれるようになる。keychainを使ってログイン時にgpg-agentを呼び出すこともでき、gpg-agentの多重起動を防ぐことができる。

ログイン時にgpg-agentを立ち上げるには、.bash_profile, .zprofileなどに以下の記述を追加する。

keychain -q --agents gpg
[ -z "$HOSTNAME" ] && HOSTNAME=`uname -n`
[ -f $HOME/.keychain/$HOSTNAME-sh-gpg ] && \
        . $HOME/.keychain/$HOSTNAME-sh-gpg

パスフレーズの時間

デフォルトでgpg-agentがパスフレーズを覚えてくれる時間は600秒と短いので、長めに設定しておくと日常のビルドが楽になる。

$HOME/.gnupg/gpg-agent.conf

# パスフレーズをcacheする時間を36000秒に設定
default-cache-ttl 360000
max-cache-ttl 360000
use-standard-socket

署名付きプロジェクトのビルド

# $HOME/.ivy2以下にインストール
$ sbt publish-local

# sbtのsettingsでpublishToで指定した先に署名付きjarファイルをアップロード
$ sbt publish

passphraseを聞かれてエラーが出てしまう場合、適当なファイルをgpgコマンドでエンコードしてagentにパスフレーズを覚えさせてからpublishを実行するとよい。

$ touch /tmp/hello
$ gpg /tmp/hello
(パスフレーズを入力)

WIGファイルを構文解析する

2012-07-18T00:00:00+00:00

解説

WIGフォーマットは、ゲノム座標上に数値データを載せるときに使われる。このデータは一次元の大きな配列を表現しているのだが、その他のアノテーション（データを説明するメタデータ、グラフデータの幅、ステップの量など）も適切に処理する必要がある。

WIGフォーマットのサンプル

http://genome.ucsc.edu/goldenPath/help/wiggle.htmlより。

browser position chr19:49304200-49310700
browser hide all
#	150 base wide bar graph at arbitrarily spaced positions,
#	threshold line drawn at y=11.76
#	autoScale off viewing range set to [0:25]
#	priority = 10 positions this as the first graph
#	Note, one-relative coordinate system in use for this format
track type=wiggle_0 name="variableStep" description="variableStep format"  visibility=full autoScale=off viewLimits=0.0:25.0 color=50,150,255 yLineMark=11.76 yLineOnOff=on priority=10
variableStep chrom=chr19 span=150
49304701 10.0
49304901 12.5
49305401 15.0
49305601 17.5
49305901 20.0
49306081 17.5
49306301 15.0
49306691 12.5
49307871 10.0
#	200 base wide points graph at every 300 bases, 50 pixel high graph
#	autoScale off and viewing range set to [0:1000]
#	priority = 20 positions this as the second graph
#	Note, one-relative coordinate system in use for this format
track type=wiggle_0 name="fixedStep" description="fixedStep format" visibility=full autoScale=off viewLimits=0:1000 color=0,200,100 maxHeightPixels=100:50:20 graphType=points priority=20
fixedStep chrom=chr19 start=49307401 step=300 span=200
1000
 900
 800
 700
 600
 500
 400
 300
 200
 100

方法

Scalaのparser combinatorを使った構文解析を行う。

サンプルコード

Wig.scala (Genome Weaverプロジェクトより)

WIGフォーマットの各行に対応するクラスを定義

WIG formatは一行ずつ解析できる仕様になっており、各々の行に対応するクラスを定義する。

object WIG {
  sealed abstract class Header extends WIG
  case class Comment(line: String) extends WIG
  case class Browser(line: String) extends Header
  case class Track(property: Map[String, String]) extends Header
  case class VariableStep(chrom: String, span: Int = 1) extends Header
  case class FixedStep(chrom: String, start: Int, step: Int = 1, span: Int = 1) extends Header
  sealed abstract class Data extends WIG
  case class VariableStepValue(position: Int, value: Float) extends Data
  case class FixedStepValue(value: Float) extends Data

  case class Error(message:String) extends WIG
}

sealed abstract class WIG

構文解析の結果

上記のサンプルデータから以下のような出力を得たい:

Browser(browser position chr19:49304200-49310700)
Browser(browser hide all)
Comment(#   150 base wide bar graph at arbitrarily spaced positions,)
Comment(#   threshold line drawn at y=11.76)
Comment(#   autoScale off viewing range set to [0:25])
Comment(#   priority = 10 positions this as the first graph)
Comment(#   Note, one-relative coordinate system in use for this format)
Track(Map(yLineMark -> 11.76, name -> variableStep, priority -> 10, autoScale -> off, description -> variableStep format, color -> 50,150,255, yLineOnOff -> on, viewLimits -> 0.0:25.0, type -> wiggle_0, visibility -> full))
VariableStep(chr19,150)
VariableStepValue(49304701,10.0)
VariableStepValue(49304901,12.5)
VariableStepValue(49305401,15.0)
VariableStepValue(49305601,17.5)
VariableStepValue(49305901,20.0)
VariableStepValue(49306081,17.5)
VariableStepValue(49306301,15.0)
VariableStepValue(49306691,12.5)
VariableStepValue(49307871,10.0)
Comment(#   200 base wide points graph at every 300 bases, 50 pixel high graph)
Comment(#   autoScale off and viewing range set to [0:1000])
Comment(#   priority = 20 positions this as the second graph)
Comment(#   Note, one-relative coordinate system in use for this format)
Track(Map(name -> fixedStep, priority -> 20, autoScale -> off, description -> fixedStep format, color -> 0,200,100, viewLimits -> 0:1000, maxHeightPixels -> 100:50:20, type -> wiggle_0, visibility -> full, graphType -> points))
FixedStep(chr19,49307401,300,200)
FixedStepValue(1000.0)
FixedStepValue(900.0)
FixedStepValue(800.0)
FixedStepValue(700.0)
FixedStepValue(600.0)
FixedStepValue(500.0)
FixedStepValue(400.0)
FixedStepValue(300.0)
FixedStepValue(200.0)
FixedStepValue(100.0)

正規表現による字句解析(lexical analysis)

RegexParser を使うと手軽に正規表現を使った構文解析が行える。空白文字（white spaces)はデフォルトで無視してくれるのでルール中に記述する必要はない。

WIGフォーマットの要素をBNF記法で表すと、以下のようになる。

header        := paramName param* 
param         := paramName "=" paramValue
paramName     := [A-Za-z0-9:\-_\.]	
paramValue    := stringLiteral | quote | value
value         := [^\"\s]+
stringLiteral := '"' (.*) '"'  // 単純表記。実際に使うパターンは以下のコード例を参照
quote         := "'" (.*) "'"  // 単純表記。実際に使うパターンは以下のコード例を参照

この文法に対応する解析構文を行うには、Parse[A]の型を返す要素(elem)をparser内に定義する。正規表現(文字列から.rで作成される) を記述すると、implicit conversionによってParse[String]型の要素に変換される。

object WIGParser extends RegexParsers with Logger {
  // remove quotation symbols
  protected def unquote(s: String): String = s.substring(1, s.length() - 1)
  def paramName: Parser[String] = """[A-Za-z0-9:\-_\.]+""".r
  def value: Parser[String] = """[^\"'\s]+""".r

ダブルクォート、シングルクォートを含んだ文字列のパターン。エスケープシーケンス、Unicode文字列も表現できるように配慮。

  def stringLiteral: Parser[String] = ("\"" + """([^"\p{Cntrl}\\]|\\[\\/bfnrt]|\\u[a-fA-F0-9]{4})*""" + "\"").r ^^ 
  { unquote(_)  }

  def quote: Parser[String] = ("'" + """([^'\p{Cntrl}\\]|\\[\\/bfnrt]|\\u[a-fA-F0-9]{4})*""" + "'").r ^^ 
  { unquote(_) }

^^ { ... } をパターンの後につなげると、出力結果をパターンマッチにより加工できる。マッチした結果を後の処理で扱いやすい形に変更する際に使う。

パターンを組み合わせた構文解析 (parsing)

正規表現の記述力だけでは限界があるため、正規表現でマッチした要素を組み合わせてより複雑な構文を記述できる。

| (or)、 ~ (パターンの連結), 、rep(パターンの繰り返し) 、repsep（パターンを区切り文字のパターンを挟んで繰り返し連結）などが使える。

コード例:

  def paramValue: Parser[String] = stringLiteral | quote | value

  def param: Parser[(String, String)] = paramName ~ "=" ~ paramValue ^^ {
	 case key ~ "=" ~ value => (key, value)
  }
  def header: Parser[(String, Map[String, String])] = paramName ~ rep(param) ^^ {
    case p ~ params => (p, Map() ++ params)
  }

ヘッダの解析

RegexParserのparseAllを呼び出すとパターンに文字列をマッチさせる。成功するとSuccess(マッチした結果、残りのテキスト)が返り、失敗すると NoSuccessが返る。

ここでEither を使い、構文解析に失敗したときの処理(Left)と、成功した時の処理(Right)を同時に扱えるようにするのがコードを複雑にしないコツ。

以下はWIGのheader行(track, fixedStep, variableStep)を解析を開始するコード。Eitherを返す。

  def parseHeader(line: String) : Either[NoSuccess, (String, Map[String, String])] = {
    parseAll(header, line) match {
      case Success(result, next) => Right(result)
      case failure : NoSuccess => Left(failure)
    }
  }

行単位で処理を分ける

RegexParsersでは構文定義を短く書けるが、awkやANTLRのようにオートマトンを生成するわけではなく、正規表現によるマッチを繰り返すので残念ながら速度が速くない。プログラミング言語の解析程度なら問題ないが、ゲノム情報処理のように大規模データ全体を構文解析するには速度的に厳しい。行ごとに処理が分けられる文法なら、RegexParsersによる処理は必要な行に対してのみ行うと良い。

def parseLine(line: String): WIG = {

    // 文字列の変換中に例外が発生したらLeft(例外)、成功すればRight(値)を返す
    def convert[A](s:String, f:String => A) : Either[Throwable, A] = 
      scala.util.control.Exception.allCatch.either(f(s))
    
    def toInt(s:String) = convert(s, {_.toInt})
    def toFloat(s:String) = convert(s, {_.toFloat})
    def invalidLine = WIG.Error("invalid line: " + line)

    def parse : Either[NoSuccess, WIG] = {
      if (line.startsWith("#"))
        Right(WIG.Comment(line))
      else if (line.startsWith("browser"))
        Right(WIG.Browser(line))
      else if (line.startsWith("track"))
        parseHeader(line).right.map(header => WIG.Track(header._2))
      else if (line.startsWith("variableStep")) {
        parseHeader(line).right.map{
          case (name, props) =>
            (props.get("chrom"), toInt(props.getOrElse("span", "1"))) match {
              case (Some(chr), Right(sp)) => WIG.VariableStep(chrom=chr, span=sp)
              case _ => invalidLine
            }
        }
      }
      else if (line.startsWith("fixedStep")) {
        parseHeader(line).right.map{
          case (name, props) =>
            val chrom = props.get("chrom")
            val start = props.get("start")
            val step = toInt(props.get("step").getOrElse("1"))
            val span = toInt(props.get("span").getOrElse("1"))
            (chrom, start, step, span) match {
              case (Some(chr), Some(s), Right(st), Right(sp)) =>
                WIG.FixedStep(chrom=chr, start=s.toInt, step=st, span=sp)
              case _ => invalidLine
            }
        }
      }
      else {
        // data line
        val c = line.trim.split("""\s+""")
        val r = c match {
          case Array(step, value) => (toInt(step), toFloat(value)) match {
            case (Right(st), Right(v)) => WIG.VariableStepValue(st, v)
            case _ => invalidLine
          }
          case Array(value) => toFloat(value) match {
            case Right(v) => WIG.FixedStepValue(value.toFloat)
            case _ => invalidLine
          }
          case _ => invalidLine
        }
        Right(r)
      }
    }

    parse match {
      case Right(m) => m
      case Left(error) => WIG.Error(error.toString)
    }
 }

Eitherを用いて、エラー処理による分岐を減らしたコードにする

Either[A, B] は、AまたはBを返す型である。

上記のように Either[（エラー情報）, （結果）]を返すとき、成功した場合は引き続きの処理を行いたいが、エラーの場合はそのまま次のコードにエラーを伝えたい場合がある。 Either.rightを呼び出すと、値の内容がRightの型の場合は次の処理を行い、Leftの型の場合は以降の処理を無視してLeftの内容（この場合はエラー情報を）そのまま返すことができる。

  // parseHeader(line)   :  Either[NoSuccess, (String, Map[String, String])] を返す
  if (line.startsWith("track"))
    parseHeader(line).right.map(header => WIG.Track(header._2))  // Either[NoSuccess, WIG] を返す

Eitherを使うことで、エラーを含んだデータであっても処理の流れを妨げないようにできる。

文字列のformat

2012-07-05T00:00:00+00:00

文字列を整形して出力したい。

Scala2.10より、String interpolationが使えるようになりtype safeな文字列の整形ができるようになりました。こちらがおすすめ　(2013年1月)

## String.formatを使う。

"Hello %s!".format("World!") //  Hello World!
"Elapsed time: %.2f".format(43.5345) // 43.54
"Read %,d entries".format(100000000000L) // Read 100,000,000,000 entries

try {
  ...
}
catch {
  case e:Exception => 
    System.err.println("[%s] Error: %s".format(this.getClass.getName, e.getMesssages))
}

デバッグ用の文字列を出力するのに重宝。type safeでない（%fに文字列の値を渡してしまうと、IllegalFormatExceptionが発生してしまう）のだが、他によい代替品が現れるまでは使う機会も多いだろう。

formatによく使うシンボル


`%s`	文字列
`%d`	整数
`%f`	浮動小数点数
`%e`	科学計算用の指数を含んだ数字。e-10などが付く

flagの例

%とこれらのシンボルの間にflag(s)を挟むことができる。


`,`	３桁ごとにcommaを挟んで表示
`(数字)`	数字で指定された分のスペースを使って表示
`.2`	小数点以下二桁を表示

長い文字列を作成する

2012-07-05T00:00:00+00:00

長い文字列を作成する。

方法

短い文字列の場合。

val s = "Hello" + " World!!"

文字列をたくさん連結していく場合は、StringBuilderを使用する。

Good

val b = new StringBuilder
for(i <- 0 until 10) {
	if(i > 0)
		b.append(", ")
	b.append(i)
} 
val s = b.result  // s = "0, 1, 2, 3, 4, 5, 6, 7, 8, 9"

Bad

var s = ""
for(i <- 0 until 10) {
	if(i > 0)
	   s += ", "   // 文字列のコピーを作成
	s += i　// 文字列のコピーを作成
} // s = "0, 1, 2, 3, 4, 5, 6, 7, 8, 9"

+=でStringに対して文字列を連結していくと、文字列のコピーが大量に発生してしまい性能が悪くなる。数個の文字列を連結するくらいなら+=でも問題ないが、何十以上の文字列を連結するのには不向き。

正規表現で文字列の検索

2012-07-05T00:00:00+00:00

文字列中から正規表現にマッチした箇所を取り出したい。

解法

Regexを使う。

val s = "GGACGATATAATTTATAATACCGT"
val r = "TATAA".r   // Stringは.rで正規表現に変換できる
for(m <- r.findAllIn(s).matchData) 
	println("Found a match in [%s, %s)".format(m.start, m.end))

実行結果

Found a match in [6, 11)
Found a match in [13, 18)

findAllInではマッチした文字列を切り出すMatchIterator(Iterator[String]を継承)が返るが、matchDataを呼び出すことで、Iterator[Match]に変換でき、こちらでは、マッチの位置(start, end)や、マッチした文字列(matched)などの情報も得られる。

マッチ箇所をグループに分ける

括弧によるグループを使用して、マッチした箇所を各々取り出せる。

val r = "(chr)([0-9]+)".r
val l = List("chr1", "chr10", "chr21")
for(chr <- l; m <- r.findFirstMatchIn(chr)) {
    val chrPrefix = m.group(1)
	val chrNum = m.group(2)
	println("prefix:%s, num:%s".format(chrPrefix, chrNum))
}

グループ番号0はパターン全体に対応。

実行結果

prefix:chr, num:1
prefix:chr, num:10
prefix:chr, num:21

グループに名前を付ける

さらに、グループに名前を付けることもできる。

val r = new scala.util.matching.Regex("(chr)([0-9]+)", "prefix", "num")
val l = List("chr1", "chr10", "chr21")
for(chr <- l; m <- r.findFirstMatchIn(chr)) {
	println("prefix:%s, num:%s".format(m.group("prefix"), m.group("num")))
}

実行結果

prefix:chr, num:1
prefix:chr, num:10
prefix:chr, num:21

オブジェクトを比較する

2012-07-05T00:00:00+00:00

データ構造をMapなどに格納する場合、hashCodeとequalsを適切に定義しないと、keyによる検索が上手くいかない。

object Point {
	def apply(x:Int, y:Int) = new Point(x, y)
}

class Point(val x:Int, val y:Int) {
	// Add and multiply by prime numbers
	override def hashCode = (x + 31) * 31 + y 

    override def equals(other:Any) = other match {
		case that: Point =>
			(that canEqual this) && (this.x == that.x) && (this.y == that.y)
		case _ => false
	}
	// Pointを継承した他のクラスのインスタンスでないかチェック
	def canEqual(other:Any) = other.isInstanceOf[Point]
}

以上のようにhashCode, equalsの定義をするとMapに格納されたkeyを検索できるようになる。

val m = Map(Point(1, 3) -> "A", Point(5, 5) -> "B")
val v = m(Point(1,3))   // "A" が見つかる

継承されたクラスとの比較

また、canEqualの部分でのチェックは、例えば以下のようにPointを拡張したPointWithColorを作成した場合、PointクラスのインスタンスとPointWithColorのインスタンスを誤って同一視しないために必要。

class PointWithColor(x:Int, y:Int, val color:String) extends Point(x, y)

もし上のコードからcanEqualのチェック部分を取り除くと、

val p = new Point(1, 1)
val c = new PointWithColor(1, 1, "red")
p == c // trueになってしまう!!

参照(reference)として比較

==では、equalsのメソッドを用いてオブジェクトの比較がなされるが、eqは参照としての比較がなされる。参照先が同じインスタンスを指す場合、eqによる比較はtrueを返す。

scala> val p1 = new Point(1, 1)
p1: Point = Point@6bb

scala> val p2 = new Point(1, 1)
p2: Point = Point@6bb

scala> p1 == p2
res37: Boolean = true

scala> p1 eq p2
res38: Boolean = false

scala> val p3 = p1
p3: Point = Point@6bb

scala> p3 eq p1
res39: Boolean = true

コンストラクタを複数定義する

2012-07-05T00:00:00+00:00

クラスには、デフォルトのもの以外に、複数のコンストラクタを定義できる。

class Interval(val start:Int, val end:Int) {
	// 代替コンストラクタの定義
	def this(point:Int) = this(point, point)
}

代替コンストラクタ(alternative consturctor)内では、必ずデフォルトコンストラクタを呼び出さなくてはならない。この制約はクラスの初期化の間違いなどのバグを減らすのに効く。

使用例

val v = new Interval(1, 3)   // デフォルトコンストラクタ
val p = new Interval(1)      // 代替コンストラクタ new Interval(1, 1)が生成される

コンストラクタの代わりにfactory methodを使う

コンストラクタにはクラス名以外の名前が付いていないので、コードの意味を十分に語れない。そこで、object内に新しいクラスを生成するfactory methodを提供すると良い。

object Interval {
	// Interval(start, end)で新しいインスタンスを生成できるようにする
	def apply(start:Int, end:Int) = new Interval(start, end)

	// Interval.point(start, end)で、点を表す区間を生成するfactory method
	def point(start:Int) = new Interval(point, point)
}

使用例

val v = Interval(1, 3)
val p = Interval.point(1)

factoryを作ることで、どのようなインスタンスを生成しているのかというコードの意図が伝えやすくなる。

Mapを極める

2012-07-05T00:00:00+00:00

Mapは key -> valueの索引のためのデータ構造。keyの値には重複を許さない。内部的にはHashMapが使われており、要素を挿入した順番は保持されない。

Mapの作成

scala> val m = Map(1 -> "Apple", 2 -> "Banana", 3 -> "Chocolate")
m: scala.collection.immutable.Map[Int,java.lang.String] = Map(1 -> Apple, 2 -> Banana, 3 -> Chocolate)

1 -> "Apple"の部分では、(1, "Apple")のTupleが生成され、最終的にMap.apply(elems:(A, B)*)が呼ばれている。

Builderを使ってMapを作成

ファイルやDBなどから大量のデータを読み込んで、immutableなMapを作りたい場合はBuilderを使うと良い。

val m = {
	val b = Map.newBuilder[Int, String]
	b += 1 -> "Apple" 
	b += ...   
	...
	b.result
}

mutableなデータ(builder)は外に見せないように閉じ込めている。

Mapの使い方

keyの集合を取得

scala> m.keys
res0: Iterable[Int] = Set(1, 2, 3)

valueの集合を取得

scala> m.values
res1: Iterable[java.lang.String] = MapLike(Apple, Banana, Chocolate)

key, valueのエントリを取得

scala> for((key, value) <- m) println("key:%s, value:%s".format(key, value))
key:1, value:Apple
key:2, value:Banana
key:3, value:Chocolate

keyに対応する値の取得

scala> m(1)
res4: java.lang.String = Apple

scala> m(4)
java.util.NoSuchElementException: key not found: 4

Optionを使ってvalueを取得

例外処理のコードを書くのは面倒なので、Optionを返すこともできる。

scala> m.get(1)
res15: Option[java.lang.String] = Some(Apple)

scala> m.get(5)
res16: Option[java.lang.String] = None

Optionを使う利点は、keyに対応するentryがあってもなくてもコードの流れをさまたげないようにプログラミングできること。

scala> def printIfExists(key:Int) = for(v <- m.get(key)) println(v)
printIfExist: (key: Int)Unit

scala> printIfExists(1)
Apple

scala> printIfExists(5)
                       // 何も表示されない(println(v)が実行されない)

この動作は、None.foreach では何もしないように定義されていることによる。

エントリが見つからないときのデフォルト値を与える

getOrElseを使う。

scala> m.getOrElse(10, "N/A")
res21: java.lang.String = N/A

変更可能(mutable)なマップを使う

上記の例でmapに新しいエントリを追加すると、新しいMapが生成される。

scala> val m2 = m + (4 -> "Donut")
m2: scala.collection.immutable.Map[Int,java.lang.String] = Map(1 -> Apple, 2 -> Banana, 3 -> Chocolate, 4 -> Donut)

元のマップには変更が加えられていない（persistent)

scala> m
res29: scala.collection.immutable.Map[Int,java.lang.String] = Map(1 -> Apple, 2 -> Banana, 3 -> Chocolate)

Mapの内容をin placeで上書きしたい場合は、scala.collection.mutable.Mapを使う。

mutable.Mapの作成

+=で追加、-=で削除。

scala> val m = scala.collection.mutable.Map[Int, String]()
m: scala.collection.mutable.Map[Int,String] = Map()

scala> m += 1 -> "Apple"
res22: m.type = Map(1 -> Apple)

scala> m += 2 -> "Banana"
res23: m.type = Map(1 -> Apple, 2 -> Banana)

scala> m += 3 -> "Cookie"
res24: m.type = Map(3 -> Cookie, 1 -> Apple, 2 -> Banana)

scala> m += 4 -> "Donut"
res25: m.type = Map(3 -> Cookie, 4 -> Donut, 1 -> Apple, 2 -> Banana)

scala> m -= 2
res26: m.type = Map(3 -> Cookie, 4 -> Donut, 1 -> Apple)

mutable.Mapでエントリが存在しなければ更新を行う

getOrElseUpdate(key, default)を使う。

scala> m.getOrElseUpdate(10, "Penut")
res27: String = Penut

10 -> Penutが追加されている

scala> m
res28: scala.collection.mutable.Map[Int,String] = 
   Map(10 -> Penut, 3 -> Cookie, 4 -> Donut, 1 -> Apple)

応用例

getOrElseUpdateはエントリが存在しない場合の処理を一行に納めることができるので重宝する。

def getValue(key:Int) : String = {
	def createNewEntry : String = {
		// (初期化に必要な処理をする。例：DBへのクエリなど)
		database.query(key)
	}
	// Mapにエントリが存在すればそれを返し、なければ初期化して追加し、追加した値を返す
	m.getOrElseUpdate(key, createNewEntry)
}

キャッシュとしてマップを使う

Mapにエントリを格納するとMapから各エントリへの参照が保存される。しかし、Map内のエントリが不要になったとしても、Mapのインスタンスがある限りgarvage collector(GC)が参照関係を考慮してエントリを含むメモリ領域を回収してくれない。

そこでWeakHashMapを使うと、keyの値はWeakReference(GCが参照先として辿らない特別な参照)として管理されるため、エントリをGC(garvage collection)による回収の対象にしてくれる。

例えば初期化に時間がかかったり、メモリを大量に使うようなオブジェクトの一時的なキャッシュとしてWeakHashMapを使う。

class HeavyObject(id:Int) {
   ... (do some heavy initializations here)
}

object HeavyObject {
	private val w = scala.collection.mutable.WeakHashMap[Int, HeavyObject]()

	def apply(key:Int) = 
	   w.getOrElseUpdate(key, new HeavyObject(key)) // new HeavyObjectは遅延評価される
}

{
	val h = HeavyObject(1) 
     ...
	val ref = HeavyObject(1)  // ここでは高い確率でWeakHashMap内の同じインスタンスが使い回される
}

// 1 -> HeavyObject(1) のエントリはGCの回収の対象
// いつ解放されるかはGCのタイミング次第（メモリが不足したときなど）

ScalaをMac OS Xにインストールする

2012-07-03T00:00:00+00:00

Mac OS Xユーザーの場合、Homebrew をインストールしておくと、高速にScalaの開発環境を整えることができる。

$ brew install scala
$ brew install sbt

また、git、mercurialなども手軽にインストールできる。

$ brew install git
$ brew install mercurial

ちなみにGNU MakeなどのコマンドラインツールはApp StoreでXCodeをインストール後、Preferences->Downloads->Command Line Tools を選択してインストールする。

REPLの使い方

2012-07-03T00:00:00+00:00

ScalaにはREPL (Read-Eval-Print-Loop)と呼ばれる対話式実行環境がある。コードの動作を確認する場合にはREPLを使うと良い。

$ scala
Welcome to Scala version 2.9.1.final (Java HotSpot(TM) 64-Bit Server VM, Java 1.6.0_33).
Type in expressions to have them evaluated.
Type :help for more information.

scala> val l = List("A", "B", "C", "D")
l: List[java.lang.String] = List(A, B, C, D)

scala> l.reverse
res0: List[java.lang.String] = List(D, C, B, A)

# 演算結果は自動的に変数に代入される
scala> res0
res1: List[java.lang.String] = List(D, C, B, A)

scala>

sbtを使った開発で、依存関係にあるライブラリをクラスパスに含めてREPLを動かしたい場合は、

$ sbt console

[info] Loading project definition from /Users/leo/work/git/scala-cookbook/project
[info] Set current project to sample-project (in build file:/Users/leo/work/git/scala-cookbook/)
[info] Starting scala interpreter...
[info] 
Welcome to Scala version 2.9.2 (Java HotSpot(TM) 64-Bit Server VM, Java 1.6.0_33).
Type in expressions to have them evaluated.
Type :help for more information.

scala>

とする。

REPL終了するには:quitと入力する。

scala> :quit

順列、組み合わせ、冪集合を生成する

2012-07-03T00:00:00+00:00

Scalaでは集合を並び替えた順列(permutation)や、組み合わせ（combination, 重複を含まない）、冪集合(power set)などを手軽に生成できる。

順列の生成

scala> val l = List("A", "B", "C", "D")
l: List[java.lang.String] = List(A, B, C, D)

scala> l.permutations
res0: Iterator[List[java.lang.String]] = non-empty iterator

scala> res0.map(_.mkString(",")).mkString("\n")
res1: String =
A,B,C,D
A,B,D,C
A,C,B,D
A,C,D,B
A,D,B,C
A,D,C,B
B,A,C,D
B,A,D,C
B,C,A,D
B,C,D,A
B,D,A,C
B,D,C,A
C,A,B,D
C,A,D,B
C,B,A,D
C,B,D,A
C,D,A,B
C,D,B,A
D,A,B,C
D,A,C,B
D,B,A,C
D,B,C,A
D,C,A,B
D,C,B,A

組み合わせの生成

scala> l.combinations(3)
res2: Iterator[List[java.lang.String]] = non-empty iterator

scala> res2.map(_.mkString(",")).mkString("\n")
res3: String = 
A,B,C
A,B,D
A,C,D
B,C,D

冪集合の生成

冪集合(power set)を生成する関数はないが、冪集合を生成する関数は以下のように簡単に書ける。

scala> def powerSet[A](s:TraversableOnce[A]) = 
     |     s.foldLeft(Set(Set.empty[A])) {
     |        (set, element) => set union (set map (_ + element))
     |     }
powerSet: [A](s: TraversableOnce[A])scala.collection.immutable.Set[scala.collection.immutable.Set[A]]

scala> powerSet(l.toSet)
res5: scala.collection.immutable.Set[scala.collection.immutable.Set[java.lang.String]] = Set(Set(A, D), Set(), Set(A, B), Set(B, C), Set(B), Set(A, B, C), Set(C), Set(A, B, C, D), Set(C, D), Set(A, C), Set(B, C, D), Set(A, C, D), Set(B, D), Set(A), Set(D), Set(A, B, D))

生成の様子を表示すると以下のようになる。

step 1. Set(Set())
step 2. Set(Set(), Set(A))
step 3. Set(Set(), Set(A), Set(B), Set(A, B))
step 4. Set(Set(), Set(A, B), Set(B, C), Set(B), Set(A, B, C), Set(C), Set(A, C), Set(A))
step 5. Set(Set(A, D), Set(), Set(A, B), Set(B, C), Set(B), Set(A, B, C), Set(C), Set(A, B, C, D), Set(C, D), Set(A, C), Set(B, C, D), Set(A, C, D), Set(B, D), Set(A), Set(D), Set(A, B, D))

参考：Scala Expressiveness

Union Find

2012-07-03T00:00:00+00:00

問題

遺伝子のデータにはゲノム座標中で交差しているアノテーションが含まれている（splicing variant, 転写開始位置の違いなどによる）。遺伝子情報に基づく解析を行う際、重複を避けるためこのような遺伝子はひとまとまりにして考えたい。

|----(g1)-------|                 |---(g4)----|     |----(g6)-----|
  |-----(g2)----------|                         |---(g5)---|
                   |--(g3)----|

上記の遺伝子g1, g2, … , g6が与えられたとき、交差、あるいは包含関係にある遺伝子は同じ集合に入るようにする。

{g1, g2, g3}, {g4}, {g5, g6}

g1, g3は直接交差はしていないが、各々g2と交差しているので同じ集合に属している。

考え方

区間の交差判定については、こちらを参考に。区間を並べ替え、左端からsweepしながら交差しているものを列挙すれば良い。

グループの作成

n個の要素をグループに分類する問題として考える。

find(e): 要素eがどのグループに属するかを見つける（グループの代表元を返す）
union(e1, e1): 要素e1と要素e2が含まれるグループを結合する

Union-Find

互いに疎な集合を手軽に構築するデータ構造として、Union-Findが使える。Union-Findは集合を木で表し、union, findの2つの操作を持つデータ構造。

参考文献

Introduction to Algorithms 2nd Edition. Chapter21: Data Structures for Disjoint Sets

コード例

UnionFindSet.scalaより抜粋

ノードを順次+=で追加できるように設計。

class UnionFindSet[E] { 

  /**
   * Holder of the element with its rank and the parent node
   */
  private class Container(val elem: E, var parent: E, var rank: Int) {
    def isRoot : Boolean = elem == parent
  }
  /**
   * Hold a map from elements to their containers
   */
  private val elemToContainerIndex = collection.mutable.Map[E, Container]()
  /**
   * Retrieve the container of the element e
   */
  private def containerOf(e: E): Container = {
    def newContainer = new Container(e, e, 0) // Set the parent to this element

    // If no container for e is found, create a new one
    elemToContainerIndex.getOrElseUpdate(e, newContainer)
  }

  /**
   * Add a new element
   * @param e
   */
  def +=(e: E): this.type = {
    containerOf(e) // create a new containerOf for e if it does not exist
    this
  }

findでグループの代表元(root)を求める。同じ集合に属するノードは、ツリーで管理されているが、ルートまでのパス中のノードを同時にルートに直結させている(path compression).

  /**
   * Find the representative (root) element of the class to which e belongs
   */
  def find(e: E) : E = {
    val c = containerOf(e)
    if(c.isRoot)
      e
    else {
      // path compression: recursively connect all elements 
	  // in the path from e to the root directly to the root
      c.parent = find(c.parent)
      c.parent
    }
  }

ここで再帰的に通ったノードの親をルートに張り替えるpath compressionが行われている。

union(x, y)ではx, yの代表元を求めてそれを結合することで、2つの集合の結合を行う。

  /**
   * Union the two sets containing x and y
   */
  def union(x: E, y: E) {
    val xRoot = containerOf(find(x))
    val yRoot = containerOf(find(y))

    // Compare the rank of two root nodes
    if (xRoot.rank > yRoot.rank) {
      // x has a higher rank
      yRoot.parent = xRoot.elem
    }
    else {
      // y has a higher rank
      xRoot.parent = yRoot.elem
      // If the ranks are the same, increase the rank of the other
      if (xRoot.rank == yRoot.rank)
        yRoot.rank += 1
    }
  }

二つの集合を結合するときは、必ずrankの大きい方の下にrankの小さな木を結合するようにする。

Union-Findの計算量

path compressionと、rankを基準にした木の組み方により、n回のunion, findにかかる計算時間はO(n A(n)) A(n)はアッカーマン関数の逆関数、になることが知られている。

Union-Findをさらに使いやすくする

Setを拡張し、iterator、要素数などを取得できるように。

class UnionFindSet[E] extends collection.mutable.Set[E] {
   (中略)
   private def containerList = elemToContainerIndex.values
   override def size = elemToContainerIndex.size
   def contains(e: E) = elemToContainerIndex.contains(e)
   /**
    * Iterator of the elements contained in this set
    * @return
	*/
   def iterator = containerList.map(_.elem).toIterator

さらに、代表元のみを探索、あるノードと同じグループに属するノード集合、グループを探索するためのiteratorなどを定義。

/**
 * Iterator of the root nodes of the groups
 */
def representatives: Iterable[E] =
  for(c <- containerList if c.isRoot) yield c.elem
/**
 * Return the elements belonging to the same group with e
 */
def elementsInTheSameClass(e: E) : Iterable[E] = {
  val root = containerOf(find(e))
  for(c <- containerList if find(c.elem) == root.elem) yield c.elem
}

/**
 * Iterator of each group
 */
def groups: Iterable[Iterable[E]] =
  for((root, containers) <- containerList groupBy(_.elem)) yield 
    containers map (_.elem)

交差している区間の列挙

2012-07-03T00:00:00+00:00

問題

以下のリード（ゲノム配列の断片）で交差しているものを列挙せよ(pileup)。

|----(r1)-------|                 |---(r4)----|     |----(r6)-----|
  |-----(r2)----------|                         |---(r5)---|
                   |--(r3)----|

上記のリードセットr1, r2, … , r6が与えられたとき、交差しているリードは以下の３組。

{r1, r2}, {r2, r3}, {r5, r6}

この問題は、リードのcoverage計算, SNPコールのための前処理にも使われておりゲノム情報処理では頻出。

考え方

区間の交差判定

区間を表現するクラスを作成。

class Interval(val start:Int, val end:Int)

object Interval {
	// Interval(s, e) でinstanceを作成できるようにするhelper method
	def apply(start:Int, end:Int) = new Interval(start, end)
}

区間に順序を定義する。scala.math.Ordering を使用。

object IntervalOrdering extends Ordering[Interval] {
	def compare(x:Interval, y:Interval) : Int = {
		// startの小さい順に並べる
		val diff = x.start - y.start
		if(diff == 0)
			x.end - y.end  // startが同じならendの小さい順に並べる
		else
			diff
	}
}

区間を上の順序を使って並べ替える。

  // 1  2      5  6 7  8      10   12 13 14 15 16
  // |---------|              |----|  |-----|
  //    |-----------|         |----|      |-----|
  //              |---|
  val in = List(Interval(1, 5), Interval(2, 7), 
	  Interval(6,8), Interval(10, 12), 
	  Interval(10, 12), Interval(13, 15), 
	  Interval(14, 16))
  val sorted = in.sorted(IntervalOrdering)

その後、左端(startの小さい順)からsweepする。 sweepする際にはstartだけでなく、endの情報もpriority queue(優先度付きキュー)に入れて管理する。

コード例

pullスタイル（データを引っ張りながら使う）で使えるようにIteratorを定義している。push型（生成した結果をどんどん第三者に書き出す形）にすればもう少し平易なコードになる。

OverlapSweeper.scala

import collection.{mutable, SortedSet}
import annotation.tailrec

class OverlapSweeper[A <: Interval](list:TraversableOnce[A]) extends Iterator[Seq[A]] {

  private val it = list.toIterator
  private var nextOverlappedSet : Option[Seq[A]] = None
  private var sweepLine = 0

  // endの値の小さい順にqueueから取り出せるように順序を定義
  private val endValueQueue = new mutable.PriorityQueue[A]()(new Ordering[A] {
    def compare(x: A, y: A) = {
      val diff = y.end - x.end // lower end value has high priority
      if(diff == 0)
        y.start - x.start
      else
        diff
    }
  })

  def hasNext = {
    @tailrec
    def findNextOverlap : Option[Seq[A]] = {
      if(it.hasNext) {
        val r = it.next
        endValueQueue += r  // enqueue
        sweepLine = r.start

        // sweep intervals whose end value is less than sweepLine
        while(!endValueQueue.isEmpty && endValueQueue.head.end < sweepLine) {
          endValueQueue.dequeue
        }
        if(endValueQueue.size > 1)
           Some(endValueQueue.clone.toSeq) // queueの中身はmutableなので敢えてコピーを作成
        else
          findNextOverlap
      }
      else
        None
    }
    nextOverlappedSet = nextOverlappedSet.orElse(findNextOverlap)
    nextOverlappedSet.isDefined
  }
  def next() = {
    if(hasNext) {
      val e = nextOverlappedSet.get
      nextOverlappedSet = None
      e
    }
    else
      throw new NoSuchElementException("no more elements")
  }
}

動作をテストする

val in = List(Interval(1, 5), Interval(2, 7), Interval(6,8), 
  Interval(10, 12), Interval(10, 12), Interval(13, 15), Interval(14, 16))
val sorted = in.sorted(IntervalOrdering)
val overlapped = new OverlapSweeper(sorted)
for(s <- overlapped) {
  // overlapしていると報告された区間のすべての組み合わせをチェック(combination)
  for(c <- s.combinations(2)) {
     val a = c(0)
     val b = c(1)
     a.intersectWith(b) should be (true)
  }
}

拡張

GInterval のように、染色体名、strandの情報が含まれる場合、上記のアルゴリズムのままでは上手くsweepできない。

class GInterval(val chr:String, val start:Int, val end:Int, val strand:Strand)

どう拡張すれば良いか？

リードセットがメモリに収まりきる場合

染色体ごとにデータをグループ分けして、それぞれをsweep。簡単。

val l : List[GInterval] = ...
val groups = l.groupBy(_.chr) 
// parllel collectionで染色体ごとに並列処理
for((chr, lst) <- groups.par; overlappedReadSet <- new OverlapSweeper(lst)) {
    ...
}

リードセットがメモリに収まりきらない場合

染色体名を覚えておき、異なる染色体のリードが入力されたら、queueにたまっているものをすべてsweepする。

関数型言語の特徴

2012-07-02T00:00:00+00:00

コーディングのスタイル

コードを逐次実行しながら副作用（変数の内容の書き換え）を起こす命令型 (imperative programming)のコードをなるべく排除する
副作用を避けるために immutable（変更不可能）なデータを中心に使う
- 値の変化は、関数に「immutableなデータを入力 -> 新しいデータを出力」という形で行う
関数そのものも、関数の引数として渡す
- 関数がfirst-class citizenという言い方をよくする
- C++、Javaでも関数に関数へのポインタ（リファレンス）などを渡せるが、関数が定義されたコンテキストの情報（変数の値など）までも含めて他の関数に渡すのは大変。

Q. 副作用を避けるのは何故か？

A. プログラミングを簡単にするため。

例えば、文字列型 String のデータが変更可能だったとする。

val key1 = "Apple"
val key2 = "Banana"
val set = SortedSet(key1, key2)  // "Apple", "Banana"の順に並び替えを維持するデータ構造

// もしkey1の内容を以下の用に書き換えられるとしたら。。。
key1(0) = "Z"    // key1は"Zpple"になる
// ここでSortedSetの中身はどうなっている？ "Banana", "Zapple"の順番になっていてほしいが。。。

keyの値が外部で変化すると、SortedSetの中で保管しているkeyの並び順も更新する必要がある。これに対処する方法として、

SortedSetに格納されているデータの変更を探知して、並び順を更新する
SortedSetに格納する際に、データのコピーを作成して、コピーをSortedSetに格納する
SortedSetにアクセスするたびに並び替えを行う

などが考えられる。

1番目の方法はひどく実装が大変になる。keyの値の変更を探知するObserverをkey毎に用意し、Stringが更新されるたびに並び順を変更する。もし、マルチスレッドプログラミングを行っている場合、SortedSetへのアクセスとSortedSetの内容の更新が衝突しないように排他制御を行う必要がある。2番目の方法は簡単だがデータのコピーのコストが重い。3番目の方法になるようでは、SortedSetのようにO(log n)でデータを検索できるデータ構造を使う意味を失う。

また、このようなコードをデバッグするのは困難を極める。 global変数(プログラムのどこからでも変更できる)を用いたコードが今日では衰退しているのは、変数の内容の変化を起こすコードと、その変化のタイミングを管理するのが大変だったことによる。

解決策

Stringをimmutableにすればよい。

immutableにすることで、上記のようなことで悩む必要はなくなる。実際、 Scala/JavaのStringはimmutableになっている。また、SortedSet などの実装はimmutableなデータが格納されることを前提にしており、性能のためにデータのコピーを避け、文字列へのリファレンスのみを格納している。 parallel/concurrent programmingにおいても、StringやSortedSetの内容がimmutableであることが保証されていると、ロックなどを取得する必要がなくコードの性能が良くなる。さらに、コードの実行の度に動作が違うなど、発見が困難かつ再現しにくいという深刻なタイプのバグに悩まされなくなる。

immutableなデータを使い、初期化忘れを防ぐ

Scalaではclassでデータ構造を作成する際も、パラメータはすべてimmutableにし、初期化を必ず行うように強制できる。

class Book(val id:Int, val title:String, val publisher:String) 

val b = new Book(1, "Programming in Scala", "Artima Press")

Javaではimmutableであることに注意しないと、以下のようなコードを書いてしまう。

// このような書き方は避けたい
class Book {
   public int id;
   public String title;
   public String publisher;
}

Book b = new Book();
b.id = 1;
b.title = "Programming in Scala";
// publisherの情報を設定するのを忘れてしまった!!

System.out.println(b.publisher); // NullPointerExceptionが発生

Javaで安全にクラスの初期化を行えるようにするには以下のようにする。

class Book {
	// finalを付けると、初期化時以外変更不能な変数になる
	public final int id;
	public final String title;
	public final String publisher;
	
	public Book(int id, String title, String publisher) {
		this.id = id;
		this.title = title;
		this.publisher = publisher;
	}
}

Scalaでは、immutableなデータを好んで使ってもらえるよう配慮されており、以下の一行で済む。

class Book(val id:Int, val title:String, val publisher:String)

より安全にするには、nullかどうかのチェックも入れると良い。

class Book(val id:Int, val title:String, val publisher:String) {
	// クラスの初期化時に実行されるコード
	if(title == null || publisher == null)
		sys.error("null is passed as an argument")
}

補足

JavaではBeans（データベースやJSONなどのデータをもとに、クラスを初期化する）などを使う場合、止むを得ず上記のようにpublicなフィールドを使って、安全でない書き方をすることがある。Builder patternを使うなど、いくつか初期化の安全性を確保する方法があるが、楽な書き方とは言いがたい。

Scalaの利点

2012-07-02T00:00:00+00:00

バイオインフォマティクスの分野では、現場で動くコードを書けるプログラミング言語でないと使えません。 Scalaが本当に現場で使えるかどうかわかるまで、実際にコードを書いてみたり、開発環境、ライブラリを調べるなど調査に費やした時間も膨大でした。そのときの自分に教えてあげるつもりでScalaの利点をここにまとめていきます。

関数型言語であるが、関数型言語でない

Scalaでは関数型言語のスタイルに固執する必要がない。命令型、副作用のあるコードも書けるので、慣れるに従い関数型のスタイルに近づければ良い。 C++, Java、Perlなど命令型のコードが多い言語に慣れていると、最初のうちは関数型のコードをどう書けば良いかわからないことが多いと思うが、 Scala APIにあるライブラリの使い方に習熟してくると、これらをどう組み合わせてコードを書けばよいかが見えてくるようになる。

Martin OderskyのProgramming in Scalaの本にも、well-trained eyes (訓練された目では) という表現がよく出てくるが、私自身も、Scalaを覚えたての頃と、Scalaに慣れた現在ではコードを見る目、書き方がずいぶんと変わった。

簡潔にコードを書ける

型推論や構文の工夫により、Rubyなど動的型付け言語と同じくらいコーディングがしやすくなっている。

// Mapの作成
val m = Map(1 -> "A", 2 -> "B", 3 -> "C") 
for((key, value) <- m) {
	...
}

これを敢えて冗長に書くと、、、

val m : Map[Int, String] = 
	Map.apply[Int, String](Seq[Tuple2[Int, String]]
	(new Tuple2[Int, String](1, "A"), new Tuple2[Int, String](2, "B"), new Tuple2[Int, String](3, "C"))
// 型名をすべて補って書き下すと...
m.foreach[Tuple2[Int, String]]{ (entry:Tuple2[Int, String])  => 
   entry match {
	   case (key:Int, value:String) => ...
   }
}

となるが、このような詳細をコーディング時に気にする必要がない。(もちろん詳細を知っておくと、Scalaでコードライブラリを開発するときの力になる)

開発環境、ライブラリの充実

IntelliJ, sbtなどがコミュニティでよく使われており、大きなプロジェクトの開発にもScalaは実用的に使えるようになってきた。

EclipseでScala IDE for Eclipseを使っても一応開発できるが、2012年7月の時点では、 IntelliJ + Scalaプラグインの方が使い勝手(syntax highlight, type inferenceによる文法エラーの検知)が良い。

sbtで特筆すべき点は、コードの更新をモニターして、変更があればすぐ再コンパイルを行い、テストコードの実行までを自動で行ってくれる。 Scalaのコードはコンパイルに多少時間がかかるが、この機能により開発時のストレスが少ない。

Javaで一般的なMavenによる開発スタイルを踏襲することもできるが、sbtを使う方が良い。 mavenにできてsbtにできないこともたくさんあるが、sbtにできてmavenにできないことを実装する方が大変に思う。 sbtの拡張はsbtのソースコードとにらめっこして、Scalaで書けばよい。作成したプラグインもGitHubに置くなどの手段が使える。一方mavenプラグインでは、XMLによる仕様の記述、クラスの階層関係の把握、maven centralにdeployするなど、一筋縄ではいかない箇所が多くある。

Javaのコードとの親和性に関しても、Scala 2.8でcollectionクラスの大幅な改善により、格段に使い勝手が良くなった。 Scala2.9では、並列処理のためのコレクションの拡張が行われており、マルチコアのための計算も簡単になっている。実際、私自身も10CPU以上を使った演算などを日常的に行えるようになって助かっている。

練られた言語設計

ScalaはJavaと同様JVMの上で動く言語であるが、オブジェクト指向言語としてだけ見ても、Javaと比較して改善されている点が多々ある。

implicit conversionによる機能の追加

例えば、Stringにはformatというメソッドはないが、StringOpsなどに自動的に変換して機能を追加できる。

"Hello %s!".format("World") 

// Javaでは以下のように書かなければならなかった
String.format("Hello %s", "World")

Java言語のリリース頻度は、使っているユーザー数が多いために慎重になっているためか、非常に遅い。新しいリリースを待つくらいならScalaでコードを書き始める方が良い
例えば以下のような機能が待望されているが、Javaで使えるようになるのがいつになることやら…
- コードブロック (clojure, lambda function)
- try catch with resources (Scalaならloan patternを自分で実装すればよい)
- traitによるmixin(多重継承の特殊なケース)の実現
  - コードの再利用、拡張がより広く可能になった
  - 例えば、Iteratorを継承してメソッドを２つ(hasNext, next)実装するだけで、foreach, map, foldなどcollectionクラスで使える便利なメソッドがすべて追加される。
  - linearlizationにより、C++などの多重継承で問題だった階層関係の順番の曖昧さを解決
Covariance, contravarianceの導入により、自然な型のマッピングが可能に

Covarianceの例 (List[Banana], List[Apple]はList[Fruit]のsubtypeとして扱える)

trait Fruit
class Apple extends Fruit
class Banana extends Fruit
// ListはList[+A] (covariance)として定義されている
val l : List[Fruit] = List[Banana](new Banana, new Banana) ++ List[Apple](new Apple)

関数に渡す関数の型なども、covariance, contravarianceのおかげで汎用的になり、コードの再利用性が高まっている. Function2[-A, +B]など。
Checked exceptionの廃止
- Javaではmethod(..) throws xxExceptionという形でexceptionの型までメソッドに指定しなくてはならないために、汎用的なライブラリを書く障害になっていた。例えば同じようなコードを再利用できる場所でも、DBException, IOExceptionなど内部で発生する例外の型が違うために、APIでは親クラスのthrows Exceptionを使うように設計しなくてはならず、APIを使う側では何のエラーだかわからないExceptionをcatchするコードを大量に書く必要があった。Scalaでは、throws … と書かなくても良くなり、programのmain関数内など、必要最低限の位置で例外をcatchすれば良いようになっている。
Pattern matchingの機能
- パターンマッチが実装されているおかげで、Visitorパターンをもう書かなくてもいいと思うだけでありがたい。
Type erasureへの対応
- Scalaのクラスファイルには、実は詳細な型情報を記したsignatureが埋め込まれており、JVMでtype erasureにより実行時に失われてしまうような型情報も、Scalaでは実行時に取り出すことができる（ただしScalaで書かれたクラスに限る）

Scalaの言語デザインについてためになる記事

Scalaを作ったMartin Odersky氏への以下のインタビュー記事を読むと、なぜScalaの言語が今のようなデザインになっているのかがよくわかる。妥協もあり、積極的に関数型言語、オブジェクト指向言語の融合をはかった部分もあり。Javaの不便を乗り越えるとともに関数型言語の良い面を取り入れるため最大限の努力をしている様子が伺える。

Classを作成する

2012-06-30T00:00:00+00:00

クラスを使うタイミング

多くのパラメータを同時に扱うとき
関数の引数が多くなったとき
実装の詳細を効率的に「忘れたい」とき
- 参考「考えることを減らせる様に書く」

クラスとは

以下のように考えれば良い。

データのまとまり。レコード
プログラムを実行するためのインターフェース (API)
計算に必要なデータをまとめるためのコンテクスト
機能のまとまり

Classの定義

例えば遺伝子のクラスは以下のように定義できる。

// 遺伝子クラスの定義
class Gene(val name:String, val chr:String, val start:Int, val end:Int, val strand:Strand)

valをパラメータ名に付けると、

val g = new Gene("gene1", "chr1", 10000, 20000, Strand.Forward)
g.name

とクラスの外部からパラメータにアクセスできるようになる。何もつけないとクラスの内部でしかパラメータにアクセスできない。Javaではパラメータにアクセスするためのgetter/setterを用意する、あるいはパラメータにpublic finalと付けるのが推奨されていたが、Scalaではパラメータにはvalを使ってimmutableにして副作用を避けるのが基本で、そうしたプログラミングが苦にならないよう配慮されている。

遺伝子を定義したらExon, Intronなども同じように定義できる。

// Exon
class Exon(val chr:String, val start:Int, val end:Int, val strand:Strand)

遺伝子もexonもゲノム座標中の区間として考えると同類なので、共通部分をGIntevalとして抽出してみる。

// genome中の区間[start, end)を表すクラス
class GInterval(val chr:String, val start:Int, val end:Int, val strand:Strand)

GIntevalクラスを継承するようにしてGene, Exonを書き換える。

このような大きな変更の前にはgit commitしておくとよい。commit前に変更を始めてしまった場合は、git stash -> git stash branch (new branch name)のコンボ。

Gene, ExonをGIntervalから継承させる。

class Gene(name:String, chr:String, start:Int, end:Int, strand:Strand) 
	extends GInteval(chr, start, end, strand)

class Exon(chr:String, start:Int, end:Int, strand:Strand) 
	extends GInteval(chr, start, end, strand)

Gene, Exonのコンストラクタの引数からvalが消えている。こうすると、親クラスと同名のパラメータが二重定義されないように、Scalaのコンパイラが頑張ってくれる。（変数を上書きしたい場合は、overrideを付ける)

入力量はさほど減っていないが、これでGene, Exonに共通する操作はGIntevalで定義すればよくなった。たとえば、区間の交差を判定するメソッドをGIntervalに追加すると、Gene, Exonで共通に使えるようになる。

class GInterval(val chr:String, val start:Int, val end:Int, val strand:Strand) {

	def intersectWith(other:GInterval) = {
		chr == other.chr && start < other.end && other.start <= end
	}
}

交差する区間をsweepする例で定義したクラスも、GIntervalから派生したクラス全般に適用できる。

ScalaのEnumerationは使うな

2012-06-29T00:00:00+00:00

ScalaのEnumerationは使いにくい

Scalaには列挙型としてEnumerationが用意されているが、以下の理由で使いにくい。

値にメソッドを定義できない
DNAというEnumerationを定義しても、個々の値は、DNA.Value型として扱わなければならないため、コードが不自然になる。

Enumerationを使ったコード例

object DNA extends Enumeration {
	val A, C, G, T, N = Value
}

val base : DNA.Value = DNA.A

ここでDNA.Value型を拡張することが許されていないので、ラベルとしての機能しか持たせることができない。

解決策

ScalaではJavaのコードが使えるので、Javaのenumを使うのが簡便だが、Scalaのコードだけで同様の機能を実装するには、objectを使うと良い。

コード例

DNAの塩基を表すコード。genome-weaverのDNA.scalaより抜粋。

object DNA {
  // objectで定義するとsingletonになる
  case object A extends DNA(0)
  case object C extends DNA(1)
  case object G extends DNA(2)
  case object T extends DNA(3)
  case object N extends DNA(4)

  // DNAの文字列をすべて並べる。
  val values = Array(A, C, G, T, N)
  // 用途によって別の集合を定義することもできる
  val exceptN = Array(A, C, G, T)

  private val codeTable = Array(A, C, G, T, N, N, N, N)
  
  def complement(code:Int) : DNA = codeTable((~code & 0x03) | (code & 0x04))
}

// sealedを付けると、DNAを拡張したクラスはこのファイル内でしか定義できない
// abstractを付けると、DNAを拡張したクラスはA, C, G, T, N以外にないことを保証できるので
// match文がexhaustive(すべてのケースを網羅)になる
sealed abstrat class DNA(val code:Int) {
    // A, C, G, T, Nをcase objectとすると、クラス名を表示するtoStringが実装される
	val name = toString
	// DNAクラスには自由にメソッドを定義できる
	def complement = DNA.complement(code)
}

このように定義すると、パターンマッチが問題なく使えるし、complementなど機能を充実させることもできる。

val l : DNA = DNA.G

l match {
  case DNA.A => ...
  case DNA.C => ...
  case DNA.G => ...
  case DNA.T => ...
  case DNA.N => ...
}

Scalaプロジェクトの作成

2012-06-28T00:00:00+00:00

ここに書いてあることを手早く実行するには、15分で始めるScalaがおすすめです。(2013年1月)

sbt

Scalaのコンパイル、テストの実行にはsbt (Simple Build Tool) (全然simpleではないが!) を使うのが2012年現在でのbest practice. IDEではあまりコンパイルしない。

SBT Getting Started Guilde

sbtでできること

Scalaのコンパイル
ライブラリの自動ダウンロード
コードライブラリの作成
- Scala, Javaで動くものはすべて使える
作成したライブラリを公開サーバーにアップロードする
テストの実行

sbtを使ったおすすめの最小構成

GitHub https://github.com/xerial/scala-cookbook/tree/min-project にすぐScalaの開発を始めるためのコードサンプルが置いてあります。

# min-projectブランチをmyprojectフォルダ内に取得
$ git clone git://github.com/xerial/scala-cookbook.git -b min-project myproject
$ cd myproject
# プロジェクトに必要なファイルをダウンロード、コンパイル、実行
$ bin/sbt run

ファイル・フォルダ構成

bin/sbt             sbtを実行するスクリプト (Windowsの場合は、sbt.bar)
bin/sbt-launch.jar  sbt本体
src/main/scala      Scala/Javaのソースコード置き場
src/main/resources  プログラム中で必要なデータファイルなど
src/test/scala      テストコード置き場
src/test/resources  テスト時に必要なサンプルデータファイルなど
project/Build.scala プロジェクトの設定
project/Project.scala  配布可能なパッケージを作成する
project/build.sbt   sbtのプラグインの設定
lib                 mavenなどで見つからないライブラリ(jar)の置き場
.gitignore          gitで管理しないファイルの設定

プロジェクトの定義

project/Build.scala

import sbt._
import Keys._

object ProjectBuild extends Build {
lazy val root = Project(
     id ="sample-project",  // Set your project name here (artifact-id)
     base = file("."),
     settings = 
       Defaults.defaultSettings 
       ++ Seq(PackageTask.packageDistTask) 
       ++ PackageTask.distSettings 
       ++ Seq(
       	  scalaVersion := "2.9.2",
	      organization := "org.utgenome.sample", // groupidを設定
       	  version := "1.0-SNAPSHOT",
       	  scalacOptions ++= Seq("-encoding", "UTF-8", "-deprecation", "-unchecked"),
    	  parallelExecution := true,
    	  crossPaths := false,
       	  libraryDependencies ++= Seq(
	         "org.codehaus.plexus" % "plexus-classworlds" % "2.4",
             "org.scalatest" %% "scalatest" % "2.0.M1" % "test"
	      // Add other libraries here
	  )
     )
   )
}

ライブラリの追加

Maven Repository Search で必要なライブラリの、group id, artifact id, version名を調べる。
Build.scalaのlibraryDependenciesに追加

例：sqlite-jdbc (SQLiteデータベースをJava/Scalaで使うライブラリ)を追加

libraryDependencies ++= Seq(
   (他のライブラリ...), 
   "org.xerial" % "sqlite-jdbc" % "3.7.2"
)

IntelliJのプロジェクトの作成

$ bin/sbt gen-idea

ライブラリの追加を行うごとにこのコマンドを実行するとよい。IntelliJでプロジェクトのリロードが必要になる。

ライブラリの作成

$ bin/sbt publish-local

$HOME/.ivy2/local/(group id)/(artifact id)-(version)以下に、コードライブラリ(jar, javadoc, source codeのjarなど)が作成される。作成されたものにテストコードは含まれない。

group idは、自分の持っているドメイン名に対応するものを使うのが慣習。utgenome.orgを保有しているなら、org.utgenomeがgroup id。

実行可能な形態での配布

$ bin/sbt package-dist を実行すると、target/distフォルダ内にそのまま配布できる形のプログラムができあがる。

フォルダの内容

target/distの中身は以下のようになっている。

bin/launch	              実行用スクリプト
bin/classworld.conf       classworldの設定ファイル。どのmain関数を呼ぶか、 
                          どのフォルダのライブラリを使うかが記述されている。
lib/scala-library.jar     scalaのlibrary本体
lib/classworld-2.4.jar    各種jarファイルを読み込むためのライブラリ。 
                          launchから呼び出される。
lib/sample-project-1.0-SNAPSHOT.jar   
                          作成したプログラム
VERSION                   プログラムのversion情報が書かれている

bin/launch、bin/classworld.confは、src/script以下に含まれている。プログラムの名前を変更したい場合は、 src/script/launchをsrc/script/(your program name)などに変更すること。プログラムのエントリポイント(main関数の場所)を変更するには、src/script/classworld.confの内容を変更するとよい。

Scalaを学ぶ

2012-06-28T00:00:00+00:00

Scala

Programming in Scala (2nd Ed) Scalaの開発者(Martin Odersky)らによる参考書。おそらくこれが一番良い教科書。CSの素養があればScalaのデザインについてより理解が深まる本。
Scala Documentation
Scala API
Scala School by Twitter inc.

Computer Sciences

Purely Functional Data Structures by Chris Okasaki
- Amazon.com, Google Books
- 関数型言語でimmutableで性能の良いデータ構造をどうデザインするか
- Listなど、同等の実装がScalaでも使われている
- Amortized complexity (償却計算量) の考え方が基本
Introuction to Algorithms. Third Edition for Kindle
- アルゴリズムの代表的教科書。研究室でも読書会を行っている
- この本を一通り読めば、十分な基礎力が付く
- あとは現場の問題（生物学など）に応用あるのみ

Other resources

SBT (simple build tool)　- Scalaのコードをビルドするのに（今のところ）一番便利。
ScalaTest: Tools for unit testing and tests by specifications. - Scalaでテストコードを書く。unit testingから、behaviour driven development (BDD), tests by specificationsなど、最近流行している形態のテストコードをサポートしている。
How to use Git: ProGit
Git Cheat Sheet

Scalaの文法一覧

2012-06-28T00:00:00+00:00

Scala Cheet Sheets (Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license)の和訳。


<h4 id="variables">変数 variables</h4>
`var x = 5`	変数
Good `val x = 5` Bad `x=6`	定数
`var x: Double = 5`	型を明示
<h4 id="functions">関数 functions</h4>
Good `def f(x: Int) = { xx }` Bad `def f(x: Int) { xx }`	関数の定義隠れた誤り：Unitを返す関数になってしまっている
Good `def f(x: Any) = println(x)` Bad `def f(x) = println(x)`	関数の定義構文の誤り。関数定義の引数にはすべて型が必要
`type R = Double`	型に別名(alias)をつける
`def f(x: R)` vs. `def f(x: => R)`	値呼び出し(call-by-value) 名前呼び出し(call-by-name) 遅延評価されるパラメータ
`(x:R) => x*x`	無名関数(anonymous function)
`(1 to 5).map(_*2)` vs. `(1 to 5).reduceLeft( _+_ )`	無名関数：`_` は関数の引数に順々にマッチする
`(1 to 5).map( x => x*x )`	無名関数で同じ引数を二度使う場合は、名前を付けなくてはならない
Good `(1 to 5).map(2)` Bad `(1 to 5).map(2)`	無名関数：中置記法を使う。誤解を避けるには `2*_` を使うとよい。
`(1 to 5).map { val x=_*2; println(x); x }`	無名関数：ブロック記法では、最後の式の評価結果が返る.
`(1 to 5) filter {_%2 == 0} map {_*2}`	無名関数：ブロック記法のパイプライン　(括弧記法でも使える).
`def compose(g:R=>R, h:R=>R) = (x:R) => g(h(x))` `val f = compose({_*2}, {_-1})`	無名関数：複数のブロックを渡す。外側の括弧{}が必要.
`val zscore = (mean:R, sd:R) => (x:R) => (x-mean)/sd`	カリー化（引数の一部を取り出した関数を作る）の平易な構文
`def zscore(mean:R, sd:R) = (x:R) => (x-mean)/sd`	カリー化の平易な構文
`def zscore(mean:R, sd:R)(x:R) = (x-mean)/sd`	カリー化の簡略構文。しかし、
`val normer = zscore(7, 0.4)_`	こちらの書き方では最後に`_`が必要で、部分関数(引数の一部に値を適用した関数)を作る
`def mapmake[T](g:T=>T)(seq: List[T]) = seq.map(g)`	汎用(generic)型
`5.+(3); 5 + 3` `(1 to 5) map (_*2)`	中置記法の簡略
`def sum(args: Int*) = args.reduceLeft(_+_)`	可変長引数
<h4 id="packages">パッケージ packages</h4>
`import scala.collection._`	ワイルドカード import.
`import scala.collection.Vector` `import scala.collection.{Vector, Sequence}`	パッケージ内でクラスを(複数)選択してimport.
`import scala.collection.{Vector => Vec28}`	クラスの名前を置き換えて import.
`import java.util.{Date => _, _}`	java.utilからすべてimportするがDateは除く.
`package pkg` ファイルの先頭で `package pkg { ... }`	パッケージを宣言
<h4 id="data_structures">データ構造 data structures</h2>
`(1,2,3)`	タプルの表記. (`Tuple3`)
`var (x,y,z) = (1,2,3)`	構造を分解して変数に束縛: タプルはパターンマッチで分解される.
Bad`var x,y,z = (1,2,3)`	隠れた誤り：各変数にタプル全体が代入される
`var xs = List(1,2,3)`	リスト (immutable).
`xs(2)`	添字による要素へのアクセス. (slides)
`1 :: List(2,3)`	cons.
`1 to 5` 以下と同じ `1 until 6` `1 to 10 by 2`	範囲指定の簡易構文
`()` (空の括弧)	Unit型だけを受け取る関数引数の型 (C/Javaでいうvoid).
<h4 id="control_constructs">制御構造 control constructs</h4>
`if (check) happy else sad`	条件分岐
`if (check) happy` same as `if (check) happy else ()`	条件分岐の簡略
`while (x < 5) { println(x); x += 1}`	whileループ
`do { println(x); x += 1} while (x < 5)`	do whileループ
`import scala.util.control.Breaks._` `breakable {` `for (x <- xs) {` `if (Math.random < 0.1) break` `}` `}`	break. (slides)
`for (x <- xs if x%2 == 0) yield x10` 以下と同じ* `xs.filter(_%2 == 0).map(_*10)`	for文による網羅: filter/map
`for ((x,y) <- xs zip ys) yield xy` 以下と同じ* `(xs zip ys) map { case (x,y) => x*y }`	for文による網羅: データ構造を分解パターンマッチしながら代入
`for (x <- xs; y <- ys) yield xy` 以下と同じ* `xs flatMap {x => ys map {y => x*y}}`	for文による網羅: 直積 cross product を取る
`for (x <- xs; y <- ys) {` ` println(“%d/%d = %.1f”.format(x,y, x*y))`<br>`}`	for文による網羅: 命令型スタイル sprintf-style
<h4 id="pattern_matching">パターンマッチ　pattern matching</h2>
Good `(xs zip ys) map { case (x,y) => xy }` Bad `(xs zip ys) map( (x,y) => xy )`	caseを関数定義内で使う
Bad `val v42 = 42` `Some(3) match {` `case Some(v42) => println("42")` `case _ => println("Not 42")` `}`	“v42” は任意のIntの値とマッチする変数名として解釈され、”42”が表示される.
Good `val v42 = 42` `Some(3) match {` case Some(`v42`) => println("42") `case _ => println("Not 42")` `}`	”`v42`” のように`で囲むと、既に存在するval `v42`と解釈され、”Not 42”が表示される.
Good `val UppercaseVal = 42` `Some(3) match {` `case Some(UppercaseVal) => println("42")` `case _ => println("Not 42")` `}`	大文字からはじまる`UppercaseVal` は既に存在するvalとして扱われ, 新しいパターン変数とは見なされない。`UppercaseVal`に入っている値(42)は`3`と比較されるので、”Not 42”が表示される.
<h4 id="object_orientation">オブジェクト指向 object orientation</h4>
`class C(x: R)` 以下と同じ `class C(private val x: R)` `var c = new C(4)`	コンストラクタの引数 - private
`class C(val x: R)` `var c = new C(4)` `c.x`	コンストラクタの引数 - public
`class C(var x: R) {` `assert(x > 0, "positive please")` `var y = x` `val readonly = 5` `private var secret = 1` `def this = this(42)` `}`	コンストラクタはクラスのbody. publicメンバを宣言値は取得できるが上書きできないメンバを宣言 privateメンバを宣言代替コンストラクタ
`new{ ... }`	無名クラス
`abstract class D { ... }`	抽象クラスの定義（生成できない）
`class C extends D { ... }`	継承したクラスの定義
`class D(var x: R)` `class C(x: R) extends D(x)`	継承したときのコンストラクタの引数。 (本当は自動的にパラメータを親に引き継げるようになる用になってほしい)
`object O extends D { ... }`	singletonを定義. (モジュールのように)
`trait T { ... }` `class C extends T { ... }` `class C extends D with T { ... }`	trait. traitをインターフェースとして使い、実装を提供. コンストラクタの引数を取らない場合. mixin-able
`trait T1; trait T2` `class C extends T1 with T2` `class C extends D with T1 with T2`	複数のtraitを組み合わせる
`class C extends D { override def f = ...}`	宣言を上書きするときはoverrideを付ける
`new java.io.File("f")`	オブジェクトを生成
Bad `new List[Int]` Good `List(1,2,3)`	型の誤り：抽象型は生成できない代わりに慣習として型を隠したfactoryを使う
`classOf[String]`	classの情報を得る
`x.isInstanceOf[String]`	型があっているか検査 (実行時)
`x.asInstanceOf[String]`	型のキャスト (実行時)
`x: String`	型の記述によるチェック (コンパイル時)

ファイルを読む

2012-06-28T00:00:00+00:00

scala.io.Sourceを使う

一行ずつデータを読む簡単なプログラムを書きたい場合には以下のように書ける。

# lineに各行のデータが代入される
for(line <- Source.fromFile("file name").getLines) { ... }

よりファイルを閉じるタイミングや読み書きの性能等を気にするなら以下を参考に。

バッファを経由して読む

Loan patternを使う。ファイルの入出力の機能はJavaのライブラリから借りてくる。

def open(fileName:String)(body:InputStream => Unit) : Unit = {
	// ディスクへの細かなアクセスを避けるため、バッファを介してファイルを読む
	val in = new BufferedInputStream(new FileInputStream(fileName))
	try
		body(in)
	finally 
		in.close  // 開けたら閉じる
}

open("myfile.txt") { f =>
	val buf = new Array[Byte](8192)  // 8kのバッファを用意
	def loop {
       val readBytes = f.read(buf)  // bufferにデータを読み込む
	   if(readBytes != -1) {  // -1が返るとこれ以上データはない
	      // use read data here
		  loop  
       }
	}
	loop
}

一行ずつ読む

BufferedReaderを使うと良い。

def open(fileName:String)(body:BufferedReader => Unit) : Unit = {
	// ディスクへの細かなアクセスを避けるため、バッファを介してファイルを読む
	val in = new BufferedReader(new FileReader(fileName))
	try
		body(in)
	finally 
		in.close  // 開けたら閉じる
}

open("myfile.txt") { f =>
	def loop {
       val line = f.readLine  // 一行ずつ読む
	   if(line != null) {  // nullが返ると読み込み終了
	      // use read data here
		  loop  
       }
	}
	loop
}

よりScalaらしい書き方

上記のコードではnullの扱いに気をつける必要があり、安全ではない。nullの使用をクラスの内部に閉じ込め、使う側はnullを気にせず一行ずつ操作できるIterator[String]を提供する形に書き換える。

// 一行ずつ読み込むiteratorを定義
class LineIterator(in:BufferedReader) extends Iterator[String] {
	private var nextLine : String = null
	def hasNext = {
		if(nextLine == null)
			nextLine = in.readLine
		nextLine != null
	}
	def next : String = {
		if(hasNext) {
			val line = nextLine
			nextLine = null
			line
		}
		else
			Iterator.empty.next
	}
}

def open[U](fileName:String)(body:Iterator[String] => U) {
	val in = new BufferedReader(new FileReader(fileName))
	try
		body(new LineIterator(in)) // Iteratorを返す
	finally 
		in.close  // 開けたら閉じる
}

open("myfile.txt") { f =>
	for(line <- f) { // Iterator#foreachが使える
		// 一行ずつ処理する
	}
}

Itertorの使用を途中で止めても、loan patternに閉じ込めて実行しているのでファイルがきちんと閉じられる。

プログラムの挙動をテストする

2012-06-28T00:00:00+00:00

プログラムが正しく動くかどうかを検証するには以下の方法が考えられます：

型が合っているかを確認する (Scalaのコンパイラが検査してくれる)
あらゆる入力に対して正しい結果を得るコードであることを証明する (soundness)。
そのコードで必要な結果をすべて計算できる(completeness)の検証。

最後の検証方法を毎回行うのは大変なので(アルゴリズムの論文を書くときには必須ですが)、手軽な方法として

コードを動かしてみて結果を確認する

このアプローチが経験的にうまくいくことが知られています。

ScalaTestによるテストコードの作成

Scalaでのテストコード作成には

が有名です。今回は構文が比較的わかりやすいScalaTestについて紹介します。

テストコードの実行

Scalaのプロジェクトの作成の例では、ScalaTestをすぐ使えるようになっています。libraryDepenedenciesに、

"org.scalatest" %% "scalatest" %% "2.0.M1" % "test"

を追加する記述があるのを確認してください。

# テストコードを実行
$ bin/sbt test

# ソースコードのの更新がある度にテストコードを繰り返し実行
$ bin/sbt "~test"

テストコードの作成

ScalaTestではいろいろなスタイルでテストコードが作成できます。以下は、WordSpecでの例：

// よく使う機能の組み合わせをtraitにまとめておくと便利
trait MySpec extends WordSpec with ShouldMatcher

class FASTATest extends MySpec {
  "A parser" should {
	 "read .gz fasta files" in {
	   ...
	 }
     "read tar.gz fasta files" taggedAs(Tag("debug")) in {
       ...
     }
  }
}

特定のテストコードを繰り返して実行

$ bin/sbt "~test-only *FASTATest"

タグを付けたテストコードのみを繰り返して実行

ScalaTestのテストコードには、taggedAs(Tag("tagname"))でタグを付けることができます。テストを実行する際に、以下のように指定されたタグが付いたテストのみを実行することができます。一部のコードに集中してデバッグしたいときに便利。

$ bin/sbt "~test-only *FASTATest -- -n debug"

Scalaのコレクションを使う

2012-06-28T00:00:00+00:00

準備

コードの取得

$ git clone git://github.com/xerial/scala-cookbook.git
$ cd scala-cookbook
$ git fetch
$ git checkout lesson1

IntelliJプロジェクトの更新

# bin/sbt gen-ideaを実行
$ make idea

テストコードの実行

# bin/sbt -Dloglevel=debug "~test-only *Lesson1Test" のコマンドを実行
$ make debug test="Lesson1Test"

Windows (DOS) プロンプトで実行する場合

scala-cookbook>bin\sbt -Dloglevel=debug "~test-only *Lesson1Test"

上記のコマンドで、ソースコードに変更を加えるたびに、コンパイル、テストを実行を自動的に行ってくれる。

課題

以下の作業をするコードを作成

UCSCのDownloadページから遺伝子情報(Annotation database -> refGene.gz) のファイルをダウンロード
ファイルに保存(保存する位置を決めておく。二回目以降は、ファイルがなければダウンロードするコードに)
gzipを解凍しながらtab区切りのテキストをparseして、collectionに格納
作成した遺伝子リストを使って、Array, Map, Set, Tupleの使い方を学ぶ

参考資料

時間を見つけて以下の資料を眺めておくと良い：

データセット

ヒトゲノムの遺伝子ファイル：http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/refFlat.txt.gz サンプルデータ:

C17orf76-AS1	NR_027160	chr17	+	16342300	16345340	16345340	16345340	5	16342300,16342894,16343498,16344387,16344681,	16342728,16343017,16343567,16344444,16345340,

各行が、commonName, refSeqName, chr, strand, start, end, cdsStart, cdsEnd, exonCount, exonStarts, exonEnds の順にtab区切りで並んでいる。 exonStarts, exonEndsはmicro formatになっており、comma区切り。ただし、commaが最後に１つ余計についているので注意が必要。

テストコードの実行

src/test/scala/Lesson1Test.scala

# bin/sbt "~test-only *Lesson1Test" -Dloglevel=debugを実行
$ make debug test=Lesson1Test

今回のサンプルコード

src/main/scala/Lesson1.scala

コード中のdebug, info, timeなどのメソッドはScalaコードのデバッグ用に私が普段使っているもの。

データセットの準備

遺伝子データをダウンロードする

ほとんどJavaの道具を使っている。チャンネルを開いて、省メモリでファイルに書き出す。

val input = Channels.newChannel(new URL(url).openStream)
val out = new FileOutputStream(outputFile).getChannel
try {
  out.transferFrom(input, 0, Integer.MAX_VALUE)
}
finally {
  input.close
  out.close
}

gzipを解凍する

def gunzipStream(file: File) = new BufferedInputStream(new GZIPInputStream(new FileInputStream(file)))

それぞれのクラスについては、Java APIを参照のこと。

ファイルを一行ずつ読み込む

for (line <- Source.fromInputStream(gunzipStream(refFlat)).getLines) {
   // do something here
}

遺伝子を表すクラスを定義

遺伝子はパラメータ数が多いので、クラスを定義すると良い。クラスの定義には変数：型のリストを引数として与えるだけでよい。

class UCSCGene(val name: String,
             val refSeqName: String,
             val chr: String,
             val strand: String,
             val start: Int,
             val end: Int,
             val cdsStart: Int,
             val cdsEnd: Int,
             val exonCount: Int,
             val exonStarts: Array[Int],
             val exonEnds: Array[Int]) {
    override def toString = "name:%s refSeqName:%s, %s, %s:%d-%d".format(name, refSeqName, strand, chr, start, end)
}

クラス定義の詳細については次回以降に。toStringメソッドを定義し、自分の好みのメッセージを表示をさせるようにすると、loggerやIDEでデバッグするときにオブジェクトの内容が表示されるので便利。

遺伝子データの構文解析

object UCSCGene {
    def parse(line: String): Option[UCSCGene] = {
      def splitByComma(s: String): Array[Int] = {
        val ss = if (s.endsWith(",")) s.slice(0, s.length - 1) else s
        ss.split(",").map(x => x.toInt)
      }
      val c = line.split("\\t")
      if (c.length != 11) {
        error("Wrong number of columns:%d\n%s", c.length, line)
        // Report None instead of issuing an error
        None
      }
      else {
        Some(new UCSCGene(c(0), c(1), c(2), c(3), c(4).toInt, c(5).toInt, c(6).toInt, c(7).toInt, c(8).toInt, splitByComma(c(9)), splitByComma(c(10))))
      }
    }
}

parseする際、データにエラーがあっても例外を飛ばしていない。Optionを使うことで、コードの流れを妨げないようにできる。（上記のコードはtry..catchで囲んでよりエラーに強くできますが、簡単のため省略）

正しく読めた -> Some(parseした結果)
正しく読めなかった -> None

コレクションを使う

コレクションを構築する

サイズの小さいデータなら、以下のように作成できる。

Array(1, 3, 5)
List("A", "C", "G", "T")
Map(0 -> "A", 1 -> "C", 2 -> "G", 3 -> "T", 4 -> "N")

手で書き下せない大きなデータに大しては、Builderを用いてコレクションを作成する

mkStringで、コレクションの内容の表示

Array(1, 3, 5).mkString(", ") //  "1, 3, 5"

問題：mkStringと同等の関数を作成してみよ。StringBuilderを使うと良い。

val b = new StringBuilder
b += ...

Array

遺伝子情報の配列を作成。Builderに+=で要素を追加していき、最後にresultで配列を取り出す。

// Create an array of genes
val b = Array.newBuilder[UCSCGene]

// Read the unzipped file line by line
for (line <- Source.fromInputStream(gunzipStream(refFlat)).getLines;
     gene <- UCSCGene.parse(line)) {  // pattern match is used
  b += gene
}
b.result

Arrayへのアクセス：apply, update

val a = Array(0, 1, 3)

a(0) はa.apply(0)のsyntax sugarで、a(0)=10はa.update(0, 10)のsyntax sugarになっている。

for loop

上記は二段ループの例。Scalaのforループでは、flatMapが使われている。

for(x <- list) { ... }

は、

list.foreach(x => ...)

あるいは、yield文(後日解説)があると

list.flatMap(x => ...)

と同等。

Option

Optionの値に対してfor loopを使うと、

for(line <- Some(x)) { ... }

は、

Some(x).foreach(x => ... )

と変換される。Noneの場合はどうなるか？というと、Option#foreachの定義を見てみると、

def foreach[U](f: A => U) {
	if (!isEmpty) f(this.get)
}

となっている。従って、Someの値のみがループ中で処理され、Noneの要素は無視されることになる。collectも同様に、for文の本体はpartial function(一部分の入力のみに対して定義される関数)と考えることができる。つまり不正な入力に対して例外処理を書く手間を省ける。

Sorting

def sortGenes(in:Array[UCSCGene]) : Array[UCSCGene] = {
	in.sortBy(gene => (gene.chr, gene.start))
}

sortBy, sortedなどが使える。 sortByでは、sort keyとして使うデータをTupleにして返す。sortedを使うと、２つの要素を比較するOrdering関数(全順序を定義するもの)を使える。

参考 ArrayOpsで定義されているsort関連の関数

map

コレクションのそれぞれの要素に対して関数を適用。

遺伝子名だけを取り出す例:

val genes = loadUCSCGene
val geneNames = genes.map(g => g.name)

filter

コレクションの要素から条件に合うものだけを取り出す：

21番染色体のデータのみを取り出す:

val genesInChr21 = genes.filter(g => g.chr == "chr21")
debug("genes in chr21:\n%s", genesInChr21.take(5).mkString("\n"))

reduce

要素と要素を合わせてコレクションを縮めていく(reduce).

Exonの数をカウントする。以下はすべて同じ結果になる

val exonCount = genes.map(_.exonCount).reduce(_ + _)
val exonCount2 = genes.map(_.exonCount).reduce((a, b) => a + b)
val exonCount3 = genes.map(_.exonCount).sum

fold

初期値を与え、それと各々の要素を折り畳んでいく(fold)

遺伝子ごとのExonの数の平均を計算する:

val (count, sum) = genes.foldLeft((0, 0))((s, gene) => (s._1 + 1, s._2 + gene.exonCount))
val exonCountAve = count / sum

groupBy

遺伝子を染色体ごとにグループ分け。

val geneTable = genes.groupBy(_.chr)
// geneTable("chr21") などでアクセスできる

この例では、Map[String, Array[UCSCGene]]が作成される。

Map

key, valueのペアによるデータ構造。keyの値による検索をO(log N)に。

遺伝子名 -> UCSCGene の索引を作る:

val geneIndex = {
  val b = Map.newBuilder[String, UCSCGene]
  for(g <- genes) {
    b += g.name -> g
    b += g.refSeqName -> g
  }
  b.result
}
val hox1 = geneIndex("HOXA1")

Scalaに限らず一般のプログラミングでも、mutable（変更可能）な変数はなるべく表に出さずに使うのがバグを減らす秘訣。builderクラスの中身は変化しうるので、geneIndexの作成時には、コードブロックで囲んで、builderクラスの使用を外側から隠すようにしている。

Set

重複を許さない集合を扱うときに使う。

染色体名の集合を計算:

val chrSet = {
  val b = Set.newBuilder[String]
  for(g <- genes) b += g.chr
  b.result
}

特定の染色体名のみを取り出す:

val chrNamePattern = """chr([0-9]+|[XY])""".r.pattern
val commonChrSet = chrSet.filter(chr => chrNamePattern.matcher(chr).matches())

Tuple

遺伝子情報の一部だけを取り出す

val tuples = genes.map(g => (g.name,  g.chr, g.strand, g.start, g.end))

Tupleはあえてクラスを作るまでもないときに、簡易データ構造として使われる。データ操作が入り組んでくると、クラスを作成しパラメータに名前を与えてあげる方が可読性が良くなることも多い。

tupleの各要素には、_1, _2, …などでアクセスし、要素をコレクションとして辿るにはtuple.productIteratorを呼び出す。

並列化

Parallel collection

Scalaでのマルチコア並列化は驚くほど簡単。コレクションのpar関数を呼び出すだけ。

遺伝子データをテキストに書き出す例：

single coreで実行

genes.map(_.toString)

multi core で実行

genes.par.map(_.toString)

実行時間を比較してみよう。

Java での実行時間の計測は、JVMの実行時最適化や、GCなどの影響により、コードの実行順に大きく左右される。ベンチマークを取るときは、コードの実行順を入れ替える、何十回か計算を繰り返して平均を取るなどの工夫が必要。サンプルコード中のtime(...), block(...)はそのようなベンチマークを取る手助けをしてくれる。repeat回数を指定できる。

コードの実行時間を計測。3回繰り返す。

time("gene report", repeat=3) {
  block("single core") {
    val geneReport = genes.map(_.toString)
  }
  block("parallel") {
    val geneReport = genes.par.map(_.toString)
  }
}

計測結果 (4 coresの場合) [TimeMeasure$] [gene report] total:1.529 sec., count:3, avg:0.510 sec., min:0.322 sec., max:0.873 sec. [single core] total:1.173 sec., count:3, avg:0.391 sec., min:0.236 sec., max:0.697 sec. [parallel] total:0.350 sec., count:3, avg:0.117 sec., min:0.086 sec., max:0.171 sec.

インデックス付きのループ

2012-06-28T00:00:00+00:00

配列へのアクセス、要素のrankなど、添字（インデックス）を使いたい場合、

C++/Javaなどでの書き方

for(int i=0; i<10; ++i) {
	printf("%d-th element:%s\n", i, array[i])
}

Scalaでも添字を使うことはできる。

val l = Array("A", "B", "C")
for(i <- 0 until l.length) 
	println("%d-th element:%s".format(i, l(i)))

ここでzipWithIndexを使うと、添字の指定や配列の長さの範囲の指定が省けて便利。

for((elem, i) <- l.zipWithIndex) 
	println("%d-th element:%s".format(i, elem))

zipWithIndexの動作

scala> val l = Array("A", "B", "C")
l: Array[java.lang.String] = Array(A, B, C)

scala> l.zipWithIndex
res0: Array[(java.lang.String, Int)] = Array((A,0), (B,1), (C,2))

forループ内では(elem, i)と(A, 0), ...のパターンマッチが行われている。

Scala Quick Start

2012-06-27T00:00:00+00:00

サンプルコードの取得

Gitの設定

$ git config --global core.eol lf 
# Windowsで改行文字がCRLFに変換されるのを防ぐ
$ git config --global core.autocrlf false

サンプルコードの取得

$ git clone git://github.com/xerial/scala-cookbook.git 
$ cd scala-cookbook 
# lesson0 branchのコードを取り出す
$ git checkout lesson0
# scalaコードの実行に必要なライブラリをダウンロードし、
# target/distにプログラム全体を作成後、$HOME/local以下にインストール
$ make install
# scalaコードを実行するスクリプトを起動
$ ~/local/bin/scala-cookbook
Hello Scala Cookbook!

Java 1.6以上が必要。Macでgitをインストールするには、Mac Portsをインストール後、sudo port install git-coreとする。Windowsで頑張る場合は、cygwin をインストール（インストール時に、GNU Make, git, sshなどを同時にインストールすること）。コンソールはminttyが良い。
Windowsユーザーでcygwinを使ったmake installがどうしてもうまく動かない場合。コマンドプロンプトより、bin\sbtを起動してもよい。

IntelliJ IDEAをインストールする

IntelliJ IDEA Community Edition をダウンロード。2012年6月の時点で最強のScala開発環境。ただし、Scalaで開発を始めるにはプラグインのインストールが必要。

File -> Settings -> Plugins -> Scala にチェックを入れる

Eclipseを使いたい場合は、Scala IDE for Eclipseをインストールすると良い。

改行文字の設定

File -> Settings -> Code Style -> General -> Line separator (for new files) でUNIXを選択する。

IntelliJ のプロジェクトファイルを作成

# bin/sbt gen-idea を実行
$ make idea

File -> Open Project で、scala-cookbookのフォルダを選択

File -> Project Structure -> Project SDK を確認。赤文字になっている場合、New -> JSDKを選択し、JDKがインストールされているフォルダを選択する。C:\Program Files\Java\jdk1.7.0 (Windows), /Library/Java/Home (MacOS X)など。

scala-cookbookの中身

src/main/scala/ScalaCookbook.scala

package xerial.scb 

object ScalaCookbook {
  def main(args:Array[String]) {
   println("Hello Scala Cookbook!")
  }
}

上記のコードを実行するスクリプトが$HOME/local/bin/scala-cookbookとしてインストールされる。

main関数の中身を書き換えて、make installを実行すると再コンパイルされる。 # bin/sbt package-distを実行後、target/dist内の内容を$HOME/local以下にコピー $ make install $ ~/local/bin/scala-cookbook

ScalaTestでテストコードを作成する

毎回、make installを実行するのは手間なので、テストコードを作成し、そこからプログラムの挙動を確認する。

初期設定: IntelliJで　Settings -> Compiler -> Scala Compiler -> Project FSC -> scala-2.9.2 (version 2.9.2)を選択。FSCはFast Scala Compiler. コンパイル時間を短縮してくれる。

ScalaTest を使って新しいテストを作成テストを作成するフォルダは、src/test/scalaを選択。プログラム本体とテストコードを分離しておくのが慣習。

Testing libraryではScalaTestを選択する。

テストコード例

src/test/scala/ScalaCookbookTest.scala

package xerial.scb
import org.scalatest.FunSuite

class ScalaCookbookTest extends FunSuite {
  test("run cookbook") {
    ScalaCookbook.main(Array.empty)
  }
}

テストコードを実行する

テストしたいコードの上で右クリック -> Run … を選択

テストコードを実行しながら開発する

ソースコードを更新 -> コンパイル -> テストコードを実行　というサイクルを繰り返すときに便利。

# wildcardを用い、特定のテストのみを実行する(test-only)。~は繰り返して実行するときに付ける
$ bin/sbt "~test-only *ScalaCookbookTest"  
Using C:\Users\leo\.sbt\0.11.3 as sbt dir, -sbt-dir to override.
[info] Loading project definition from C:\Users\leo\work\git\scala-cookbook\project
[info] Set current project to scala-cookbook (in build file:/C:/Users/leo/work/git/scala-cookbook/)
[info] Compiling 1 Scala source to C:\Users\leo\work\git\scala-cookbook\target\classes...
[info] Compiling 1 Scala source to C:\Users\leo\work\git\scala-cookbook\target\test-classes...
Hello Scala Cookbook!
[info] ScalaCookbookTest:
[info] - run cookbook
[info] Passed: : Total 1, Failed 0, Errors 0, Passed 1, Skipped 0
[success] Total time: 6 s, completed 2012/06/12 11:28:19
1. Waiting for source changes... (press enter to interrupt)

Loan Pattern

2012-06-27T00:00:00+00:00

プログラミングでは、「リソースを取得したら解放する」パターンが頻出します。例えば、

ファイルを開いたら閉じる
dbへのコネクションを開いたら閉じる
ロックを取得したら、リリースする

などがあります。コード中でこの「借りたら返す」を確実に行うのがLoan Patternです。

例外安全でない例

def query(sql:String) = {
   val connection = db.getConnection
   val result = connection.query(sql)  // もしクエリの実行中に例外が発生したら？
   connection.close       // このコードが確実に呼ばれる保障がない
   result
}

例外安全だがコードの再利用がしにくい書き方

try … finallyで囲むと例外(exception)に強いコードが書ける。

def query(sql:String) = {
   val connection = db.getConnection
   try 
	   connection.query(sql)  // クエリの実行中に例外が発生しても。。。
   finally	   
	   connection.close       // このコードは確実に呼ばれる
}

しかし、実際にはqueryだけでなくupdateなどもしたいはず。

def update(sql:String) = {
   val connection = db.getConnection
   try 
	   connection.update(sql)  
   finally	   
	   connection.close       
}

同じようなコードなのに、繰り返して書かなくてはいけない。

Loan Pattern

Scalaではコードブロック（つまり関数）を引数として渡せるので、パターンの再利用が可能

// loan pattern
def open[A](body:Connection => A) : A = {
	val connection = db.getConnection
	try 
		body(connection)
	finally 
		connection.close
}

// loan patternの利用
def query(sql:String) = open(_.query(sql))
def update(sql:String) = open(_.update(sql))

ループを書く

2012-06-27T00:00:00+00:00

0, 1, … , 100までの数字の和を求める

while

var i = 0
var sum = 0
while(i <= 100) {
	sum += i
	i += 1
}

２つのvarが登場しているため不安が残る。少し安全に書くには以下のように関数内に処理を閉じ込めると良い。

def aseries(limit:Int) = {
	var i = 0
	var sum = 0
	while(i <= limit) { 
		sum += i 
		i += 1
	} 
	sum
}
aseries(100)

recursion 再帰を使う

関数の中で関数を定義しScalaらしいコードに。

def aseries(limit:Int) = {
   def loop(i:Int) : Int = if(i <= limit) i + loop(i+1) else i
   loop(0)
}
aseries(100)

このような形の再帰は末尾再帰と呼ばれ、Scalaコンパイラは自動的にwhile文を使った式に最適化してくれる。本当に末尾最適化されているか確認するためには、@tailrecアノテーションをつけておくこと。末尾再帰最適化できない場合コンパイルエラーになる。

@tailrec
def aseries(limit:Int) = {
   def loop(i:Int) : Int = if(i <= limit) i + loop(i+1) else i
   loop(0)
}
aseries(100)

for loop

for loopはおなじみ。

var sum = 0
for(i <- 0 to 100)
	sum += i

より短く,

var sum = 0
(0 to 100) foreach (sum += _)

varの使用を避けてより関数型言語らしく

(0 to 100) reduce (_ + _)
(0 to 100) fold(0)(_ + _)  // 初期値を明示したい場合

参考: 0 until 100の不思議