最長重複文字列問題を scala をつかって解いてみる

先日買った WEB+DB vol.67 の「関数プログラミング」の中の記事
記事の中では Haskell を使って問題を解いているのですが、
scala の勉強の為同じ問題を scala を使って考えてみました。

まだ scala のお作法わかってないのでドキュメント見ながらの結果オーライになってます。。。

今回の最長重複文字列問題だけの部分だけでなく特集全体で関数プログラミングの考え方の記事として
非常に興味深い記事となっています。

WEB+DB PRESS Vol.67

作者: 川口耕介,山本和彦,大和田純,白土慧,太田昌吾,個々一番,Shawn M Moore,清水亮,じゅんいち☆かとう,小野修司,おにたま,神林飛志,杵渕朋彦,中島聡,齋藤正浩,高橋征義,ミック,みやけん,WEB+DB PRESS編集部
出版社/メーカー: 技術評論社
発売日: 2012/02/24
メディア: 大型本
購入: 12人クリック: 230回
この商品を含むブログ (24件) を見る

最長重複文字列問題

最も長く重複している部分文字列を探しだす問題らしい。
もともとは『珠玉のプログラミング』にある文字列の問題。

例えば今回の題材の場合 mississippi という文字列があった場合、
この文字列の中で重複している最大の部分文字列としては issi という文字列になります。

これを以下のような手順で解いていきます。

接尾辞リストを作る
ソートする
隣合う要素を組にする
組となっている２つの文字列の共通部分の長さを求める
共通部分が一番長い要素を取り出す
共通部分のみを残す

これらを scala つかって同じように作って行きたいと思います。

接尾辞リストを作る

今回の問題を解く鍵となる接尾辞リストの作成ですが、scala でも tails を使って作成出来そうです。
tails の結果は Iterator型なので toList にて結果を List 型にしました。

val moji = "mississippi"
moji.tails.toList

この方法がいいのかはわかりませんが

scala> moji.tails.toList
res0: List[String] = List(mississippi, ississippi, ssissippi, sissippi, issippi, ssippi, sippi, ippi, ppi, pi, i, "")

こういう接尾辞リストとしたかったのでこうやってみました。

ソートする

リスト型は sorted メソッドを持っているのでこれを使ってソートします。

moji.tails.toList.sorted

scala> moji.tails.toList.sorted
res1: List[String] = List( "", i, ippi, issippi, ississippi, mississippi, pi, ppi, sippi, sissippi, ssippi, ssissippi)

隣合う要素を組にする

隣り合う組通しをペアにします。
これは記事と同じように makepair というペアを作る関数を作ってみます。
ここは定番の zip を使っています。

def makepair(list1:List[String]) = list1.zip(list1.tail)

scala> makepair(res1)
res2: List[(String, String)] = List( ( "",i), (i,ippi), (ippi,issippi), (issippi,ississippi), (ississippi,mississippi), (mississippi,pi), (pi,ppi), (ppi,sippi), (sippi,sissippi), (sissippi,ssippi), (ssippi,ssissippi))

組となっている２つの文字列の共通部分の長さを求める

組となっている２つの文字列の共通部分を求めるのに、comlen という関数をつくってみます。
この関数は (文字,文字) というタプルを引数として、受け取る関数で文字列の共通部分の長さを返します。
scala でどうやるのが効率的か思いつかなかったので、記事の Haskell と同じような方法でやってみました。 toList メソッドで List 型に変換して二つのリストを zip で処理しその後 takeWhile をつかってタプルの一番目の値と二番目が同じものを選びリストにしその配列の長さを length メソッドをつかって求めます。

ここは正直この方法がscala としていいのかわかりません。
ほかの簡単な方法も思いつかなかったので記事と同じようにリストとして扱って
共通部分の長さを求めてみました。
これより scala なりの別のよい方法があるのかもしれません。

def comlen(t:(String,String)):Int = {
	 t._1.toList.zip(t._2.toList).takeWhile{tp => (tp._1 == tp._2)}.length
}

共通部分が一番長い要素を取り出す

こちらも chooseMax 関数を作って実行します。
この関数は (文字,文字) のタプルのリストを引数としてとり、その中から共通部分の長さの一番大きなものを取り出します。
こちらは maxBy をつかってタプルの一番目の要素の一番大きなものを抽出しております。

def chooseMax(plist:List[(String,String)]) = {
	  plist.map{t => (comlen(t),t._1)}.maxBy(_._1)
}

共通部分のみを残す

共通部分のみを取り出す関数 extract も用意します。
こちらもタプルを引数として受け取り二番目の文字から一番目の数字の数だけ取り出します。
この処理には take をつかっております。
List1.take(3) だと List1から3つの要素と取り出すことになります。

scala> "hogehoge".take(3)
res3: String = hog

こんな風なかんじ

def extract(t1:(Int, String)):String = {t1._2.take(t1._1)}

まとめソース

// 最長重複文字列 を 抽出する
// maxcomstr.scala
 
val moji = "mississippi"
println(moji)

// 隣合う要素を組にする関数
def makepair(list1:List[String]) = list1.zip(list1.tail)

// 組となっている２つの文字列の共通部分の長さを求める関数
def comlen(t:(String,String)):Int = {
	 t._1.toList.zip(t._2.toList).takeWhile{tp => (tp._1 == tp._2)}.length
}

// 共通部分が一番長い要素を取り出す関数
def chooseMax(plist:List[(String,String)]) = {
	  plist.map{t => (comlen(t),t._1)}.maxBy(_._1)
	}

// 共通部分のみ抽出する関数
def extract(t1:(Int, String)):String = {t1._2.take(t1._1)}

// moji.tails.toList.sorted にて 
// 接尾辞リストを作ってソートした結果を関数に渡し結果を出力
println("Max common Strings : " + extract(chooseMax(makepair(moji.tails.toList.sorted))))

実行結果

% scala maxcomstr.scala
mississippi
Max common Strings : issi

Takuya71 のぶろぐ

外資系ソフトウェア会社で働いてます、認定スクラムマスター

最長重複文字列問題を scala をつかって解いてみる

最長重複文字列問題

接尾辞リストを作る

ソートする

隣合う要素を組にする

組となっている２つの文字列の共通部分の長さを求める

共通部分が一番長い要素を取り出す

共通部分のみを残す

まとめソース

実行結果

最長重複文字列問題

接尾辞リストを作る

ソートする

隣合う要素を組にする

組となっている２つの文字列の共通部分の長さを求める

共通部分が一番長い要素を取り出す

共通部分のみを残す

まとめ ソース

実行結果

まとめソース