田中智也, "複合圧縮度によるソースコード流用の検出," 修士学位論文, 奈良先端科学技術大学院大学, 2012年.
ID 847
分類 学位論文
タグ
表題 (title) 複合圧縮度によるソースコード流用の検出
表題 (英文)
著者名 (author) 田中 智也
英文著者名 (author)
キー (key) Tomoya Tanaka
学校名 (school) 奈良先端科学技術大学院大学
出版社住所 (address)
刊行月 (month) 2
出版年 (year) 2012
URL
付加情報 (note)
注釈 (annote)
内容梗概 (abstract) 本論文では,2 つのソースコード間での流用の検出を目的として,ソースコー
ド圧縮の度合いを評価する新しい尺度「複合圧縮度」を提案すると共に,提案尺
度に基づく流用検出の実用性を実験的に評価する.一般に,重複する文字列を多
く含むソースコードを圧縮すると,そのサイズは大きく減少する.この性質を利
用して,提案尺度では,対象とする2 つのソースコードそれぞれの圧縮後のサイ
ズから,それら2つを連結した状態での圧縮後のサイズを差し引くことで,対象
ソースコード間での流用の有無を評価する.なお,圧縮には,辞書式圧縮法であ
るLZMA アルゴリズムを用いる.C もしくはC++で記述されたオープンソース
ソフトウェア(Open Source Software: OSS) から作成した190 組のソースコード
ペアに提案尺度を適用した結果,複合圧縮度を用いたロジスティック回帰モデル
により,適合率0.96,再現率0.79,F 値0.87 の判別精度が得られた.近年,商用
ソフトウェアの開発では,開発コストの削減やソフトウェアの高信頼性確保を目
的として, OSS の流用が増えている.流用においては,ソースコードの利用や
改造に関する規則や制限(ライセンス)の遵守が求められるが,ソースコード管
理が煩雑になると確認漏れが起こり,出荷後にライセンス違反が指摘される事例
が増えている.提案尺度は,ソースコード流用の有無をソフトウェア出荷前に確
認することを容易にし,意図しない,あるいは,故意のライセンス違反の防止に
大きく貢献することが期待される.
論文電子ファイル 481.pdf (application/pdf) [一般閲覧可]
BiBTeXエントリ
@masterthesis{id847,
         title = {複合圧縮度によるソースコード流用の検出},
        author = {田中 智也},
        school = {奈良先端科学技術大学院大学},
         month = {2},
          year = {2012},
}