12/08/2018, 17:54

Học enumerable trong Ruby

Với bất kì ngôn ngữ lập trình nào cũng như dự án nào thì xử lý dữ liệu luôn là một trong những vấn đề hiện hữu. Dạo gần đây dự án của mình gặp phải trường hợp xử lý khối lượng dữ liệu rất lớn. Yêu cầu xử lý dữ liệu phức tạp. Phải xử lý trên cả client và server. Từ đó mình nhận ra một điều, xử lý ...

Với bất kì ngôn ngữ lập trình nào cũng như dự án nào thì xử lý dữ liệu luôn là một trong những vấn đề hiện hữu. Dạo gần đây dự án của mình gặp phải trường hợp xử lý khối lượng dữ liệu rất lớn. Yêu cầu xử lý dữ liệu phức tạp. Phải xử lý trên cả client và server. Từ đó mình nhận ra một điều, xử lý trên ruby sung sướng hơn trên javascript nhiều. Ở đây mình xử lý nhiều nhất là array, string, hash, tất cả là nhờ có Enumerable. Enumerable trong Ruby có thể gọi là là interface được những class như Array, Hash, Set implement.Theo đúng thuật ngữ Ruby, thì module Enumerable được những class trên include.

Có thể thấy việc thành thạo các phương thức trong Enumerable là bước tiến lớn khi học Ruby. Tiếp đó bạn có thể dễ dàng chuyển ang Java 8, Scala, Erlang v.v. bạn sẽ thấy rất thoải mái, vì chúng cũng có mặt trong thư viện chuẩn của các ngôn ngữ này. Nhưng theo mình thì đó cũng là đôi chút gì ấy khiến bản thân chúng ta lười đi, vì nếu cần xử lý thuần tuý trong những ngôn ngữ không function, thư viện hỗ trợ, done, ta đâu biết các chúng xử lý như nào. Ví dụ đơn giản nhất mà ai đọc qua tài liệu về ruby cũng biết được:

names = ['Lee', 'Kim', 'Sun']

for name in names
  puts name
end

Thay vì viết như trên để in ra các phần tử của names, ta có thể viết ngắn gọn:

names = ['Lee', 'Kim', 'Sun']

names.each { |name| puts name }

Quá đơn giản!

Nhưng thôi, học các dễ trước mới học cái khó, trong bài viết này mình sẽ giới thiệu vài method tiện dụng của Enumerable, nếu dùng chương trình sẽ súc tích và sáng sủa. Phần ví dụ dùng array cho thống nhất, nói chung chúng vẫn đúng nếu thay array bằng hash hay cái gì đó đã include module này.

any? và all?

Khi muốn kiểm tra trong tập hợp có ít nhất một phần tử thỏa mãn tính chất nào đó hay không, ta dùng any? Khi muốn kiểm tra xem tất cả phần tử có thỏa mãn tính chất nào đó hay không, ta dùng all?

a = [1, 2, 3]
at_least_less_than_2 = a.any? { |e| e < 2 }
=> true
all_less_than_2 = a.all? { |e| e < 2 }
=> false

chunk

Khi muốn xử lý từng phần tử , gom chúng lại dựa trên điều kiện trong block

Ví dụ gom các số lẻ và các số chẵn liên tiếp?

[3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5].chunk { |n|
  n.even?
}.each { |even, ary|
  p [even, ary]
}
#=> [false, [3, 1]]
#   [true, [4]]
#   [false, [1, 5, 9]]
#   [true, [2, 6]]
#   [false, [5, 3, 5]]

Method này đặc biệt hữu ích với những chuỗi các phần tử đã được sắp xếp. Ví dụ sau tính số từ cho mỗi chữ cái đầu tiên:

open("/usr/share/dict/words", "r:iso-8859-1") { |f|
  f.chunk { |line| line.ord }.each { |ch, lines| p [ch.chr, lines.length] }
}
#=> ["
", 1]
#   ["A", 1327]
#   ["B", 1372]
#   ["C", 1507]
#   ["D", 791]
#   ...

map/collect

Biến array thành array cùng kích thước: dùng map

Biến array a1 thành array a2 có cùng số phần tử, dùng map (có alias là collect) rất tiện. Ý tưởng của nó chính là phép ánh xạ y = f(x) trong toán học, để biến từng phần tử x của a1 thành phần tử y của a2.

Thay vì có thể viết:

names =['Lee', 'Kim', 'Sun']
uppercase_names = []

names.each do |name|
  uppercase_names << name.upcase end uppercase_names #=> ["LEE", "KIM", "SUN"]

Dùng collect ta sẽ viết ngắn gọn lại được thành

names = ['Lee', 'Kim', 'Sun']

uppercase_names = names.collect { |name| name.upcase }

uppercase_names
#=>['LEE', 'KIM', 'SUN']

Ví dụ khác, tương tự từ a1 chứa tên ảnh, ta muốn tạo a2 chứa URL có dạng y = http://my/path/x. Nếu chỉ quen với C, ta viết như sau:

a1 = ['asian.jpg', 'ebony.jpg']

a2 = []  # Initialize
a1.each do |e|
  a2 << "http://my/path/#{e}"
end

Nếu dùng map:

a1 = ['asian.jpg', 'ebony.jpg']
a2 = a1.map { |e| "http://my/path/#{e}" }
#=> ["http://my/path/asian.jpg", "http://my/path/ebony.jpg"]

collect là alias của map, nếu ko đưa ra block, collect sẽ return enumerator

(1..4).map { |i| i*i }     
#=> [1, 4, 9, 16]
(1..4).collect { "cat"  }   
#=> ["cat", "cat", "cat", "cat"]
(1..4).collect { |i| i + 1  } 
#=> [2, 3, 4, 5]

select/find_all

Biến array thành array nhỏ hơn: dùng select

Muốn chọn những phần tử thoả mãn điều kiện nào đó từ array, ta dùng select (có alias là find_all). Trái nghĩa với select là reject.

a = [1, 2, 3, 4]
evens = a.select { |e| e%2 == 0 }
#=> [2, 4]

Trong thực tế thay vì :

array_input = ['alive', 'dead', 'dead', 'alive', 'alive', 'dead']
array_output = []

array_input.each do |element
  if array_input == 'alive'
    array_output << element
  end
end
array_output 
#=> ["alive", "alive", "alive"]

Hãy viết:

array_input = ['alive', 'dead', 'dead', 'alive', 'alive', 'dead']

array_output = array_input.select do |e|
  e == 'alive'
end

array_output #=> ['alive', 'alive', 'alive']

inject

Kết hợp tất cả phần tử của array thành một biến duy nhất: dùng inject

Khi muốn tạo giá trị scalar (1 chiều) từ các phần tử của array (đa chiều), ví dụ để tính tổng của các phần tử, thường ta viết như sau:

a = [1, 2, 3]

sum = 0
a.each do |e|
  sum += e
end

Nếu dùng inject:

a = [1, 2, 3]
sum = a.inject(0) { |tmp, e| tmp += e }

join

Nối tất cả phần tử của array thành chuỗi: dùng join

Join chỉ có trong Array. Rất nhiều khi ta muốn nối các phần tử của array lại thành một chuỗi, cách nhau bởi dấu phẩy chẳng hạn. Nếu tự viết thì rất lắt nhắt vì dấu phẩy phải nằm xen kẽ giữa các phần tử.

Dùng join thì ta chỉ cần viết đơn giản như sau:

a = [1, 2, 3]
s = a.join(", ")
# => "1, 2, 3"

circle

Gọi 1 block với mỗi element n lần

cycle(n=nil) { |obj| block } → nil

a = ["a", "b", "c"]
a.cycle { |x| puts x }  # print, a, b, c, a, b, c,.. forever.
a.cycle(2) { |x| puts x } 
#a
#b
#c
#a
#b
#c
#=> nil

Grep

***Lấy tất cả các element giống với pattern ***

(1..100).grep 38..44 
#=> [38, 39, 40, 41, 42, 43, 44]
c = IO.constants
c.grep(/SEEK/)        
#=> [:SEEK_SET, :SEEK_CUR, :SEEK_END]
res = c.grep(/SEEK/) { |v| IO.const_get(v) }
res                   
#=> [0, 1, 2]

group_by

Nhóm các kết quả theo block, trả về một hash với value là các hash kết quả.

(1..6).group_by { |i| i%3 } 
#=> {0=>[3, 6], 1=>[1, 4], 2=>[2, 5]}

partition

Trả về mảng 2 array, 1 thỏa mãn block, 1 là phần còn lại.

(1..6).partition { |v| v.even? }
#=> [[2, 4, 6], [1, 3, 5]]

Zip

Merge 2 array, mỗi phần tử hợp thành array vs phần tử tương ứng trong mảng còn lại.

a = [ 4, 5, 6 ]
b = [ 7, 8, 9 ]

a.zip(b)                 #=> [[4, 7], [5, 8], [6, 9]]
[1, 2, 3].zip(a, b)      #=> [[1, 4, 7], [2, 5, 8], [3, 6, 9]]
[1, 2].zip(a, b)         #=> [[1, 4, 7], [2, 5, 8]]
a.zip([1, 2], [8])       #=> [[4, 1, 8], [5, 2, nil], [6, nil, nil]]

c = []
a.zip(b) { |x, y| c << x + y }  #=> nil
c                               #=> [11, 13, 15]

Tự tạo Class Enumerable cho bản thân

Bạn cũng có thể tạo một class mang các thuộc tính của enumerable bằng cách include module Enumerable.

class school
  include Enumerable

  attr_accessor :students

  def initialize
    @students = []
  end

  def each &block
    @students.each { |student| block.call(student) }
  end
end
irb(main):002:0> require 'school.rb'
=> true
irb(main):003:0> school =  School.new
=> #
irb(main):004:0> school.students =  ['Lee', 'Kim', 'Sun']
=> ["Mesut Özil", "Leo Messi", "Xavi Alonso"]
irb(main):005:0> school.map { |student| student.upcase }
=>  ['LEE', 'KIM', 'SUN']

Trên đây là những ví dụ rất cơ bản về enumerable, tuy nhiên không phải ai cũng có thể ứng dụng thành thạo, linh hoạt trong xử lý dữ liệu hằng ngày. Chúc các bạn có thể ứng dụng giúp tăng tốc độ xử lý hash array trong từng dòng code của mình.

Ngoài ra đương nhiên ta có thể tham khảo thêm về enumerable trên doc của ruby : https://ruby-doc.org/core-2.5.1/Enumerable.html

0